JP2018045658A - Determination device and determination method - Google Patents

Determination device and determination method Download PDF

Info

Publication number
JP2018045658A
JP2018045658A JP2016182363A JP2016182363A JP2018045658A JP 2018045658 A JP2018045658 A JP 2018045658A JP 2016182363 A JP2016182363 A JP 2016182363A JP 2016182363 A JP2016182363 A JP 2016182363A JP 2018045658 A JP2018045658 A JP 2018045658A
Authority
JP
Japan
Prior art keywords
field
determination
unit
random matrix
determination apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016182363A
Other languages
Japanese (ja)
Other versions
JP6680656B2 (en
Inventor
祐 宮崎
Yu Miyazaki
祐 宮崎
隼人 小林
Hayato Kobayashi
隼人 小林
香里 谷尾
Kaori Tanio
香里 谷尾
晃平 菅原
Kohei Sugawara
晃平 菅原
正樹 野口
Masaki Noguchi
正樹 野口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2016182363A priority Critical patent/JP6680656B2/en
Publication of JP2018045658A publication Critical patent/JP2018045658A/en
Application granted granted Critical
Publication of JP6680656B2 publication Critical patent/JP6680656B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To allow for outputting information that assists creativity of a user.SOLUTION: A determination device disclosed herein comprises; an acquisition unit configured to acquire a random matrix, representing a distributed representation space of words belonging to a predetermined learning unit, for each learning unit; a computation unit configured to derive an eigenvalue of each random matrix acquired by the acquisition unit; and a determination unit configured to determine similarity among the learning units based on comparison of the eigenvalues derived by the computation unit.SELECTED DRAWING: Figure 1

Description

本発明は、判定装置および判定方法に関する。   The present invention relates to a determination device and a determination method.

従来、入力された情報の解析結果に基づいて、入力された情報と関連する情報を検索もしくは生成し、検索もしくは生成した情報を応答として出力する技術が知られている。このような技術の一例として、入力されたテキストに含まれる単語、文章、文脈を多次元ベクトルに変換して解析し、解析結果に基づいて、入力されたテキストと類似するテキストや、入力されたテキストに続くテキストを類推し、類推結果を出力する自然言語処理の技術が知られている。   2. Description of the Related Art Conventionally, a technique for searching or generating information related to input information based on an analysis result of input information and outputting the searched or generated information as a response is known. As an example of such a technology, words, sentences, and contexts contained in the input text are converted into multidimensional vectors and analyzed, and based on the analysis result, text similar to the input text or input A natural language processing technique for analogizing text following text and outputting an analogy result is known.

特開2006−127077号公報JP 2006-127077 A

しかしながら、上記の従来技術では、利用者の創作を援助する情報を出力することができない場合がある。   However, in the above-described conventional technology, there are cases where information for assisting the creation of the user cannot be output.

例えば、上記の従来技術では、入力されたテキストと類似するテキストや、入力されたテキストに続くテキスト等、利用者が予測しうる情報を出力しているに過ぎず、入力されたテキストと関連するが利用者が予測しえない情報を出力することが困難である。このため、上記の従来技術では、利用者にひらめきを与えるような情報を提供することができない。   For example, in the above-described prior art, only information that can be predicted by the user, such as text similar to the input text or text following the input text, is output, and is related to the input text. However, it is difficult to output information that the user cannot predict. For this reason, the above-described conventional technology cannot provide information that gives inspiration to the user.

本願は、上記に鑑みてなされたものであって、利用者の創作を援助する情報を出力可能にすることを目的とする。   The present application has been made in view of the above, and an object thereof is to enable output of information for assisting the creation of a user.

本願に係る判定装置は、所定の学習単位に属する単語の分散表現空間を示すランダム行列を、学習単位ごとに取得する取得部と、前記取得部により取得されたランダム行列の固有値をそれぞれ算出する算出部と、前記算出部により算出された固有値の比較結果に基づいて、前記学習単位の類似性を判定する判定部とを有することを特徴とする。   The determination apparatus according to the present application calculates a random matrix indicating a distributed expression space of words belonging to a predetermined learning unit for each learning unit, and a calculation for calculating eigenvalues of the random matrix acquired by the acquisition unit. And a determination unit that determines similarity of the learning units based on a comparison result of the eigenvalues calculated by the calculation unit.

実施形態の一態様によれば、利用者の創作を援助する情報を出力可能にすることができる。   According to one aspect of the embodiment, it is possible to output information that assists the creation of the user.

図1は、実施形態に係る判定装置が実行する判定処理の一例を示す図である。FIG. 1 is a diagram illustrating an example of a determination process executed by the determination apparatus according to the embodiment. 図2は、実施形態に係る判定装置の構成例を示す図である。FIG. 2 is a diagram illustrating a configuration example of the determination apparatus according to the embodiment. 図3は、実施形態に係る分散表現空間データベースに登録される情報の一例を示す図である。FIG. 3 is a diagram illustrating an example of information registered in the distributed representation space database according to the embodiment. 図4は、実施形態に係る判定結果データベースに登録された情報の一例を示す図である。FIG. 4 is a diagram illustrating an example of information registered in the determination result database according to the embodiment. 図5は、実施形態に係る判定処理の流れの一例を説明するフローチャートである。FIG. 5 is a flowchart for explaining an example of the flow of determination processing according to the embodiment. 図6は、ハードウェア構成の一例を示す図である。FIG. 6 is a diagram illustrating an example of a hardware configuration.

以下に、本願に係る判定装置および判定方法を実施するための形態(以下、「実施形態」と記載する。)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る判定装置および判定方法が限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。   Hereinafter, modes for carrying out a determination device and a determination method according to the present application (hereinafter referred to as “embodiments”) will be described in detail with reference to the drawings. In addition, the determination apparatus and the determination method according to the present application are not limited by this embodiment. In the following embodiments, the same portions are denoted by the same reference numerals, and redundant description is omitted.

[実施形態]
〔1−1.判定装置の一例〕
まず、図1を用いて、判定装置が実行する処理の一例について説明する。図1は、実施形態に係る判定装置が実行する判定処理の一例を示す図である。図1では、判定装置10は、以下に説明する判定処理を実行する情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。
[Embodiment]
[1-1. Example of determination device)
First, an example of processing executed by the determination apparatus will be described with reference to FIG. FIG. 1 is a diagram illustrating an example of a determination process executed by the determination apparatus according to the embodiment. In FIG. 1, the determination device 10 is an information processing device that executes a determination process described below, and is realized by, for example, a server device or a cloud system.

より具体的には、判定装置10は、インターネット等の所定のネットワークN(例えば、図2を参照)を介して、入力装置100や情報処理装置200(例えば、図2を参照)といった任意の装置と通信が可能である。   More specifically, the determination device 10 is an arbitrary device such as the input device 100 or the information processing device 200 (for example, see FIG. 2) via a predetermined network N (for example, see FIG. 2) such as the Internet. Can communicate with.

ここで、入力装置100は、マイクなどの音声を取得する音声取得装置を用いて、利用者の発言を取得する。そして、入力装置100は、任意の音声認識技術を用いて、発言をテキストデータに変換し、変換後のテキストデータを判定装置10へと送信する。また、情報処理装置200は、スピーカ等の音声を出力する装置を用いて、判定装置10から受信したテキストデータの読み上げを行う。なお、情報処理装置200は、判定装置10から受信したテキストデータを所定の表示装置に表示してもよい。   Here, the input apparatus 100 acquires a user's remarks using the audio | voice acquisition apparatus which acquires audio | voices, such as a microphone. Then, the input device 100 converts the speech into text data using an arbitrary voice recognition technique, and transmits the converted text data to the determination device 10. In addition, the information processing apparatus 200 reads out text data received from the determination apparatus 10 using a device that outputs sound, such as a speaker. The information processing apparatus 200 may display the text data received from the determination apparatus 10 on a predetermined display device.

なお、入力装置100や情報処理装置200は、スマートフォンやタブレット等のスマートデバイス、デスクトップPC(Personal Computer)やノートPC、サーバ装置等の情報処理装置により実現される。なお、入力装置100および情報処理装置200は、例えば、同一の情報処理装置によって実現されてもよく、例えば、ロボット等の装置によって実現されてもよい。   Note that the input device 100 and the information processing device 200 are realized by an information processing device such as a smart device such as a smartphone or a tablet, a desktop PC (Personal Computer), a notebook PC, or a server device. The input device 100 and the information processing device 200 may be realized by the same information processing device, for example, or may be realized by a device such as a robot.

〔1−2.判定装置の処理について〕
ここで、従来技術では、入力されたテキストを構成する複数次元の単語ベクトルで示す分散表現を用いて、入力されたテキストと類似するテキストや、入力されたテキストに続くテキストを類推する。しかしながら、従来技術では、入力されたテキストと分散表現が類似するテキスト、すなわち、利用者が予測しうるテキストを出力するに過ぎない。このため、従来技術では、利用者が思いもしなかった情報や、利用者に新規なひらめきを与えるような情報、すなわち、利用者のセレンディピティ(ひらめき、気づき、驚き)を起こし得る情報を提供することができなかった。また、例えば、単純に入力されたテキストとは分散表現が類似しないテキストを出力した場合には、利用者の思考とは関係がないテキストを出力することとなり、利用者の思考を阻害する場合がある。
[1-2. About the processing of the judgment device)
Here, in the prior art, text similar to the input text or text following the input text is inferred using a distributed expression represented by a multi-dimensional word vector constituting the input text. However, the prior art merely outputs text whose distributed representation is similar to the input text, that is, text that can be predicted by the user. For this reason, the conventional technology provides information that the user has never thought of, information that gives the user a new inspiration, that is, information that can cause the user's serendipity (inspiration, awareness, surprise). I could not. Also, for example, if text that does not resemble a simple input text is output, text that is not related to the user's thought will be output, which may hinder the user's thought. is there.

一方で、利用者がある分野に属する分野の概念であって、所定の概念構造を有する発言を行った際、その分野とは異なる分野に属する事柄であって、利用者の発言が有する概念構造と類似する概念構造を有する文章を応答として出力した場合には、利用者に新たなひらめきを与えることができる可能性がある。例えば、利用者が物理学の分野に属する内容の発言を行った際に、数学の分野に属する内容であって、利用者の発言に含まれる単語群と同様のアナロジーを有する単語群を含む応答を行った場合には、利用者の発想を押し広げることができる可能性がある。   On the other hand, when a user makes a statement having a predetermined conceptual structure that belongs to a certain field, it belongs to a field different from that field and has a conceptual structure possessed by the user's statement. When a sentence having a similar conceptual structure is output as a response, there is a possibility that a new inspiration can be given to the user. For example, when a user utters content belonging to the field of physics, the response includes a word group that belongs to the field of mathematics and has an analogy similar to the word group included in the user's speech If you do, there is a possibility that you can expand your ideas.

また、利用者の発言が属する分野と非類似の分野に属する内容の応答を出力したとしても、利用者の理解が困難となり、利用者の思考を阻害する場合がある。しかしながら、利用者の発言が属する分野と同一または類似性が高い分野に属する内容の応答を出力した場合は、利用者が容易に想像することができる内容の文章しか出力することができないとも考えられる。   Further, even if a response of content belonging to a field that is not similar to the field to which the user's remark belongs is output, it may be difficult for the user to understand, and the user's thinking may be hindered. However, if a response of content belonging to a field that is the same as or similar to the field to which the user's remark belongs is output, it may be possible to output only text that can be easily imagined by the user. .

そこで、判定装置10は、以下の判定処理を実行することで、任意の粒度で設定された分野同士の類似性を判定する。例えば、判定装置10は、所定の学習単位に属する単語の分散表現空間を示すランダム行列を、学習単位ごとに取得する。また、判定装置10は、取得されたランダム行列の固有値をそれぞれ算出する。そして、判定装置10は、算出された固有値の比較結果に基づいて、学習単位の類似性を判定する。   Therefore, the determination apparatus 10 determines the similarity between fields set with an arbitrary granularity by executing the following determination process. For example, the determination apparatus 10 acquires a random matrix indicating a distributed expression space of words belonging to a predetermined learning unit for each learning unit. Moreover, the determination apparatus 10 calculates each eigenvalue of the acquired random matrix. And the determination apparatus 10 determines the similarity of a learning unit based on the comparison result of the calculated eigenvalue.

例えば、判定装置10は、所定の学習単位として、所定の分野に属する単語の分散表現空間を示すランダム行列を、分野ごとに取得する。そして、判定装置10は、分野ごとに算出したランダム行列の固有値の比較結果に基づいて、各分野の類似性を判定する。   For example, the determination apparatus 10 acquires, as a predetermined learning unit, a random matrix indicating a distributed expression space of words belonging to a predetermined field for each field. And the determination apparatus 10 determines the similarity of each field | area based on the comparison result of the eigenvalue of the random matrix computed for every field | area.

ここで、ランダム行列とは、行列要素が所定の確率法則や確率分布に従って与えられると仮定された行列である。例えば、判定装置10は、分野に関係なく、様々な単語を分散表現に変換する。例えば、判定装置10は、w2v(word2vec)の技術等、任意の算出手法を用いて、単語を分散表現に変換する。なお、以下の説明では、単語の分散表現を単語のベクトルと記載する場合がある。   Here, the random matrix is a matrix in which matrix elements are assumed to be given according to a predetermined probability law or probability distribution. For example, the determination apparatus 10 converts various words into a distributed expression regardless of the field. For example, the determination apparatus 10 converts a word into a distributed expression using an arbitrary calculation method such as a w2v (word2vec) technique. In the following description, a distributed expression of a word may be described as a word vector.

続いて、判定装置10は、任意の粒度で、比較対象とする複数の分野を特定し、特定した分野ごとに、その分野に属する単語の分散表現を選択する。そして、判定装置10は、分野ごとに、各単語の分散表現から以下の式(1)で示されるランダム行列Aを生成する。この結果、判定装置10は、1つの分野に属する単語の分散表現空間を1つのランダム行列で表現することができる。なお、式(1)では、ある分野に属するn個の単語のベクトルをwb1〜wbnと記載し、m個の所定の確率分布をwa1〜wamと記載した。また、式(1)に示すPは、以下の式(2)にpとして示す値であり、2つの単語ベクトルの内積の期待値である。すなわち、判定装置10は、ある分野の全単語の組み合わせ行列を、期待値を要素として持つランダム行列とする。 Subsequently, the determination device 10 identifies a plurality of fields to be compared with an arbitrary granularity, and selects a distributed expression of words belonging to the field for each identified field. And the determination apparatus 10 produces | generates the random matrix A shown by the following formula | equation (1) from the dispersion | distribution expression of each word for every field. As a result, the determination apparatus 10 can express the distributed expression space of words belonging to one field by one random matrix. In Equation (1), vectors of n words belonging to a certain field are described as w b1 to w bn, and m predetermined probability distributions are described as w a1 to w am . Moreover, P shown in Formula (1) is a value shown as p in the following Formula (2), and is an expected value of the inner product of two word vectors. That is, the determination apparatus 10 sets a combination matrix of all words in a certain field as a random matrix having an expected value as an element.

Figure 2018045658
Figure 2018045658

Figure 2018045658
Figure 2018045658

ここで、1つの分野に属する単語の分散表現空間をランダム行列で表現した場合、かかるランダム行列が有する特徴がその分野に属する単語の総体的な特徴に対応すると考えられる。また、このような分野ごとの総体的な特徴は、分野同士の類似性を判定するための指標になると考えられる。   Here, when the distributed expression space of words belonging to one field is represented by a random matrix, it is considered that the characteristics of the random matrix correspond to the overall characteristics of the words belonging to the field. In addition, such overall characteristics for each field are considered to be an index for determining similarity between fields.

そこで、判定装置10は、同一の分野に属する単語の分散表現から生成したランダム行列を、その分野の特徴を示すランダム行列(以下、「その分野のランダム行列」と記載する。)と見做し、ランダム行列の特徴同士を比較することで、各分野の類似性を判定する。より具体的には、判定装置10は、公知の固有値計算ライブラリ等、任意の固有値計算技術を用いて、各分野のランダム行列の固有値(すなわち、ランダム行列の特徴)を算出する。そして、判定装置10は、算出した固有値同士を比較することで、各分野の特徴を比較し、比較結果に基づいて、分野同士の類似性を判定する。   Therefore, the determination apparatus 10 regards a random matrix generated from a distributed representation of words belonging to the same field as a random matrix indicating characteristics of the field (hereinafter, referred to as “random matrix of the field”). The similarity of each field is determined by comparing the features of the random matrix. More specifically, the determination apparatus 10 calculates eigenvalues of random matrices (that is, characteristics of random matrices) in each field using an arbitrary eigenvalue calculation technique such as a known eigenvalue calculation library. And the determination apparatus 10 compares the calculated eigenvalues, compares the characteristics of each field, and determines the similarity between fields based on the comparison result.

例えば、判定装置10は、固有値の差が所定の閾値よりも大きい場合には、分野同士の類似性が所定の閾値よりも低いと判定し、固有値の差が所定の閾値以下となる場合は、分野同士の類似性が所定の閾値以上であると判定する。   For example, when the difference between the eigenvalues is larger than a predetermined threshold, the determination apparatus 10 determines that the similarity between the fields is lower than the predetermined threshold, and when the difference between the eigenvalues is equal to or less than the predetermined threshold, It is determined that the similarity between fields is equal to or greater than a predetermined threshold.

このような処理の結果、判定装置10は、各分野に属する単語の総体的な特徴同士の比較結果に基づいて、分野同士の類似性を判定することができる。すなわち、判定装置10は、各分野の抽象化された特徴同士の比較結果に基づいて、分野同士の類似性を判定することができる。この結果、判定装置10は、例えば、利用者が入力した文章が属する分野と抽象的な概念が類似する他の分野を選択し、選択した分野に属する文章であって、利用者が入力した文章と構造が類似する文章を出力することができるので、利用者にセレンディピティを与える文章を応答として出力することができる。   As a result of such processing, the determination device 10 can determine the similarity between the fields based on the comparison result of the overall characteristics of the words belonging to each field. That is, the determination apparatus 10 can determine the similarity between fields based on the comparison result between the abstracted features of each field. As a result, the determination apparatus 10 selects, for example, another field whose abstract concept is similar to the field to which the sentence input by the user belongs, and is a sentence belonging to the selected field and input by the user. Since a sentence having a similar structure can be output, a sentence giving serendipity to the user can be output as a response.

〔1−3.学習単位について〕
ここで、判定装置10は、比較対象とする分野を任意の粒度で設定してよい。例えば、判定装置10は、「医療分野」という分野に「内科」や「外科」といった分野が存在する場合、分野「内科」に属する単語の分散表現から生成したランダム行列の固有値と、分野「外科」に属する単語の分散表現から生成したランダム行列の固有値とを比較することで、分野「内科」と分野「外科」との比較を行ってもよい。また、判定装置10は、例えば、分野「内科」や分野「外科」等を含む「医療分野」と分野「民法」や分野「刑法」等を含む「法務分野」との比較を行ってもよい。
[1-3. About learning units)
Here, the determination apparatus 10 may set a field to be compared with an arbitrary granularity. For example, when there is a field such as “internal medicine” or “surgery” in the field “medical field”, the determination device 10 generates an eigenvalue of a random matrix generated from a distributed representation of words belonging to the field “internal medicine” and the field “surgery”. The field “internal medicine” and the field “surgery” may be compared by comparing the eigenvalues of the random matrix generated from the distributed representation of the words belonging to “”. The determination apparatus 10 may compare, for example, the “medical field” including the field “internal medicine” and the field “surgery” and the “legal field” including the field “civil law” and the field “criminal law”. .

ここで、w2v等、単語を分散表現へと変換する処理においては、任意の粒度で予め設定された所定の分野ごとに、その分野に属する文章等から各単語を分散表現へと変換する処理が行われている。そこで、判定装置10は、各単語を分散表現へと変換する際に設定された分野等、所定の学習単位に属する単語を所定の分野に属する単語と見做して、かかる単語の分散表現からランダム行列を生成し、ランダム行列の固有値同士を比較することで、学習単位同士の類似性を判定してもよい。   Here, in the process of converting a word into a distributed representation such as w2v, there is a process of converting each word from a sentence or the like belonging to that field into a distributed representation for each predetermined field set in an arbitrary granularity. Has been done. Accordingly, the determination device 10 regards words belonging to a predetermined learning unit as words belonging to a predetermined field, such as a field set when each word is converted into a distributed expression, and uses the distributed expression of the word. The similarity between learning units may be determined by generating a random matrix and comparing eigenvalues of the random matrix.

〔1−4.固有ベクトルの利用について〕
ここで、ランダム行列の特徴は、固有値のみならず、固有ベクトルにも表れると予測される。例えば、ある分野のランダム行列の固有値は、その分野に属する単語の総体的な概念を示し、かかるランダム行列の固有ベクトルは、その分野に属する単語の総体的な概念の指向性を示し得ると予測される。
[1-4. Use of eigenvectors)
Here, it is predicted that the characteristics of the random matrix appear not only in the eigenvalues but also in the eigenvectors. For example, the eigenvalue of a random matrix in a field indicates the general concept of words belonging to that field, and the eigenvector of such a random matrix is predicted to indicate the directivity of the general concept of words belonging to that field. The

そこで、判定装置10は、各分野のランダム行列の固有ベクトルをさらに算出し、算出した固有値の比較結果と、固有ベクトルの比較結果とに基づいて、分野同士の類似性を判定してもよい。例えば、判定装置10は、固有値の差が所定の閾値以下となり、かつ、固有ベクトルのコサイン類似度の値が所定の閾値以上となる場合(コサイン類似度が所定の閾値以上となる場合)には、各分野が類似していると判定してもよい。   Therefore, the determination apparatus 10 may further calculate eigenvectors of the random matrix of each field, and determine the similarity between the fields based on the calculated eigenvalue comparison result and the eigenvector comparison result. For example, when the difference between the eigenvalues is equal to or smaller than a predetermined threshold and the value of the cosine similarity of the eigenvector is equal to or larger than the predetermined threshold (when the cosine similarity is equal to or larger than the predetermined threshold), the determination apparatus 10 You may determine with each field being similar.

〔1−5.分野間の変換について〕
ここで、ランダム行列の固有値に基づいて、ある分野のランダム行列を他の分野のランダム行列へと変換する関数(例えば、変換関数)を求めることができる。このような関数は、変換前のランダム行列と対応する分野の単語の概念を、変換後のランダム行列と対応する分野の単語の概念へと変化させる関数であると見做すことができる。
[1-5. (Conversion between fields)
Here, a function (for example, a conversion function) for converting a random matrix in a certain field into a random matrix in another field can be obtained based on the eigenvalues of the random matrix. Such a function can be regarded as a function that changes the concept of words in the field corresponding to the random matrix before conversion into the concept of words in the field corresponding to the random matrix after conversion.

そこで、判定装置10は、算出した固有値に基づいて、第1の学習単位に属する単語を第2の学習単位に属する単語へと変換する変換関数を生成してもよい。そして、判定装置10は、生成した変換関数を用いて、利用者が入力した文章に対応する応答を生成してもよい。   Therefore, the determination apparatus 10 may generate a conversion function for converting a word belonging to the first learning unit into a word belonging to the second learning unit based on the calculated eigenvalue. And the determination apparatus 10 may produce | generate the response corresponding to the sentence which the user input using the produced | generated conversion function.

例えば、判定装置10は、利用者から第1分野に属する文章を取得する。このような場合、判定装置10は、第1分野のランダム行列の固有値や固有ベクトルに基づいて、第1分野との類似性が所定の範囲内に収まる第2分野を特定する。続いて、判定装置10は、第1分野のランダム行列を第2分野のランダム行列へと変換する変換関数を生成する。なお、判定装置10は、第1分野のランダム行列を、完全に第2分野のランダム行列へと変換する変換関数を生成する必要はなく、所定の精度で変換する変換関数を生成すればよい。例えば、判定装置10は、第1分野のランダム行列の行列要素のうち、所定の割合の行列要素を第2分野のランダム行列の行列要素と一致させる変換関数を生成すればよい。   For example, the determination apparatus 10 acquires sentences belonging to the first field from the user. In such a case, the determination apparatus 10 identifies the second field in which the similarity to the first field falls within a predetermined range based on the eigenvalues and eigenvectors of the random matrix in the first field. Subsequently, the determination apparatus 10 generates a conversion function for converting the random matrix of the first field into the random matrix of the second field. Note that the determination apparatus 10 does not need to generate a conversion function that completely converts a random matrix in the first field into a random matrix in the second field, and may generate a conversion function that converts with a predetermined accuracy. For example, the determination apparatus 10 may generate a conversion function that matches a predetermined proportion of the matrix elements of the random matrix in the first field with the matrix elements of the random matrix in the second field.

そして、判定装置10は、利用者から取得した文章から単語を抽出するとともに、抽出した単語を分散表現へと変換する。そして、判定装置10は、変換関数を用いて、抽出した単語の分散表現を、第2分野に属すると見做すことができる単語の分散表現へと変換する。また、判定装置10は、第2分野に属すると見做すことができる単語の分散表現から、第2分野に属する単語を生成する。例えば、判定装置10は、分散表現が、第2分野に属すると見做すことができる単語の分散表現と類似する単語を選択する。そして、判定装置10は、選択した単語を用いて、文章を生成し、生成した文章を応答として利用者に提供する。このような処理の結果、判定装置10は、利用者に対して、発想の範囲を広げ、セレンディピティを生じさせる文章を提供することができる。   And the determination apparatus 10 extracts a word from the sentence acquired from the user, and converts the extracted word into a distributed expression. Then, the determination apparatus 10 uses the conversion function to convert the extracted distributed representation of the word into a distributed representation of the word that can be regarded as belonging to the second field. Further, the determination device 10 generates a word belonging to the second field from a distributed representation of the word that can be regarded as belonging to the second field. For example, the determination apparatus 10 selects a word that is similar to the distributed representation of a word that can be regarded as the distributed representation belonging to the second field. And the determination apparatus 10 produces | generates a sentence using the selected word, and provides a produced sentence to a user as a response. As a result of such processing, the determination apparatus 10 can provide the user with a sentence that expands the range of ideas and causes serendipity.

〔1−6.判定装置が実行する処理の一例〕
次に、図1を用いて、判定装置10が実行する判定処理の一例について説明する。まず、判定装置10は、それぞれ異なる分野に属する単語の分散表現をランダム行列に変換する(ステップS1)。例えば、判定装置10は、分野#1に属する各単語#1−1〜#1−4の分散表現をそれぞれ算出し、算出した分散表現から、式(1)を用いて、分野#1の総体的な特徴を示すランダム行列#1を生成する。また、例えば、判定装置10は、分野#2に属する各単語#2−1〜#2−4の分散表現をそれぞれ算出し、算出した分散表現から、式(1)を用いて、分野#2の総体的な特徴を示すランダム行列#2を生成する。
[1-6. Example of processing executed by determination device]
Next, an example of determination processing executed by the determination device 10 will be described with reference to FIG. First, the determination apparatus 10 converts a distributed representation of words belonging to different fields into a random matrix (step S1). For example, the determination apparatus 10 calculates a distributed representation of each of the words # 1-1 to # 1-4 belonging to the field # 1, and uses the equation (1) from the calculated distributed representation to calculate the total of the field # 1. A random matrix # 1 showing a typical feature is generated. In addition, for example, the determination apparatus 10 calculates a distributed representation of each of the words # 2-1 to # 2-4 belonging to the field # 2, and uses the equation (1) from the calculated distributed expression to calculate the field # 2. Generate a random matrix # 2 indicating the overall characteristics of.

続いて、判定装置10は、各ランダム行列の固有値と固有ベクトルとを算出する(ステップS2)。例えば、判定装置10は、ランダム行列#1から固有値#1および固有ベクトル#1を算出し、ランダム行列#2から固有値#2および固有ベクトル#2を算出する。   Subsequently, the determination apparatus 10 calculates eigenvalues and eigenvectors of each random matrix (step S2). For example, the determination apparatus 10 calculates the eigenvalue # 1 and the eigenvector # 1 from the random matrix # 1, and calculates the eigenvalue # 2 and the eigenvector # 2 from the random matrix # 2.

そして、判定装置10は、固有値の比較結果と、固有ベクトルの比較結果とに基づいて、各分野の類似性を判定する(ステップS3)。例えば、判定装置10は、固有値#1と固有値#2との差が所定の閾値以下となり、かつ、固有ベクトル#1と固有ベクトル#2とのコサイン類似度の値が所定の閾値以上となる場合は、分野#1と分野#2とが類似する分野であると判定する。なお、判定装置10は、固有値#1と固有値#2との差が所定の閾値以下となる場合は、分野#1と分野#2とが類似すると判定してもよい。また、判定装置10は、固有値#1と固有値#2との差の値と、固有ベクトル#1と固有ベクトル#2とのコサイン類似度の値とを総合的に勘案して、分野#1と分野#2とが類似するか判定してもよい。例えば、判定装置10は、固有値#1と固有値#2との差の値や、固有ベクトル#1と固有ベクトル#2とのコサイン類似度の値等に応じて、動的に変動する閾値を採用してもよい。また、判定装置10は、利用者が所望する類似性の度合い等に応じて、任意の閾値を設定してもよい。   Then, the determination device 10 determines the similarity of each field based on the comparison result of the eigenvalues and the comparison result of the eigenvectors (step S3). For example, when the difference between the eigenvalue # 1 and the eigenvalue # 2 is equal to or less than a predetermined threshold and the value of the cosine similarity between the eigenvector # 1 and the eigenvector # 2 is equal to or greater than the predetermined threshold, It is determined that the field # 1 and the field # 2 are similar fields. Note that the determination device 10 may determine that the field # 1 and the field # 2 are similar when the difference between the unique value # 1 and the unique value # 2 is equal to or smaller than a predetermined threshold. In addition, the determination apparatus 10 comprehensively considers the value of the difference between the eigenvalue # 1 and the eigenvalue # 2 and the value of the cosine similarity between the eigenvector # 1 and the eigenvector # 2 to determine the field # 1 and the field #. It may be determined whether 2 is similar. For example, the determination apparatus 10 employs a threshold that dynamically varies according to the difference between the eigenvalue # 1 and the eigenvalue # 2, the value of the cosine similarity between the eigenvector # 1 and the eigenvector # 2, and the like. Also good. Moreover, the determination apparatus 10 may set an arbitrary threshold according to the degree of similarity desired by the user.

ここで、判定装置10は、利用者の発言を取得したものとする(ステップS4)。このような場合、判定装置10は、入力された発言の文章に含まれる単語を類似する分野の単語に変換し、入力された文章と同様の構造を有する文章を生成する(ステップS5)。例えば、判定装置10は、入力された発言の文章から、形態素解析等の技術を用いて、単語を抽出する。そして、判定装置10は、抽出した単語から、利用者の発言が属する分野を特定する。   Here, it is assumed that the determination device 10 has acquired a user's remarks (step S4). In such a case, the determination apparatus 10 converts a word included in the input utterance sentence into a word in a similar field, and generates a sentence having the same structure as the input sentence (step S5). For example, the determination apparatus 10 extracts a word from a sentence of an input utterance using a technique such as morphological analysis. And the determination apparatus 10 specifies the field | area to which a user's utterance belongs from the extracted word.

続いて、判定装置10は、特定した分野と類似する分野を選択し、特定した分野のランダム行列を選択した分野のランダム行列へと変換する変換関数を用いて、入力された発言の文章に含まれる単語を、選択した分野の単語へと変換する。例えば、判定装置10は、入力された発言の文章が分野#1に属し、分野#1と類似する分野として分野#2が存在する場合は、分野#1のランダム行列を分野#2のランダム行列へと変換する変換関数を用いて、入力された発言の文章から抽出した単語を分野#2の単語へと変換する。   Subsequently, the determination device 10 selects a field similar to the specified field, and includes the input speech sentence using a conversion function that converts a random matrix of the specified field into a random matrix of the selected field. Convert the words to be used to the selected field. For example, in the case where the sentence of the input speech belongs to the field # 1 and the field # 2 exists as a field similar to the field # 1, the determination apparatus 10 changes the random matrix of the field # 1 to the random matrix of the field # 2. Using the conversion function for converting to, the words extracted from the text of the input utterance are converted to the words in the field # 2.

より具体的には、判定装置10は、入力された発言の文章から抽出した単語の分散表現を、変換関数を用いて変換する。また、判定装置10は、分野#2に属する単語の分散表現のうち、変換関数を用いて変換した分散表現と類似する分散表現を選択し、選択した分散表現と対応する単語を特定する。そして、判定装置10は、選択した単語を用いて分野#2に属する文章であって、入力された文章と同様の構造を有する文章(すなわち、単語間の関係性が類似する文章)を生成し、生成した文章を出力する(ステップS6)。この結果、例えば、判定装置10は、情報処理装置200に、生成した文章を応答として発言させることができる。   More specifically, the determination apparatus 10 converts the distributed expression of words extracted from the input sentence sentence using a conversion function. Further, the determination device 10 selects a distributed expression similar to the distributed expression converted using the conversion function from among the distributed expressions of the words belonging to the field # 2, and specifies the word corresponding to the selected distributed expression. Then, the determination apparatus 10 generates a sentence that belongs to the field # 2 using the selected word and has a structure similar to the input sentence (that is, a sentence having a similar relationship between words). The generated sentence is output (step S6). As a result, for example, the determination apparatus 10 can cause the information processing apparatus 200 to speak the generated sentence as a response.

〔2.判定装置の構成〕
以下、上記した判定処理を実現する判定装置10が有する機能構成の一例について説明する。図2は、実施形態に係る判定装置の構成例を示す図である。図2に示すように、判定装置10は、通信部20、記憶部30、および制御部40を有する。
[2. (Configuration of judgment device)
Hereinafter, an example of a functional configuration of the determination apparatus 10 that realizes the above-described determination process will be described. FIG. 2 is a diagram illustrating a configuration example of the determination apparatus according to the embodiment. As illustrated in FIG. 2, the determination device 10 includes a communication unit 20, a storage unit 30, and a control unit 40.

通信部20は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部20は、ネットワークNと有線または無線で接続され、入力装置100、および情報処理装置200との間で情報の送受信を行う。   The communication unit 20 is realized by, for example, a NIC (Network Interface Card). The communication unit 20 is connected to the network N in a wired or wireless manner, and transmits / receives information to / from the input device 100 and the information processing device 200.

記憶部30は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部30は、分散表現空間データベース31および判定結果データベース32を記憶する。   The storage unit 30 is realized by, for example, a semiconductor memory device such as a RAM (Random Access Memory) or a flash memory, or a storage device such as a hard disk or an optical disk. The storage unit 30 also stores a distributed representation space database 31 and a determination result database 32.

分散表現空間データベース31には、分散表現に変換された単語が分野ごとに登録されている。例えば、図3は、実施形態に係る分散表現空間データベースに登録される情報の一例を示す図である。図3に示すように、分散表現空間データベース31には、「分野」、「単語」、および「分散表現」といった項目を有する情報が登録される。   In the distributed expression space database 31, words converted into distributed expressions are registered for each field. For example, FIG. 3 is a diagram illustrating an example of information registered in the distributed representation space database according to the embodiment. As illustrated in FIG. 3, information having items such as “field”, “word”, and “distributed expression” is registered in the distributed expression space database 31.

ここで、「分野」とは、対応付けられた「単語」が示す単語が属する分野を示す識別子である。また、「単語」とは、分散表現と対応する単語、すなわち、テキストである。また、「分散表現」とは、対応付けられた「単語」の分散表現である。なお、図3に示す例では「単語#1−1」や「分散表現#1−1」等といった概念的な値を記載したが、実際には、各種単語を示すテキストデータや、分散表現である多次元量等が登録される。   Here, the “field” is an identifier indicating the field to which the word indicated by the associated “word” belongs. The “word” is a word corresponding to the distributed expression, that is, a text. The “distributed expression” is a distributed expression of the associated “word”. In the example shown in FIG. 3, conceptual values such as “word # 1-1” and “distributed expression # 1-1” are described. However, in actuality, text data indicating various words and distributed expressions are used. A certain multidimensional quantity or the like is registered.

例えば、図3に示す例では、分散表現空間データベース31には、分野「分野#1」、単語「単語#1−1」、および分散表現「分散表現#1−1」が対応付けて登録されている。このような情報は、「単語#1−1」が「分野#1」に属する単語であり、その分散表現が「分散表現#1−1」である旨を示す。   For example, in the example shown in FIG. 3, the field “field # 1”, the word “word # 1-1”, and the distributed expression “distributed expression # 1-1” are registered in the distributed expression space database 31 in association with each other. ing. Such information indicates that “word # 1-1” is a word belonging to “field # 1” and its distributed expression is “distributed expression # 1-1”.

図2に戻り、説明を続ける。判定結果データベース32には、上述した判定処理による判定結果として、各分野の類似関係が登録されている。例えば、図4は、実施形態に係る判定結果データベースに登録された情報の一例を示す図である。図4に示すように判定結果データベース32には、「第1分野」、「第2分野」および「変換関数」といった項目を有する情報が登録されている。ここで、「第1分野」および「第2分野」は、類似関係にある分野を示し、「変換関数」は、対応付けられた類似関係が有する分野でランダム行列を変換する変換関数を示す情報である。   Returning to FIG. 2, the description will be continued. In the determination result database 32, similarity relationships in each field are registered as determination results by the above-described determination processing. For example, FIG. 4 is a diagram illustrating an example of information registered in the determination result database according to the embodiment. As shown in FIG. 4, information having items such as “first field”, “second field”, and “conversion function” is registered in the determination result database 32. Here, “first field” and “second field” indicate fields having a similar relationship, and “conversion function” indicates information indicating a conversion function for converting a random matrix in a field having an associated similar relationship. It is.

例えば、図4に示す例では、第1分野「分野#1」、第2分野「分野#2」および変換関数「変換関数#1」が対応付けて登録されている。このような情報は、「分野#1」および「分野#2」が類似すると判定されており、「分野#1」のランダム行列を「分野#2」のランダム行列へと変換する変換関数が「変換関数#1」である旨を示す。   For example, in the example illustrated in FIG. 4, the first field “field # 1”, the second field “field # 2”, and the conversion function “conversion function # 1” are registered in association with each other. Such information is determined that “field # 1” and “field # 2” are similar, and a conversion function for converting a random matrix of “field # 1” into a random matrix of “field # 2” is “ This indicates that the function is “conversion function # 1”.

図2に戻り、説明を続ける。制御部40は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等のプロセッサによって、判定装置10内部の記憶装置に記憶されている各種プログラムがRAM等を作業領域として実行されることにより実現される。また、制御部40は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。   Returning to FIG. 2, the description will be continued. The control unit 40 is a controller. For example, various programs stored in a storage device inside the determination apparatus 10 are stored in a RAM or the like by a processor such as a CPU (Central Processing Unit) or an MPU (Micro Processing Unit). This is realized by being executed as a work area. The control unit 40 is a controller, and may be realized by an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).

図2に示すように、制御部40は、取得部41、算出部42、判定部43、生成部44、および出力部45を有する。   As illustrated in FIG. 2, the control unit 40 includes an acquisition unit 41, a calculation unit 42, a determination unit 43, a generation unit 44, and an output unit 45.

取得部41は、所定の学習単位に属する単語の分散表現空間を示すランダム行列を、学習単位ごとに取得する。例えば、取得部41は、所定の学習単位として、所定の分野に属する単語の分散表現空間を示すランダム行列を、分野ごとに取得する。より具体的な例を挙げると、取得部41は、分散表現空間データベース31を参照し、所定の分野と対応付けられた単語の分散表現を選択する。そして、取得部41は、選択した分散表現を用いて、上述した式(1)により、所定の分野のランダム行列を生成する。また、取得部41は、このような処理を各分野ごとに繰り返すことで、全ての分野のランダム行列を生成する。   The acquisition unit 41 acquires a random matrix indicating a distributed expression space of words belonging to a predetermined learning unit for each learning unit. For example, the acquisition unit 41 acquires, as a predetermined learning unit, a random matrix indicating a distributed expression space of words belonging to a predetermined field for each field. As a more specific example, the acquisition unit 41 refers to the distributed expression space database 31 and selects a distributed expression of a word associated with a predetermined field. And the acquisition part 41 produces | generates the random matrix of a predetermined field | area by Formula (1) mentioned above using the selected dispersion | distribution expression. In addition, the acquisition unit 41 repeats such processing for each field, thereby generating random matrices for all fields.

算出部42は、ランダム行列の固有値をそれぞれ算出する。また、算出部42は、ランダム行列の固有ベクトルをさらに算出する。例えば、算出部42は、取得部41が分野ごとに生成したランダム行列から、固有値と固有ベクトルとをそれぞれ算出する。   The calculation unit 42 calculates eigenvalues of the random matrix. In addition, the calculation unit 42 further calculates an eigenvector of the random matrix. For example, the calculation unit 42 calculates eigenvalues and eigenvectors from the random matrix generated for each field by the acquisition unit 41.

判定部43は、固有値の比較結果に基づいて、学習単位の類似性を判定する。例えば、判定部43は、固有値の比較結果に基づいて、各分野の類似性を判定する。なお、判定部43は、固有値の比較結果と、固有ベクトルの比較結果とに基づいて、学習単位の類似性を判定してもよい。例えば、判定部43は、固有値の比較結果と、固有ベクトル同士のコサイン類似度の値とに基づいて、学習単位の類似性を判定してもよい。   The determination unit 43 determines the similarity of learning units based on the comparison result of the eigenvalues. For example, the determination unit 43 determines the similarity of each field based on the comparison result of the eigenvalues. Note that the determination unit 43 may determine the similarity of learning units based on the comparison result of eigenvalues and the comparison result of eigenvectors. For example, the determination unit 43 may determine the similarity of learning units based on the comparison result of eigenvalues and the value of cosine similarity between eigenvectors.

より具体的な例を挙げると、判定部43は、算出部42が分野ごとに算出した固有値と固有ベクトルとを取得する。そして、判定部43は、全ての分野の組み合わせについて、固有値と固有ベクトルとを比較し、比較結果に基づいて、各分野が類似するか否かを判定する。例えば、判定部43は、分野#1の固有値と、分野#2の固有値との差が所定の閾値以下となり、かつ、分野#1の固有ベクトルと、分野#2の固有ベクトルとのコサイン類似度の値が所定の閾値以上となる場合は、分野#1と分野#2とが類似すると判定する。そして、判定部43は、分野#1と分野#2とを判定結果データベース32に対応付けて登録する。   As a more specific example, the determination unit 43 acquires eigenvalues and eigenvectors calculated by the calculation unit 42 for each field. Then, the determination unit 43 compares eigenvalues and eigenvectors for all combinations of fields, and determines whether or not each field is similar based on the comparison result. For example, the determination unit 43 determines that the difference between the eigenvalue of the field # 1 and the eigenvalue of the field # 2 is equal to or less than a predetermined threshold, and the value of the cosine similarity between the eigenvector of the field # 1 and the eigenvector of the field # 2 Is equal to or greater than a predetermined threshold value, it is determined that field # 1 and field # 2 are similar. Then, the determination unit 43 registers field # 1 and field # 2 in association with the determination result database 32.

生成部44は、固有値に基づいて、第1の学習単位に属する単語を第2の学習単位に属する単語に変換する変換関数を生成する。例えば、生成部44は、判定結果データベース32を参照し、判定部43により類似すると判定された分野#1および分野#2を特定する。このような場合、生成部44は、分野#1の固有値と分野#2の固有値とから、分野#1のランダム行列を分野#2のランダム行列へと変換させる変換関数#1を算出する。そして、生成部44は、算出した変換関数#1を、分野#1および分野#2と対応付けて判定結果データベース32に登録する。なお、生成部44は、固有ベクトルを用いて、変換関数の算出を行ってもよい。   The generation unit 44 generates a conversion function for converting a word belonging to the first learning unit to a word belonging to the second learning unit based on the eigenvalue. For example, the generation unit 44 refers to the determination result database 32 and identifies the field # 1 and the field # 2 that are determined to be similar by the determination unit 43. In such a case, the generation unit 44 calculates a conversion function # 1 that converts the random matrix of the field # 1 into the random matrix of the field # 2 from the eigenvalue of the field # 1 and the eigenvalue of the field # 2. Then, the generation unit 44 registers the calculated conversion function # 1 in the determination result database 32 in association with the field # 1 and the field # 2. Note that the generation unit 44 may calculate the conversion function using the eigenvector.

また、生成部44は、変換関数を用いて、利用者によって入力された第1の学習単位に属する文章から、第2の学習単位に属する文章を、利用者によって入力された文章に対する応答として生成する。例えば、生成部44は、入力装置100から利用者の発言の文章を受付けた場合は、かかる文章から単語を抽出し、抽出した単語が属する分野を分散表現空間データベース31等を用いて特定する。続いて、生成部44は、判定結果データベース32を参照し、特定した分野のランダム行列を、その分野と類似する分野のランダム行列へと変換する変換関数を判定結果データベース32から選択する。   Further, the generation unit 44 generates a sentence belonging to the second learning unit as a response to the sentence input by the user from the sentence belonging to the first learning unit input by the user using the conversion function. To do. For example, when the generation unit 44 receives a sentence of a user's statement from the input device 100, the generation unit 44 extracts a word from the sentence and specifies a field to which the extracted word belongs using the distributed expression space database 31 or the like. Subsequently, the generation unit 44 refers to the determination result database 32 and selects, from the determination result database 32, a conversion function for converting a random matrix in the identified field into a random matrix in a field similar to that field.

そして、生成部44は、判定結果データベース32から選択した変換関数を用いて、利用者の発言の文章から抽出した単語を、類似する分野の単語へと変換する。その後、生成部44は、変換後の単語を用いて、利用者によって入力された文章と同様の構造を有する文章を生成する。   And the production | generation part 44 converts the word extracted from the sentence of a user's utterance into the word of a similar field | area using the conversion function selected from the determination result database 32. FIG. Thereafter, the generation unit 44 uses the converted word to generate a sentence having the same structure as the sentence input by the user.

出力部45は、生成部44が生成した文章を利用者によって入力された文章に対する応答として出力する。例えば、出力部45は、生成部44が生成した文章を情報処理装置200へと出力し、入力装置100から受付けた発言に対する応答として、出力した文章を出力するように指示する。この結果、情報処理装置200は、応答を出力することができる。   The output unit 45 outputs the text generated by the generation unit 44 as a response to the text input by the user. For example, the output unit 45 outputs the text generated by the generation unit 44 to the information processing apparatus 200 and instructs to output the output text as a response to the utterance received from the input device 100. As a result, the information processing apparatus 200 can output a response.

〔3.判定装置が実行する処理の流れの一例〕
次に、図5を用いて、判定装置10が実行する判定処理の流れの一例について説明する。図5は、実施形態に係る判定処理の流れの一例を説明するフローチャートである。まず、判定装置10は、各分野に属する単語群を抽出し(ステップS101)、同じ分野に属する単語群の分散表現を含む分散表現空間を示すランダム行列を取得する(ステップS102)。すなわち、判定装置10は、各分野のランダム行列を取得する。そして、判定装置10は、取得したランダム行列の固有値と固有ベクトルとを算出し(ステップS103)、算出した固有値と固有ベクトルとの比較結果に基づいて、分野同士の類似性を判定し(ステップS104)、処理を終了する。
[3. Example of flow of processing executed by determination device]
Next, an example of a flow of determination processing executed by the determination device 10 will be described with reference to FIG. FIG. 5 is a flowchart for explaining an example of the flow of determination processing according to the embodiment. First, the determination apparatus 10 extracts word groups belonging to each field (step S101), and obtains a random matrix indicating a distributed expression space including a distributed expression of word groups belonging to the same field (step S102). That is, the determination apparatus 10 acquires a random matrix for each field. Then, the determination device 10 calculates eigenvalues and eigenvectors of the acquired random matrix (step S103), determines similarity between fields based on a comparison result between the calculated eigenvalues and eigenvectors (step S104), The process ends.

〔4.変形例〕
上記では、判定装置10による判定処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、判定装置10が実行する判定処理のバリエーションについて説明する。
[4. (Modification)
In the above, an example of the determination process by the determination apparatus 10 has been described. However, the embodiment is not limited to this. Hereinafter, the variation of the determination process which the determination apparatus 10 performs is demonstrated.

〔4−1.判定結果の利用について〕
例えば、判定装置10は、上述した判定処理を用いて、モデルの類似性を判定する処理を実行してもよい。例えば、判定装置10は、ある単語群から第1のモデルを用いて生成された分散表現群から第1ランダム行列を生成し、同一の単語群から第2のモデルを用いて生成された分散表現群から第2ランダム行列を生成する。そして、判定装置10は、第1ランダム行列の固有値と、第2ランダム行列の固有値との比較結果に基づいて、第1のモデルと第2のモデルとの類似性を判定してもよい。このような処理を実行した場合、例えば、判定装置10は、第1のモデルに代えて、第2のモデルを使用することができるか否かといった判定を行うことができる。
[4-1. Use of judgment results)
For example, the determination apparatus 10 may execute processing for determining model similarity using the determination processing described above. For example, the determination apparatus 10 generates a first random matrix from a group of distributed expressions generated from a certain word group using the first model, and generates a distributed expression generated from the same word group using the second model. A second random matrix is generated from the group. And the determination apparatus 10 may determine the similarity of a 1st model and a 2nd model based on the comparison result of the eigenvalue of a 1st random matrix, and the eigenvalue of a 2nd random matrix. When such processing is executed, for example, the determination apparatus 10 can determine whether or not the second model can be used instead of the first model.

〔4−2.装置構成〕
上述した例では、判定装置10は、判定装置10内で判定処理を実行した。しかしながら、実施形態は、これに限定されるものではない。例えば、判定装置10は、ランダム行列の固有値や固有ベクトルの比較結果に基づいて、分野同士の類似性を判定するバックエンドサーバと、類似性の判定結果や変換関数を用いて、利用者から受付けた文章を変換し、応答として出力するフロントエンドサーバとにより実現されてもよい。また、判定装置10は、分散表現空間データベース31や判定結果データベース32を外部のストレージサーバに記憶させてもよい。
[4-2. Device configuration〕
In the example described above, the determination device 10 executes the determination process in the determination device 10. However, the embodiment is not limited to this. For example, the determination apparatus 10 receives from a user using a back-end server that determines similarity between fields based on a comparison result of eigenvalues and eigenvectors of a random matrix, and a similarity determination result and a conversion function. You may implement | achieve by the front end server which converts a sentence and outputs it as a response. Further, the determination apparatus 10 may store the distributed representation space database 31 and the determination result database 32 in an external storage server.

〔4−3.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文章中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
[4-3. Others]
In addition, among the processes described in the above embodiment, all or part of the processes described as being automatically performed can be performed manually, or the processes described as being performed manually can be performed. All or a part can be automatically performed by a known method. In addition, the processing procedures, specific names, information including various data and parameters shown in the above text and drawings can be arbitrarily changed unless otherwise specified. For example, the various types of information illustrated in each drawing is not limited to the illustrated information.

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。   Further, each component of each illustrated apparatus is functionally conceptual, and does not necessarily need to be physically configured as illustrated. In other words, the specific form of distribution / integration of each device is not limited to that shown in the figure, and all or a part thereof may be functionally or physically distributed or arbitrarily distributed in arbitrary units according to various loads or usage conditions. Can be integrated and configured.

また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。   In addition, the above-described embodiments can be appropriately combined within a range in which processing contents are not contradictory.

〔5.プログラム〕
また、上述してきた実施形態に係る判定装置10は、例えば図6に示すような構成のコンピュータ1000によって実現される。図6は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
[5. program〕
Further, the determination apparatus 10 according to the embodiment described above is realized by a computer 1000 having a configuration as shown in FIG. 6, for example. FIG. 6 is a diagram illustrating an example of a hardware configuration. The computer 1000 is connected to an output device 1010 and an input device 1020, and an arithmetic device 1030, a primary storage device 1040, a secondary storage device 1050, an output IF (Interface) 1060, an input IF 1070, and a network IF 1080 are connected via a bus 1090. Have

演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置1040は、RAM等、演算装置1030が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ROM(Read Only Memory)、HDD、フラッシュメモリ等により実現される。   The arithmetic device 1030 operates based on a program stored in the primary storage device 1040 and the secondary storage device 1050, a program read from the input device 1020, and the like, and executes various processes. The primary storage device 1040 is a memory device such as a RAM that temporarily stores data used by the arithmetic device 1030 for various arithmetic operations. The secondary storage device 1050 is a storage device in which data used for various calculations by the calculation device 1030 and various databases are registered, and is realized by a ROM (Read Only Memory), an HDD, a flash memory, or the like.

出力IF1060は、モニタやプリンタといった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力IF1070は、マウス、キーボード、およびスキャナ等といった各種の入力装置1020から情報を受信するためのインタフェースであり、例えば、USB等により実現される。   The output IF 1060 is an interface for transmitting information to be output to an output device 1010 that outputs various types of information such as a monitor and a printer. For example, USB (Universal Serial Bus), DVI (Digital Visual Interface), This is realized by a standard connector such as HDMI (registered trademark) (High Definition Multimedia Interface). The input IF 1070 is an interface for receiving information from various input devices 1020 such as a mouse, a keyboard, and a scanner, and is realized by, for example, a USB.

なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置1020は、USBメモリ等の外付け記憶媒体であってもよい。   The input device 1020 includes, for example, an optical recording medium such as a CD (Compact Disc), a DVD (Digital Versatile Disc), and a PD (Phase change rewritable disk), a magneto-optical recording medium such as an MO (Magneto-Optical disk), and a tape. It may be a device that reads information from a medium, a magnetic recording medium, a semiconductor memory, or the like. The input device 1020 may be an external storage medium such as a USB memory.

ネットワークIF1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。   The network IF 1080 receives data from other devices via the network N and sends the data to the arithmetic device 1030, and transmits data generated by the arithmetic device 1030 to other devices via the network N.

演算装置1030は、出力IF1060や入力IF1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。   The arithmetic device 1030 controls the output device 1010 and the input device 1020 via the output IF 1060 and the input IF 1070. For example, the arithmetic device 1030 loads a program from the input device 1020 or the secondary storage device 1050 onto the primary storage device 1040, and executes the loaded program.

例えば、コンピュータ1000が判定装置10として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムを実行することにより、制御部40の機能を実現する。   For example, when the computer 1000 functions as the determination device 10, the arithmetic device 1030 of the computer 1000 implements the function of the control unit 40 by executing a program loaded on the primary storage device 1040.

〔6.効果〕
上述したように、判定装置10は、所定の学習単位に属する単語の分散表現空間を示すランダム行列を、学習単位ごとに取得する。また、判定装置10は、取得されたランダム行列の固有値をそれぞれ算出する。そして、判定装置10は、算出された固有値の比較結果に基づいて、学習単位の類似性を判定する。この結果、判定装置10は、例えば、相対的な概念が類似する分野を特定することができるので、利用者が入力した文章と構造が類似する文章であって、利用者が入力した文章とは異なる分野の文章を出力することができる。この結果、判定装置10は、利用者の創作を援助する情報を出力することができる。
[6. effect〕
As described above, the determination apparatus 10 acquires a random matrix indicating a distributed expression space of words belonging to a predetermined learning unit for each learning unit. Moreover, the determination apparatus 10 calculates each eigenvalue of the acquired random matrix. And the determination apparatus 10 determines the similarity of a learning unit based on the comparison result of the calculated eigenvalue. As a result, for example, the determination apparatus 10 can identify a field having a similar relative concept, so that the sentence is similar in structure to the sentence input by the user, and is the sentence input by the user. You can output texts from different fields. As a result, the determination apparatus 10 can output information that assists the creation of the user.

また、判定装置10は、所定の学習単位として、所定の分野に属する単語の分散表現空間を示すランダム行列を、分野ごとに取得する。そして、判定装置10は、固有値の比較結果に基づいて、分野の類似性を判定する。この結果、判定装置10は、各分野の総体的な概念の比較結果に基づいて、分野の類似性を判定できる。   Further, the determination apparatus 10 acquires, as a predetermined learning unit, a random matrix indicating a distributed expression space of words belonging to a predetermined field for each field. And the determination apparatus 10 determines the similarity of a field | area based on the comparison result of an eigenvalue. As a result, the determination apparatus 10 can determine the similarity of fields based on the comparison result of the overall concept of each field.

また、判定装置10は、ランダム行列の固有ベクトルをさらに算出し、固有値の比較結果と、固有ベクトルの比較結果とに基づいて、学習単位の類似性を判定する。例えば、判定装置10は、固有値の比較結果と、固有ベクトル同士のコサイン類似度の値とに基づいて、学習単位の類似性を判定する。この結果、判定装置10は、分野の類似性の判定精度を向上させることができる。   The determination device 10 further calculates eigenvectors of the random matrix, and determines the similarity of the learning units based on the comparison result of the eigenvalues and the comparison result of the eigenvectors. For example, the determination apparatus 10 determines the similarity of learning units based on the comparison result of eigenvalues and the value of cosine similarity between eigenvectors. As a result, the determination apparatus 10 can improve the accuracy of determining the similarity in the field.

また、判定装置10は、算出された固有値に基づいて、第1の学習単位に属する単語を第2の学習単位に属する単語に変換する変換関数を生成する。また、判定装置10は、変換関数を用いて、利用者によって入力された第1の学習単位に属する文章から、第2の学習単位に属する文章を、利用者によって入力された文章に対する応答として生成する。このため、判定装置10は、利用者が入力した文章から、利用者が想像していなかった文章であって、利用者が入力した文章が属する分野とは異なる分野において利用者が入力した文章と同様のコンテキストを有する文章を出力することができる。この結果、判定装置10は、利用者の創作を援助する情報を出力することができる。   Further, the determination apparatus 10 generates a conversion function for converting a word belonging to the first learning unit to a word belonging to the second learning unit based on the calculated eigenvalue. Further, the determination device 10 generates a sentence belonging to the second learning unit as a response to the sentence input by the user from the sentence belonging to the first learning unit input by the user using the conversion function. To do. For this reason, the determination apparatus 10 is a sentence that the user has not imagined from the sentences input by the user, and the sentence input by the user in a field different from the field to which the sentence input by the user belongs. A sentence having a similar context can be output. As a result, the determination apparatus 10 can output information that assists the creation of the user.

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。   As described above, some of the embodiments of the present application have been described in detail with reference to the drawings. However, these are merely examples, and various modifications, including the aspects described in the disclosure section of the invention, based on the knowledge of those skilled in the art, It is possible to implement the present invention in other forms with improvements.

また、上記してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、生成部は、生成手段や生成回路に読み替えることができる。   Moreover, the above-mentioned “section (module, unit)” can be read as “means”, “circuit”, and the like. For example, the generation unit can be read as generation means or a generation circuit.

10 判定装置
20 通信部
30 記憶部
31 分散表現空間データデータベース
32 判定結果データベース
40 制御部
41 取得部
42 算出部
43 判定部
44 生成部
45 出力部
100 入力装置
200 情報処理装置
DESCRIPTION OF SYMBOLS 10 Determination apparatus 20 Communication part 30 Storage part 31 Distributed expression spatial data database 32 Determination result database 40 Control part 41 Acquisition part 42 Calculation part 43 Determination part 44 Generation part 45 Output part 100 Input apparatus 200 Information processing apparatus

Claims (7)

所定の学習単位に属する単語の分散表現空間を示すランダム行列を、学習単位ごとに取得する取得部と、
前記取得部により取得されたランダム行列の固有値をそれぞれ算出する算出部と、
前記算出部により算出された固有値の比較結果に基づいて、前記学習単位の類似性を判定する判定部と
を有することを特徴とする判定装置。
An acquisition unit that acquires, for each learning unit, a random matrix indicating a distributed expression space of words belonging to a predetermined learning unit;
A calculation unit for calculating each eigenvalue of the random matrix acquired by the acquisition unit;
And a determination unit that determines similarity of the learning units based on a comparison result of the eigenvalues calculated by the calculation unit.
前記取得部は、前記所定の学習単位として、所定の分野に属する単語の分散表現空間を示すランダム行列を、分野ごとに取得し、
前記判定部は、前記固有値の比較結果に基づいて、前記分野の類似性を判定する
ことを特徴とする請求項1に記載の判定装置。
The acquisition unit acquires, as the predetermined learning unit, a random matrix indicating a distributed expression space of words belonging to a predetermined field for each field,
The determination apparatus according to claim 1, wherein the determination unit determines similarity in the field based on a comparison result of the eigenvalues.
前記算出部は、前記ランダム行列の固有ベクトルをさらに算出し、
前記判定部は、前記固有値の比較結果と、前記固有ベクトルの比較結果とに基づいて、前記学習単位の類似性を判定する
ことを特徴とする請求項1または2に記載の判定装置。
The calculation unit further calculates an eigenvector of the random matrix,
The determination apparatus according to claim 1, wherein the determination unit determines similarity of the learning units based on the comparison result of the eigenvalues and the comparison result of the eigenvectors.
前記判定部は、前記固有値の比較結果と、前記固有ベクトル同士のコサイン類似度の値とに基づいて、前記学習単位の類似性を判定する
ことを特徴とする請求項3に記載の判定装置。
The determination apparatus according to claim 3, wherein the determination unit determines similarity of the learning units based on a comparison result of the eigenvalues and a value of cosine similarity between the eigenvectors.
前記算出部により算出された固有値に基づいて、第1の学習単位に属する単語を第2の学習単位に属する単語に変換する変換関数を生成する生成部
をさらに有することを特徴とする請求項1〜4のうちいずれか1つに記載の判定装置。
The generator further includes: a generation unit that generates a conversion function for converting a word belonging to the first learning unit to a word belonging to the second learning unit based on the eigenvalue calculated by the calculation unit. The determination apparatus according to any one of?
前記生成部は、前記変換関数を用いて、利用者によって入力された第1の学習単位に属する文章から、第2の学習単位に属する文章を、利用者によって入力された文章に対する応答として生成する
ことを特徴とする請求項5に記載の判定装置。
The generation unit generates a sentence belonging to the second learning unit as a response to the sentence input by the user from the sentence belonging to the first learning unit input by the user, using the conversion function. The determination apparatus according to claim 5.
判定装置が実行する判定方法であって、
所定の学習単位に属する単語の分散表現空間を示すランダム行列を、学習単位ごとに取得する取得工程と、
前記取得工程により取得されたランダム行列の固有値をそれぞれ算出する算出工程と、
前記算出工程により算出された固有値の比較結果に基づいて、前記学習単位の類似性を判定する判定工程と
を含むことを特徴とする判定方法。
A determination method executed by a determination device,
An acquisition step of acquiring, for each learning unit, a random matrix indicating a distributed expression space of words belonging to a predetermined learning unit;
A calculation step of calculating each eigenvalue of the random matrix acquired by the acquisition step;
And a determination step of determining similarity of the learning units based on a comparison result of the eigenvalues calculated by the calculation step.
JP2016182363A 2016-09-16 2016-09-16 Judgment device and judgment method Active JP6680656B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016182363A JP6680656B2 (en) 2016-09-16 2016-09-16 Judgment device and judgment method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016182363A JP6680656B2 (en) 2016-09-16 2016-09-16 Judgment device and judgment method

Publications (2)

Publication Number Publication Date
JP2018045658A true JP2018045658A (en) 2018-03-22
JP6680656B2 JP6680656B2 (en) 2020-04-15

Family

ID=61695072

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016182363A Active JP6680656B2 (en) 2016-09-16 2016-09-16 Judgment device and judgment method

Country Status (1)

Country Link
JP (1) JP6680656B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022526522A (en) * 2019-03-27 2022-05-25 ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング Methods and devices for analyzing elements of text collections, methods and devices for retrieving information in digital data

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004240505A (en) * 2003-02-03 2004-08-26 Nippon Telegr & Teleph Corp <Ntt> Method, device, program and program recording medium for measuring similarity between concurrence thesauri
JP2006215884A (en) * 2005-02-04 2006-08-17 Ricoh Co Ltd Important text element creating system, text categorizing system, program and storing medium
US20080104078A1 (en) * 2006-10-31 2008-05-01 Kave Eshghi Method for creating sketches of sets to permit comparison
JP2009129323A (en) * 2007-11-27 2009-06-11 Hitachi Ltd Synonym extraction device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004240505A (en) * 2003-02-03 2004-08-26 Nippon Telegr & Teleph Corp <Ntt> Method, device, program and program recording medium for measuring similarity between concurrence thesauri
JP2006215884A (en) * 2005-02-04 2006-08-17 Ricoh Co Ltd Important text element creating system, text categorizing system, program and storing medium
US20080104078A1 (en) * 2006-10-31 2008-05-01 Kave Eshghi Method for creating sketches of sets to permit comparison
JP2009129323A (en) * 2007-11-27 2009-06-11 Hitachi Ltd Synonym extraction device

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022526522A (en) * 2019-03-27 2022-05-25 ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング Methods and devices for analyzing elements of text collections, methods and devices for retrieving information in digital data
JP7297920B2 (en) 2019-03-27 2023-06-26 ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング Methods and apparatus for analyzing elements of text collections, methods and apparatus for searching for information within digital data
US11875112B2 (en) 2019-03-27 2024-01-16 Robert Bosch Gmbh Method and device for analyzing elements of a text collection, method and device for searching for information in digital data

Also Published As

Publication number Publication date
JP6680656B2 (en) 2020-04-15

Similar Documents

Publication Publication Date Title
JP6556575B2 (en) Audio processing apparatus, audio processing method, and audio processing program
US11521110B2 (en) Learning apparatus, learning method, and non-transitory computer readable storage medium
US10643032B2 (en) Output sentence generation apparatus, output sentence generation method, and output sentence generation program
US11693854B2 (en) Question responding apparatus, question responding method and program
JP6955963B2 (en) Search device, similarity calculation method, and program
JP2013167666A (en) Speech recognition device, speech recognition method, and program
US20190354533A1 (en) Information processing device, information processing method, and non-transitory computer-readable recording medium
JP7058556B2 (en) Judgment device, judgment method, and judgment program
JP6975610B2 (en) Learning device and learning method
JP6680656B2 (en) Judgment device and judgment method
JP6775366B2 (en) Selection device and selection method
CN110955789B (en) Multimedia data processing method and equipment
JP6964481B2 (en) Learning equipment, programs and learning methods
JP6647475B2 (en) Language processing apparatus, language processing system, and language processing method
JP6680655B2 (en) Learning device and learning method
JP7071213B2 (en) Information processing equipment, information processing methods, and information processing programs
US20170270097A1 (en) Determination apparatus and determination method
JP2022185799A (en) Information processing program, information processing method and information processing device
JP2019021218A (en) Learning device, program parameter, learning method and model
JP7265837B2 (en) Learning device and learning method
JP6963988B2 (en) Providing equipment, providing method and providing program
JP7113661B2 (en) Information processing device, information processing method, and information processing program
JP6869849B2 (en) Information providing equipment, information providing method, and information providing program
WO2021186501A1 (en) Speech recognition device, control method, and program
WO2023085191A1 (en) Information processing device, information processing method, and information processing program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190325

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200310

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200319

R150 Certificate of patent or registration of utility model

Ref document number: 6680656

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350