JP6680656B2 - Judgment device and judgment method - Google Patents

Judgment device and judgment method Download PDF

Info

Publication number
JP6680656B2
JP6680656B2 JP2016182363A JP2016182363A JP6680656B2 JP 6680656 B2 JP6680656 B2 JP 6680656B2 JP 2016182363 A JP2016182363 A JP 2016182363A JP 2016182363 A JP2016182363 A JP 2016182363A JP 6680656 B2 JP6680656 B2 JP 6680656B2
Authority
JP
Japan
Prior art keywords
field
unit
determination
determination device
random matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016182363A
Other languages
Japanese (ja)
Other versions
JP2018045658A (en
Inventor
祐 宮崎
祐 宮崎
隼人 小林
隼人 小林
香里 谷尾
香里 谷尾
晃平 菅原
晃平 菅原
正樹 野口
正樹 野口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2016182363A priority Critical patent/JP6680656B2/en
Publication of JP2018045658A publication Critical patent/JP2018045658A/en
Application granted granted Critical
Publication of JP6680656B2 publication Critical patent/JP6680656B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、判定装置および判定方法に関する。   The present invention relates to a determination device and a determination method.

従来、入力された情報の解析結果に基づいて、入力された情報と関連する情報を検索もしくは生成し、検索もしくは生成した情報を応答として出力する技術が知られている。このような技術の一例として、入力されたテキストに含まれる単語、文章、文脈を多次元ベクトルに変換して解析し、解析結果に基づいて、入力されたテキストと類似するテキストや、入力されたテキストに続くテキストを類推し、類推結果を出力する自然言語処理の技術が知られている。   BACKGROUND ART Conventionally, there is known a technique of searching or generating information related to the input information based on an analysis result of the input information and outputting the searched or generated information as a response. As an example of such a technique, the words, sentences, and contexts included in the input text are converted into a multidimensional vector and analyzed, and based on the analysis result, text similar to the input text or the input text is input. There is a known natural language processing technique in which a text following a text is analogized and the analogy result is output.

特開2006−127077号公報JP 2006-127077 A

しかしながら、上記の従来技術では、利用者の創作を援助する情報を出力することができない場合がある。   However, the above-mentioned conventional technique may not be able to output the information for assisting the user's creation.

例えば、上記の従来技術では、入力されたテキストと類似するテキストや、入力されたテキストに続くテキスト等、利用者が予測しうる情報を出力しているに過ぎず、入力されたテキストと関連するが利用者が予測しえない情報を出力することが困難である。このため、上記の従来技術では、利用者にひらめきを与えるような情報を提供することができない。   For example, in the above-mentioned conventional technology, only information similar to the input text, text following the input text, or the like that the user can predict is output, and it is related to the input text. However, it is difficult for the user to output information that cannot be predicted. For this reason, the above-mentioned conventional technology cannot provide information that inspires the user.

本願は、上記に鑑みてなされたものであって、利用者の創作を援助する情報を出力可能にすることを目的とする。   The present application has been made in view of the above, and an object thereof is to make it possible to output information that assists the creation of a user.

本願に係る判定装置は、所定の学習単位に属する単語の分散表現空間を示すランダム行列を、学習単位ごとに取得する取得部と、前記取得部により取得されたランダム行列の固有値をそれぞれ算出する算出部と、前記算出部により算出された固有値の比較結果に基づいて、前記学習単位の類似性を判定する判定部とを有することを特徴とする。   The determination device according to the present application, a random matrix indicating a distributed expression space of words belonging to a predetermined learning unit, an acquisition unit that acquires for each learning unit, and a calculation that calculates the eigenvalues of the random matrix acquired by the acquisition unit And a determination unit that determines the similarity of the learning units based on the comparison result of the eigenvalues calculated by the calculation unit.

実施形態の一態様によれば、利用者の創作を援助する情報を出力可能にすることができる。   According to one aspect of the embodiment, it is possible to enable output of information that assists the creation of the user.

図1は、実施形態に係る判定装置が実行する判定処理の一例を示す図である。FIG. 1 is a diagram illustrating an example of a determination process executed by the determination device according to the embodiment. 図2は、実施形態に係る判定装置の構成例を示す図である。FIG. 2 is a diagram illustrating a configuration example of the determination device according to the embodiment. 図3は、実施形態に係る分散表現空間データベースに登録される情報の一例を示す図である。FIG. 3 is a diagram showing an example of information registered in the distributed expression space database according to the embodiment. 図4は、実施形態に係る判定結果データベースに登録された情報の一例を示す図である。FIG. 4 is a diagram illustrating an example of information registered in the determination result database according to the embodiment. 図5は、実施形態に係る判定処理の流れの一例を説明するフローチャートである。FIG. 5 is a flowchart illustrating an example of the flow of the determination process according to the embodiment. 図6は、ハードウェア構成の一例を示す図である。FIG. 6 is a diagram illustrating an example of the hardware configuration.

以下に、本願に係る判定装置および判定方法を実施するための形態(以下、「実施形態」と記載する。)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る判定装置および判定方法が限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。   Hereinafter, modes for carrying out the determination device and the determination method according to the present application (hereinafter, referred to as “embodiments”) will be described in detail with reference to the drawings. The determination device and the determination method according to the present application are not limited to this embodiment. Also, in each of the following embodiments, the same parts are designated by the same reference numerals, and duplicated description will be omitted.

[実施形態]
〔1−1.判定装置の一例〕
まず、図1を用いて、判定装置が実行する処理の一例について説明する。図1は、実施形態に係る判定装置が実行する判定処理の一例を示す図である。図1では、判定装置10は、以下に説明する判定処理を実行する情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。
[Embodiment]
[1-1. Example of determination device]
First, an example of processing executed by the determination device will be described with reference to FIG. FIG. 1 is a diagram illustrating an example of a determination process executed by the determination device according to the embodiment. In FIG. 1, the determination device 10 is an information processing device that executes determination processing described below, and is realized by, for example, a server device, a cloud system, or the like.

より具体的には、判定装置10は、インターネット等の所定のネットワークN(例えば、図2を参照)を介して、入力装置100や情報処理装置200(例えば、図2を参照)といった任意の装置と通信が可能である。   More specifically, the determination device 10 is an arbitrary device such as the input device 100 or the information processing device 200 (see, for example, FIG. 2) via a predetermined network N such as the Internet (see, for example, FIG. 2). Can communicate with.

ここで、入力装置100は、マイクなどの音声を取得する音声取得装置を用いて、利用者の発言を取得する。そして、入力装置100は、任意の音声認識技術を用いて、発言をテキストデータに変換し、変換後のテキストデータを判定装置10へと送信する。また、情報処理装置200は、スピーカ等の音声を出力する装置を用いて、判定装置10から受信したテキストデータの読み上げを行う。なお、情報処理装置200は、判定装置10から受信したテキストデータを所定の表示装置に表示してもよい。   Here, the input device 100 acquires a user's utterance using a voice acquisition device such as a microphone that acquires a voice. Then, the input device 100 converts the utterance into text data using an arbitrary voice recognition technique, and transmits the converted text data to the determination device 10. Further, the information processing device 200 reads out the text data received from the determination device 10 using a device that outputs a voice such as a speaker. The information processing device 200 may display the text data received from the determination device 10 on a predetermined display device.

なお、入力装置100や情報処理装置200は、スマートフォンやタブレット等のスマートデバイス、デスクトップPC(Personal Computer)やノートPC、サーバ装置等の情報処理装置により実現される。なお、入力装置100および情報処理装置200は、例えば、同一の情報処理装置によって実現されてもよく、例えば、ロボット等の装置によって実現されてもよい。   The input device 100 and the information processing device 200 are realized by a smart device such as a smartphone and a tablet, an information processing device such as a desktop PC (Personal Computer), a notebook PC, and a server device. The input device 100 and the information processing device 200 may be realized by the same information processing device, for example, a device such as a robot.

〔1−2.判定装置の処理について〕
ここで、従来技術では、入力されたテキストを構成する複数次元の単語ベクトルで示す分散表現を用いて、入力されたテキストと類似するテキストや、入力されたテキストに続くテキストを類推する。しかしながら、従来技術では、入力されたテキストと分散表現が類似するテキスト、すなわち、利用者が予測しうるテキストを出力するに過ぎない。このため、従来技術では、利用者が思いもしなかった情報や、利用者に新規なひらめきを与えるような情報、すなわち、利用者のセレンディピティ(ひらめき、気づき、驚き)を起こし得る情報を提供することができなかった。また、例えば、単純に入力されたテキストとは分散表現が類似しないテキストを出力した場合には、利用者の思考とは関係がないテキストを出力することとなり、利用者の思考を阻害する場合がある。
[1-2. Regarding the processing of the determination device]
Here, in the prior art, a text similar to the input text or a text following the input text is analogized by using a distributed expression represented by a multidimensional word vector forming the input text. However, in the related art, only text that is similar in distributed expression to the input text, that is, text that the user can predict is output. Therefore, in the conventional technology, it is necessary to provide information that the user does not expect or information that gives a new inspiration to the user, that is, information that may cause the serendipity (inspiration, awareness, surprise) of the user. I couldn't. Also, for example, if a text whose distributed expression is not similar to the input text is output, a text that is not related to the user's thoughts is output, which may disturb the user's thoughts. is there.

一方で、利用者がある分野に属する分野の概念であって、所定の概念構造を有する発言を行った際、その分野とは異なる分野に属する事柄であって、利用者の発言が有する概念構造と類似する概念構造を有する文章を応答として出力した場合には、利用者に新たなひらめきを与えることができる可能性がある。例えば、利用者が物理学の分野に属する内容の発言を行った際に、数学の分野に属する内容であって、利用者の発言に含まれる単語群と同様のアナロジーを有する単語群を含む応答を行った場合には、利用者の発想を押し広げることができる可能性がある。   On the other hand, when the user has a concept of a field belonging to a certain field and has a statement having a predetermined conceptual structure, it is a matter that belongs to a field different from the field and the user has a conceptual structure When a sentence having a conceptual structure similar to is output as a response, it may be possible to give a new inspiration to the user. For example, when a user makes a statement that belongs to the field of physics, a response that includes a group of words that belongs to the field of mathematics and that has a similar analogy to the group of words included in the statement of the user. If you do, there is a possibility that you can spread the idea of the user.

また、利用者の発言が属する分野と非類似の分野に属する内容の応答を出力したとしても、利用者の理解が困難となり、利用者の思考を阻害する場合がある。しかしながら、利用者の発言が属する分野と同一または類似性が高い分野に属する内容の応答を出力した場合は、利用者が容易に想像することができる内容の文章しか出力することができないとも考えられる。   Further, even if the response of the content belonging to the field dissimilar to the field to which the user's statement belongs is output, it may be difficult for the user to understand and the user's thought may be hindered. However, when the response of the content that belongs to the field that is the same as or highly similar to the field to which the user's statement belongs is output, it is considered that only the text of the content that the user can easily imagine can be output. .

そこで、判定装置10は、以下の判定処理を実行することで、任意の粒度で設定された分野同士の類似性を判定する。例えば、判定装置10は、所定の学習単位に属する単語の分散表現空間を示すランダム行列を、学習単位ごとに取得する。また、判定装置10は、取得されたランダム行列の固有値をそれぞれ算出する。そして、判定装置10は、算出された固有値の比較結果に基づいて、学習単位の類似性を判定する。   Therefore, the determination device 10 determines the similarity between the fields set with an arbitrary granularity by executing the following determination process. For example, the determination device 10 acquires, for each learning unit, a random matrix indicating a distributed expression space of words belonging to a predetermined learning unit. The determination device 10 also calculates the eigenvalues of the acquired random matrix. Then, the determination device 10 determines the similarity of the learning unit based on the comparison result of the calculated eigenvalues.

例えば、判定装置10は、所定の学習単位として、所定の分野に属する単語の分散表現空間を示すランダム行列を、分野ごとに取得する。そして、判定装置10は、分野ごとに算出したランダム行列の固有値の比較結果に基づいて、各分野の類似性を判定する。   For example, the determination device 10 acquires, as a predetermined learning unit, a random matrix indicating a distributed expression space of words belonging to a predetermined field for each field. Then, the determination device 10 determines the similarity of each field based on the comparison result of the eigenvalues of the random matrix calculated for each field.

ここで、ランダム行列とは、行列要素が所定の確率法則や確率分布に従って与えられると仮定された行列である。例えば、判定装置10は、分野に関係なく、様々な単語を分散表現に変換する。例えば、判定装置10は、w2v(word2vec)の技術等、任意の算出手法を用いて、単語を分散表現に変換する。なお、以下の説明では、単語の分散表現を単語のベクトルと記載する場合がある。   Here, the random matrix is a matrix which is assumed to be given matrix elements according to a predetermined probability law or probability distribution. For example, the determination device 10 converts various words into a distributed expression regardless of the field. For example, the determination device 10 converts a word into a distributed expression using an arbitrary calculation method such as the w2v (word2vec) technique. In the following description, the dispersed expression of words may be described as a word vector.

続いて、判定装置10は、任意の粒度で、比較対象とする複数の分野を特定し、特定した分野ごとに、その分野に属する単語の分散表現を選択する。そして、判定装置10は、分野ごとに、各単語の分散表現から以下の式(1)で示されるランダム行列Aを生成する。この結果、判定装置10は、1つの分野に属する単語の分散表現空間を1つのランダム行列で表現することができる。なお、式(1)では、ある分野に属するn個の単語のベクトルをwb1〜wbnと記載し、m個の所定の確率分布をwa1〜wamと記載した。また、式(1)に示すPは、以下の式(2)にpとして示す値であり、2つの単語ベクトルの内積の期待値である。すなわち、判定装置10は、ある分野の全単語の組み合わせ行列を、期待値を要素として持つランダム行列とする。 Subsequently, the determination device 10 specifies a plurality of fields to be compared with arbitrary granularity, and selects, for each specified field, a distributed expression of words belonging to the field. Then, the determination device 10 generates a random matrix A represented by the following Expression (1) from the distributed expression of each word for each field. As a result, the determination device 10 can represent the distributed expression space of words belonging to one field by one random matrix. In the formula (1), vectors of n words belonging to a certain field are described as w b1 to w bn, and m predetermined probability distributions are described as w a1 to w am . Further, P shown in Expression (1) is a value shown as p in Expression (2) below, and is an expected value of the inner product of two word vectors. That is, the determination device 10 sets a combination matrix of all words in a certain field as a random matrix having expected values as elements.

Figure 0006680656
Figure 0006680656

Figure 0006680656
Figure 0006680656

ここで、1つの分野に属する単語の分散表現空間をランダム行列で表現した場合、かかるランダム行列が有する特徴がその分野に属する単語の総体的な特徴に対応すると考えられる。また、このような分野ごとの総体的な特徴は、分野同士の類似性を判定するための指標になると考えられる。   Here, when the distributed expression space of words belonging to one field is expressed by a random matrix, it is considered that the characteristics of the random matrix correspond to the general characteristics of words belonging to the field. In addition, it is considered that such overall characteristics of each field serve as an index for determining the similarity between fields.

そこで、判定装置10は、同一の分野に属する単語の分散表現から生成したランダム行列を、その分野の特徴を示すランダム行列(以下、「その分野のランダム行列」と記載する。)と見做し、ランダム行列の特徴同士を比較することで、各分野の類似性を判定する。より具体的には、判定装置10は、公知の固有値計算ライブラリ等、任意の固有値計算技術を用いて、各分野のランダム行列の固有値(すなわち、ランダム行列の特徴)を算出する。そして、判定装置10は、算出した固有値同士を比較することで、各分野の特徴を比較し、比較結果に基づいて、分野同士の類似性を判定する。   Therefore, the determination device 10 regards a random matrix generated from a distributed expression of words belonging to the same field as a random matrix indicating the characteristics of the field (hereinafter, referred to as “random matrix of the field”). , Similarity of each field is determined by comparing the characteristics of the random matrix. More specifically, the determination apparatus 10 calculates the eigenvalue of the random matrix of each field (that is, the characteristic of the random matrix) by using an arbitrary eigenvalue calculation technique such as a known eigenvalue calculation library. Then, the determination device 10 compares the calculated eigenvalues with each other to compare the characteristics of the respective fields, and determines the similarity between the fields based on the comparison result.

例えば、判定装置10は、固有値の差が所定の閾値よりも大きい場合には、分野同士の類似性が所定の閾値よりも低いと判定し、固有値の差が所定の閾値以下となる場合は、分野同士の類似性が所定の閾値以上であると判定する。   For example, the determination device 10 determines that the similarity between fields is lower than a predetermined threshold when the difference between the eigenvalues is larger than a predetermined threshold, and when the difference between the eigenvalues is equal to or less than the predetermined threshold, It is determined that the similarity between fields is equal to or greater than a predetermined threshold.

このような処理の結果、判定装置10は、各分野に属する単語の総体的な特徴同士の比較結果に基づいて、分野同士の類似性を判定することができる。すなわち、判定装置10は、各分野の抽象化された特徴同士の比較結果に基づいて、分野同士の類似性を判定することができる。この結果、判定装置10は、例えば、利用者が入力した文章が属する分野と抽象的な概念が類似する他の分野を選択し、選択した分野に属する文章であって、利用者が入力した文章と構造が類似する文章を出力することができるので、利用者にセレンディピティを与える文章を応答として出力することができる。   As a result of such processing, the determination device 10 can determine the similarity between the fields based on the comparison result of the overall characteristics of the words belonging to each field. That is, the determination device 10 can determine the similarity between the fields based on the comparison result of the abstracted features of each field. As a result, the determination device 10 selects, for example, another field whose abstract concept is similar to the field to which the text entered by the user belongs, and the text belongs to the selected field and is the text entered by the user. Since a sentence similar in structure to can be output, a sentence that gives the user serendipity can be output as a response.

〔1−3.学習単位について〕
ここで、判定装置10は、比較対象とする分野を任意の粒度で設定してよい。例えば、判定装置10は、「医療分野」という分野に「内科」や「外科」といった分野が存在する場合、分野「内科」に属する単語の分散表現から生成したランダム行列の固有値と、分野「外科」に属する単語の分散表現から生成したランダム行列の固有値とを比較することで、分野「内科」と分野「外科」との比較を行ってもよい。また、判定装置10は、例えば、分野「内科」や分野「外科」等を含む「医療分野」と分野「民法」や分野「刑法」等を含む「法務分野」との比較を行ってもよい。
[1-3. About learning units]
Here, the determination device 10 may set the fields to be compared with arbitrary granularity. For example, when there is a field such as “internal medicine” or “surgery” in the field “medical field”, the determination device 10 determines the eigenvalue of a random matrix generated from a distributed expression of words belonging to the field “internal medicine” and the field “surgery”. The field “internal medicine” and the field “surgery” may be compared by comparing with an eigenvalue of a random matrix generated from the distributed expression of the words belonging to “”. Further, the determination device 10 may compare, for example, the “medical field” including the fields “internal medicine” and the field “surgery” with the “legal field” including the fields “civil law” and the field “criminal law”. .

ここで、w2v等、単語を分散表現へと変換する処理においては、任意の粒度で予め設定された所定の分野ごとに、その分野に属する文章等から各単語を分散表現へと変換する処理が行われている。そこで、判定装置10は、各単語を分散表現へと変換する際に設定された分野等、所定の学習単位に属する単語を所定の分野に属する単語と見做して、かかる単語の分散表現からランダム行列を生成し、ランダム行列の固有値同士を比較することで、学習単位同士の類似性を判定してもよい。   Here, in the process of converting a word into a distributed expression such as w2v, a process of converting each word from a sentence or the like belonging to the field into a distributed expression is performed for each predetermined field preset at an arbitrary granularity. Has been done. Therefore, the determination device 10 considers a word belonging to a predetermined learning unit, such as a field set when converting each word into a distributed expression, as a word belonging to a predetermined field, and determines from the distributed expression of the word. The similarity between learning units may be determined by generating a random matrix and comparing the eigenvalues of the random matrix.

〔1−4.固有ベクトルの利用について〕
ここで、ランダム行列の特徴は、固有値のみならず、固有ベクトルにも表れると予測される。例えば、ある分野のランダム行列の固有値は、その分野に属する単語の総体的な概念を示し、かかるランダム行列の固有ベクトルは、その分野に属する単語の総体的な概念の指向性を示し得ると予測される。
[1-4. About the use of eigenvectors]
Here, the features of the random matrix are predicted to appear not only in the eigenvalues but also in the eigenvectors. For example, it is predicted that the eigenvalues of a random matrix of a field may indicate the general concept of words belonging to the field, and the eigenvectors of such a random matrix may indicate the directionality of the general concept of words of the field. It

そこで、判定装置10は、各分野のランダム行列の固有ベクトルをさらに算出し、算出した固有値の比較結果と、固有ベクトルの比較結果とに基づいて、分野同士の類似性を判定してもよい。例えば、判定装置10は、固有値の差が所定の閾値以下となり、かつ、固有ベクトルのコサイン類似度の値が所定の閾値以上となる場合(コサイン類似度が所定の閾値以上となる場合)には、各分野が類似していると判定してもよい。   Therefore, the determination device 10 may further calculate the eigenvector of the random matrix of each field, and determine the similarity between fields based on the calculated eigenvalue comparison result and the eigenvector comparison result. For example, when the difference between the eigenvalues is equal to or smaller than a predetermined threshold and the value of the cosine similarity of the eigenvector is equal to or larger than the predetermined threshold (when the cosine similarity is equal to or larger than the predetermined threshold), the determination device 10 determines that It may be determined that the fields are similar.

〔1−5.分野間の変換について〕
ここで、ランダム行列の固有値に基づいて、ある分野のランダム行列を他の分野のランダム行列へと変換する関数(例えば、変換関数)を求めることができる。このような関数は、変換前のランダム行列と対応する分野の単語の概念を、変換後のランダム行列と対応する分野の単語の概念へと変化させる関数であると見做すことができる。
[1-5. About conversion between fields]
Here, based on the eigenvalues of the random matrix, a function (for example, a conversion function) that converts a random matrix of a certain field into a random matrix of another field can be obtained. Such a function can be regarded as a function that changes the concept of words in the field corresponding to the random matrix before conversion into the concept of words in the field corresponding to the random matrix after conversion.

そこで、判定装置10は、算出した固有値に基づいて、第1の学習単位に属する単語を第2の学習単位に属する単語へと変換する変換関数を生成してもよい。そして、判定装置10は、生成した変換関数を用いて、利用者が入力した文章に対応する応答を生成してもよい。   Therefore, the determination device 10 may generate a conversion function that converts a word belonging to the first learning unit into a word belonging to the second learning unit based on the calculated eigenvalue. Then, the determination device 10 may generate a response corresponding to the sentence input by the user using the generated conversion function.

例えば、判定装置10は、利用者から第1分野に属する文章を取得する。このような場合、判定装置10は、第1分野のランダム行列の固有値や固有ベクトルに基づいて、第1分野との類似性が所定の範囲内に収まる第2分野を特定する。続いて、判定装置10は、第1分野のランダム行列を第2分野のランダム行列へと変換する変換関数を生成する。なお、判定装置10は、第1分野のランダム行列を、完全に第2分野のランダム行列へと変換する変換関数を生成する必要はなく、所定の精度で変換する変換関数を生成すればよい。例えば、判定装置10は、第1分野のランダム行列の行列要素のうち、所定の割合の行列要素を第2分野のランダム行列の行列要素と一致させる変換関数を生成すればよい。   For example, the determination device 10 acquires a sentence belonging to the first field from the user. In such a case, the determination device 10 identifies the second field whose similarity to the first field falls within a predetermined range based on the eigenvalues and eigenvectors of the random matrix of the first field. Subsequently, the determination device 10 generates a conversion function that converts the random matrix of the first field into the random matrix of the second field. Note that the determination device 10 does not need to generate a conversion function that completely converts the random matrix of the first field into the random matrix of the second field, and may generate a conversion function that converts with a predetermined accuracy. For example, the determination device 10 may generate a conversion function that matches a predetermined proportion of the matrix elements of the random matrix of the first field with the matrix elements of the random matrix of the second field.

そして、判定装置10は、利用者から取得した文章から単語を抽出するとともに、抽出した単語を分散表現へと変換する。そして、判定装置10は、変換関数を用いて、抽出した単語の分散表現を、第2分野に属すると見做すことができる単語の分散表現へと変換する。また、判定装置10は、第2分野に属すると見做すことができる単語の分散表現から、第2分野に属する単語を生成する。例えば、判定装置10は、分散表現が、第2分野に属すると見做すことができる単語の分散表現と類似する単語を選択する。そして、判定装置10は、選択した単語を用いて、文章を生成し、生成した文章を応答として利用者に提供する。このような処理の結果、判定装置10は、利用者に対して、発想の範囲を広げ、セレンディピティを生じさせる文章を提供することができる。   Then, the determination device 10 extracts a word from the sentence acquired from the user and converts the extracted word into a distributed expression. Then, the determination device 10 uses the conversion function to convert the extracted distributed expression of words into a distributed expression of words that can be regarded as belonging to the second field. Further, the determination device 10 generates a word belonging to the second field from a distributed expression of words that can be regarded as belonging to the second field. For example, the determination apparatus 10 selects a word whose distributed expression is similar to the distributed expression of words that can be regarded as belonging to the second field. Then, the determination device 10 generates a sentence using the selected word and provides the generated sentence to the user as a response. As a result of such processing, the determination device 10 can provide the user with a sentence that expands the scope of ideas and causes serendipity.

〔1−6.判定装置が実行する処理の一例〕
次に、図1を用いて、判定装置10が実行する判定処理の一例について説明する。まず、判定装置10は、それぞれ異なる分野に属する単語の分散表現をランダム行列に変換する(ステップS1)。例えば、判定装置10は、分野#1に属する各単語#1−1〜#1−4の分散表現をそれぞれ算出し、算出した分散表現から、式(1)を用いて、分野#1の総体的な特徴を示すランダム行列#1を生成する。また、例えば、判定装置10は、分野#2に属する各単語#2−1〜#2−4の分散表現をそれぞれ算出し、算出した分散表現から、式(1)を用いて、分野#2の総体的な特徴を示すランダム行列#2を生成する。
[1-6. Example of processing executed by the determination device]
Next, an example of the determination process executed by the determination device 10 will be described with reference to FIG. First, the determination apparatus 10 converts a distributed expression of words belonging to different fields into a random matrix (step S1). For example, the determination apparatus 10 calculates a distributed expression of each of the words # 1-1 to # 1-4 belonging to the field # 1, and uses Equation (1) from the calculated distributed expression to calculate the total of the field # 1. Random matrix # 1 showing specific characteristics is generated. Further, for example, the determination device 10 calculates a distributed expression of each of the words # 2-1 to # 2-4 belonging to the field # 2, and uses Expression (1) from the calculated distributed expression to calculate the field # 2. Generate a random matrix # 2 that shows the overall characteristics of

続いて、判定装置10は、各ランダム行列の固有値と固有ベクトルとを算出する(ステップS2)。例えば、判定装置10は、ランダム行列#1から固有値#1および固有ベクトル#1を算出し、ランダム行列#2から固有値#2および固有ベクトル#2を算出する。   Then, the determination apparatus 10 calculates the eigenvalue and eigenvector of each random matrix (step S2). For example, the determination device 10 calculates the eigenvalue # 1 and the eigenvector # 1 from the random matrix # 1, and calculates the eigenvalue # 2 and the eigenvector # 2 from the random matrix # 2.

そして、判定装置10は、固有値の比較結果と、固有ベクトルの比較結果とに基づいて、各分野の類似性を判定する(ステップS3)。例えば、判定装置10は、固有値#1と固有値#2との差が所定の閾値以下となり、かつ、固有ベクトル#1と固有ベクトル#2とのコサイン類似度の値が所定の閾値以上となる場合は、分野#1と分野#2とが類似する分野であると判定する。なお、判定装置10は、固有値#1と固有値#2との差が所定の閾値以下となる場合は、分野#1と分野#2とが類似すると判定してもよい。また、判定装置10は、固有値#1と固有値#2との差の値と、固有ベクトル#1と固有ベクトル#2とのコサイン類似度の値とを総合的に勘案して、分野#1と分野#2とが類似するか判定してもよい。例えば、判定装置10は、固有値#1と固有値#2との差の値や、固有ベクトル#1と固有ベクトル#2とのコサイン類似度の値等に応じて、動的に変動する閾値を採用してもよい。また、判定装置10は、利用者が所望する類似性の度合い等に応じて、任意の閾値を設定してもよい。   Then, the determination device 10 determines the similarity of each field based on the comparison result of the eigenvalues and the comparison result of the eigenvectors (step S3). For example, if the difference between the eigenvalue # 1 and the eigenvalue # 2 is less than or equal to a predetermined threshold and the value of the cosine similarity between the eigenvector # 1 and the eigenvector # 2 is greater than or equal to the predetermined threshold, the determination device 10 determines that It is determined that the field # 1 and the field # 2 are similar fields. Note that the determination device 10 may determine that the field # 1 and the field # 2 are similar when the difference between the eigenvalue # 1 and the eigenvalue # 2 is equal to or less than a predetermined threshold. Further, the determination device 10 comprehensively considers the value of the difference between the eigenvalue # 1 and the eigenvalue # 2 and the value of the cosine similarity between the eigenvector # 1 and the eigenvector # 2, and determines the field # 1 and the field #. It may be judged whether or not 2 is similar. For example, the determination device 10 adopts a threshold value that dynamically changes according to the value of the difference between the eigenvalue # 1 and the eigenvalue # 2, the value of the cosine similarity between the eigenvector # 1 and the eigenvector # 2, and the like. Good. Further, the determination device 10 may set an arbitrary threshold value according to the degree of similarity desired by the user.

ここで、判定装置10は、利用者の発言を取得したものとする(ステップS4)。このような場合、判定装置10は、入力された発言の文章に含まれる単語を類似する分野の単語に変換し、入力された文章と同様の構造を有する文章を生成する(ステップS5)。例えば、判定装置10は、入力された発言の文章から、形態素解析等の技術を用いて、単語を抽出する。そして、判定装置10は、抽出した単語から、利用者の発言が属する分野を特定する。   Here, it is assumed that the determination device 10 has acquired the statement of the user (step S4). In such a case, the determination device 10 converts a word included in the sentence of the input statement into a word in a similar field, and generates a sentence having a structure similar to that of the input sentence (step S5). For example, the determination device 10 extracts a word from the input sentence of a statement using a technique such as morphological analysis. Then, the determination device 10 identifies the field to which the user's statement belongs from the extracted words.

続いて、判定装置10は、特定した分野と類似する分野を選択し、特定した分野のランダム行列を選択した分野のランダム行列へと変換する変換関数を用いて、入力された発言の文章に含まれる単語を、選択した分野の単語へと変換する。例えば、判定装置10は、入力された発言の文章が分野#1に属し、分野#1と類似する分野として分野#2が存在する場合は、分野#1のランダム行列を分野#2のランダム行列へと変換する変換関数を用いて、入力された発言の文章から抽出した単語を分野#2の単語へと変換する。   Subsequently, the determination device 10 selects a field similar to the specified field, and uses the conversion function to convert the random matrix of the specified field into the random matrix of the selected field, and includes the sentence in the input statement. Converts the selected words into words in the selected field. For example, when the sentence of the input speech belongs to the field # 1 and the field # 2 exists as a field similar to the field # 1, the determination device 10 sets the random matrix of the field # 1 to the random matrix of the field # 2. The word extracted from the sentence of the input utterance is converted into the word of the field # 2 using the conversion function for converting into the word.

より具体的には、判定装置10は、入力された発言の文章から抽出した単語の分散表現を、変換関数を用いて変換する。また、判定装置10は、分野#2に属する単語の分散表現のうち、変換関数を用いて変換した分散表現と類似する分散表現を選択し、選択した分散表現と対応する単語を特定する。そして、判定装置10は、選択した単語を用いて分野#2に属する文章であって、入力された文章と同様の構造を有する文章(すなわち、単語間の関係性が類似する文章)を生成し、生成した文章を出力する(ステップS6)。この結果、例えば、判定装置10は、情報処理装置200に、生成した文章を応答として発言させることができる。   More specifically, the determination device 10 converts the distributed expression of words extracted from the sentence of the input utterance using a conversion function. Further, the determination device 10 selects a distributed expression similar to the distributed expression converted by using the conversion function from the distributed expressions of the words belonging to the field # 2, and specifies the word corresponding to the selected distributed expression. Then, the determination device 10 uses the selected word to generate a sentence belonging to the field # 2 and having a structure similar to that of the input sentence (that is, a sentence having a similar relationship between words). , The generated sentence is output (step S6). As a result, for example, the determination apparatus 10 can cause the information processing apparatus 200 to speak the generated text as a response.

〔2.判定装置の構成〕
以下、上記した判定処理を実現する判定装置10が有する機能構成の一例について説明する。図2は、実施形態に係る判定装置の構成例を示す図である。図2に示すように、判定装置10は、通信部20、記憶部30、および制御部40を有する。
[2. Configuration of determination device]
Hereinafter, an example of the functional configuration of the determination device 10 that realizes the determination process described above will be described. FIG. 2 is a diagram illustrating a configuration example of the determination device according to the embodiment. As shown in FIG. 2, the determination device 10 includes a communication unit 20, a storage unit 30, and a control unit 40.

通信部20は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部20は、ネットワークNと有線または無線で接続され、入力装置100、および情報処理装置200との間で情報の送受信を行う。   The communication unit 20 is realized by, for example, a NIC (Network Interface Card) or the like. Then, the communication unit 20 is connected to the network N by wire or wirelessly, and transmits and receives information to and from the input device 100 and the information processing device 200.

記憶部30は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部30は、分散表現空間データベース31および判定結果データベース32を記憶する。   The storage unit 30 is realized by, for example, a semiconductor memory device such as a RAM (Random Access Memory) or a flash memory (Flash Memory), or a storage device such as a hard disk or an optical disk. The storage unit 30 also stores a distributed representation space database 31 and a determination result database 32.

分散表現空間データベース31には、分散表現に変換された単語が分野ごとに登録されている。例えば、図3は、実施形態に係る分散表現空間データベースに登録される情報の一例を示す図である。図3に示すように、分散表現空間データベース31には、「分野」、「単語」、および「分散表現」といった項目を有する情報が登録される。   In the distributed expression space database 31, the words converted into the distributed expression are registered for each field. For example, FIG. 3 is a diagram showing an example of information registered in the distributed expression space database according to the embodiment. As shown in FIG. 3, information having items such as “field”, “word”, and “distributed expression” is registered in the distributed expression space database 31.

ここで、「分野」とは、対応付けられた「単語」が示す単語が属する分野を示す識別子である。また、「単語」とは、分散表現と対応する単語、すなわち、テキストである。また、「分散表現」とは、対応付けられた「単語」の分散表現である。なお、図3に示す例では「単語#1−1」や「分散表現#1−1」等といった概念的な値を記載したが、実際には、各種単語を示すテキストデータや、分散表現である多次元量等が登録される。   Here, the “field” is an identifier indicating the field to which the word indicated by the associated “word” belongs. Further, the "word" is a word corresponding to the distributed expression, that is, a text. The “distributed expression” is a distributed expression of associated “words”. Note that in the example shown in FIG. 3, conceptual values such as “word # 1-1” and “distributed expression # 1-1” are described, but in reality, text data indicating various words and distributed expressions are used. A certain multidimensional quantity or the like is registered.

例えば、図3に示す例では、分散表現空間データベース31には、分野「分野#1」、単語「単語#1−1」、および分散表現「分散表現#1−1」が対応付けて登録されている。このような情報は、「単語#1−1」が「分野#1」に属する単語であり、その分散表現が「分散表現#1−1」である旨を示す。   For example, in the example shown in FIG. 3, in the distributed expression space database 31, a field “field # 1”, a word “word # 1-1”, and a distributed expression “distributed expression # 1-1” are registered in association with each other. ing. Such information indicates that "word # 1-1" is a word belonging to "field # 1" and its distributed expression is "distributed expression # 1-1".

図2に戻り、説明を続ける。判定結果データベース32には、上述した判定処理による判定結果として、各分野の類似関係が登録されている。例えば、図4は、実施形態に係る判定結果データベースに登録された情報の一例を示す図である。図4に示すように判定結果データベース32には、「第1分野」、「第2分野」および「変換関数」といった項目を有する情報が登録されている。ここで、「第1分野」および「第2分野」は、類似関係にある分野を示し、「変換関数」は、対応付けられた類似関係が有する分野でランダム行列を変換する変換関数を示す情報である。   Returning to FIG. 2, the description will be continued. In the determination result database 32, the similarity relationship of each field is registered as the determination result of the above-described determination process. For example, FIG. 4 is a diagram illustrating an example of information registered in the determination result database according to the embodiment. As shown in FIG. 4, in the determination result database 32, information having items such as “first field”, “second field” and “conversion function” is registered. Here, the “first field” and the “second field” indicate fields having a similar relationship, and the “conversion function” indicates information indicating a conversion function for converting a random matrix in the field having the associated similar relationship. Is.

例えば、図4に示す例では、第1分野「分野#1」、第2分野「分野#2」および変換関数「変換関数#1」が対応付けて登録されている。このような情報は、「分野#1」および「分野#2」が類似すると判定されており、「分野#1」のランダム行列を「分野#2」のランダム行列へと変換する変換関数が「変換関数#1」である旨を示す。   For example, in the example shown in FIG. 4, the first field “field # 1”, the second field “field # 2”, and the conversion function “conversion function # 1” are registered in association with each other. In such information, it is determined that “category # 1” and “category # 2” are similar to each other, and the conversion function for converting the random matrix of “category # 1” into the random matrix of “category # 2” is “ It is a conversion function # 1 ”.

図2に戻り、説明を続ける。制御部40は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等のプロセッサによって、判定装置10内部の記憶装置に記憶されている各種プログラムがRAM等を作業領域として実行されることにより実現される。また、制御部40は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。   Returning to FIG. 2, the description will be continued. The control unit 40 is a controller, and various programs stored in a storage device inside the determination device 10 include a RAM and the like by a processor such as a CPU (Central Processing Unit) and an MPU (Micro Processing Unit). It is realized by being executed as a work area. The control unit 40 is a controller, and may be realized by an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).

図2に示すように、制御部40は、取得部41、算出部42、判定部43、生成部44、および出力部45を有する。   As shown in FIG. 2, the control unit 40 includes an acquisition unit 41, a calculation unit 42, a determination unit 43, a generation unit 44, and an output unit 45.

取得部41は、所定の学習単位に属する単語の分散表現空間を示すランダム行列を、学習単位ごとに取得する。例えば、取得部41は、所定の学習単位として、所定の分野に属する単語の分散表現空間を示すランダム行列を、分野ごとに取得する。より具体的な例を挙げると、取得部41は、分散表現空間データベース31を参照し、所定の分野と対応付けられた単語の分散表現を選択する。そして、取得部41は、選択した分散表現を用いて、上述した式(1)により、所定の分野のランダム行列を生成する。また、取得部41は、このような処理を各分野ごとに繰り返すことで、全ての分野のランダム行列を生成する。   The acquisition unit 41 acquires, for each learning unit, a random matrix indicating a distributed expression space of words belonging to a predetermined learning unit. For example, the acquisition unit 41 acquires, as a predetermined learning unit, a random matrix indicating a distributed expression space of words belonging to a predetermined field for each field. To give a more specific example, the acquisition unit 41 refers to the distributed expression space database 31 and selects a distributed expression of words associated with a predetermined field. Then, the acquisition unit 41 uses the selected distributed expression to generate a random matrix in a predetermined field by the above-described equation (1). In addition, the acquisition unit 41 repeats such processing for each field to generate random matrices for all fields.

算出部42は、ランダム行列の固有値をそれぞれ算出する。また、算出部42は、ランダム行列の固有ベクトルをさらに算出する。例えば、算出部42は、取得部41が分野ごとに生成したランダム行列から、固有値と固有ベクトルとをそれぞれ算出する。   The calculation unit 42 calculates each eigenvalue of the random matrix. Further, the calculation unit 42 further calculates the eigenvector of the random matrix. For example, the calculation unit 42 calculates the eigenvalue and the eigenvector from the random matrix generated by the acquisition unit 41 for each field.

判定部43は、固有値の比較結果に基づいて、学習単位の類似性を判定する。例えば、判定部43は、固有値の比較結果に基づいて、各分野の類似性を判定する。なお、判定部43は、固有値の比較結果と、固有ベクトルの比較結果とに基づいて、学習単位の類似性を判定してもよい。例えば、判定部43は、固有値の比較結果と、固有ベクトル同士のコサイン類似度の値とに基づいて、学習単位の類似性を判定してもよい。   The determination unit 43 determines the similarity of learning units based on the comparison result of the eigenvalues. For example, the determination unit 43 determines the similarity of each field based on the comparison result of the eigenvalues. In addition, the determination unit 43 may determine the similarity of the learning unit based on the comparison result of the eigenvalues and the comparison result of the eigenvectors. For example, the determination unit 43 may determine the similarity of the learning unit based on the comparison result of the eigenvalues and the value of the cosine similarity between the eigenvectors.

より具体的な例を挙げると、判定部43は、算出部42が分野ごとに算出した固有値と固有ベクトルとを取得する。そして、判定部43は、全ての分野の組み合わせについて、固有値と固有ベクトルとを比較し、比較結果に基づいて、各分野が類似するか否かを判定する。例えば、判定部43は、分野#1の固有値と、分野#2の固有値との差が所定の閾値以下となり、かつ、分野#1の固有ベクトルと、分野#2の固有ベクトルとのコサイン類似度の値が所定の閾値以上となる場合は、分野#1と分野#2とが類似すると判定する。そして、判定部43は、分野#1と分野#2とを判定結果データベース32に対応付けて登録する。   As a more specific example, the determination unit 43 acquires the eigenvalue and the eigenvector calculated by the calculation unit 42 for each field. Then, the determination unit 43 compares the eigenvalues and the eigenvectors with respect to all combinations of fields, and determines whether or not the fields are similar based on the comparison result. For example, the determining unit 43 determines that the difference between the eigenvalue of the field # 1 and the eigenvalue of the field # 2 is less than or equal to a predetermined threshold, and the value of the cosine similarity between the eigenvector of the field # 1 and the eigenvector of the field # 2. When is greater than or equal to a predetermined threshold value, it is determined that the field # 1 and the field # 2 are similar. Then, the determination unit 43 registers the field # 1 and the field # 2 in association with the determination result database 32.

生成部44は、固有値に基づいて、第1の学習単位に属する単語を第2の学習単位に属する単語に変換する変換関数を生成する。例えば、生成部44は、判定結果データベース32を参照し、判定部43により類似すると判定された分野#1および分野#2を特定する。このような場合、生成部44は、分野#1の固有値と分野#2の固有値とから、分野#1のランダム行列を分野#2のランダム行列へと変換させる変換関数#1を算出する。そして、生成部44は、算出した変換関数#1を、分野#1および分野#2と対応付けて判定結果データベース32に登録する。なお、生成部44は、固有ベクトルを用いて、変換関数の算出を行ってもよい。   The generation unit 44 generates a conversion function that converts a word belonging to the first learning unit into a word belonging to the second learning unit based on the eigenvalue. For example, the generation unit 44 refers to the determination result database 32 and identifies the fields # 1 and # 2 determined to be similar by the determination unit 43. In such a case, the generation unit 44 calculates the conversion function # 1 for converting the random matrix of the field # 1 into the random matrix of the field # 2 from the eigenvalue of the field # 1 and the eigenvalue of the field # 2. Then, the generation unit 44 registers the calculated conversion function # 1 in the determination result database 32 in association with the field # 1 and the field # 2. The generation unit 44 may calculate the conversion function using the eigenvector.

また、生成部44は、変換関数を用いて、利用者によって入力された第1の学習単位に属する文章から、第2の学習単位に属する文章を、利用者によって入力された文章に対する応答として生成する。例えば、生成部44は、入力装置100から利用者の発言の文章を受付けた場合は、かかる文章から単語を抽出し、抽出した単語が属する分野を分散表現空間データベース31等を用いて特定する。続いて、生成部44は、判定結果データベース32を参照し、特定した分野のランダム行列を、その分野と類似する分野のランダム行列へと変換する変換関数を判定結果データベース32から選択する。   Further, the generation unit 44 uses the conversion function to generate a sentence belonging to the second learning unit from the sentence belonging to the first learning unit input by the user, as a response to the sentence input by the user. To do. For example, when the generating unit 44 receives a sentence of the user's statement from the input device 100, the generating unit 44 extracts a word from the sentence and specifies the field to which the extracted word belongs by using the distributed expression space database 31 or the like. Subsequently, the generation unit 44 refers to the determination result database 32 and selects from the determination result database 32 a conversion function that converts the random matrix of the specified field into a random matrix of a field similar to the specified field.

そして、生成部44は、判定結果データベース32から選択した変換関数を用いて、利用者の発言の文章から抽出した単語を、類似する分野の単語へと変換する。その後、生成部44は、変換後の単語を用いて、利用者によって入力された文章と同様の構造を有する文章を生成する。   Then, the generation unit 44 uses the conversion function selected from the determination result database 32 to convert the word extracted from the sentence of the user's statement into a word in a similar field. After that, the generation unit 44 generates a sentence having the same structure as the sentence input by the user, using the converted word.

出力部45は、生成部44が生成した文章を利用者によって入力された文章に対する応答として出力する。例えば、出力部45は、生成部44が生成した文章を情報処理装置200へと出力し、入力装置100から受付けた発言に対する応答として、出力した文章を出力するように指示する。この結果、情報処理装置200は、応答を出力することができる。   The output unit 45 outputs the sentence generated by the generating unit 44 as a response to the sentence input by the user. For example, the output unit 45 outputs the sentence generated by the generating unit 44 to the information processing apparatus 200, and instructs the information processing apparatus 200 to output the outputted sentence as a response to the utterance received from the input device 100. As a result, the information processing device 200 can output a response.

〔3.判定装置が実行する処理の流れの一例〕
次に、図5を用いて、判定装置10が実行する判定処理の流れの一例について説明する。図5は、実施形態に係る判定処理の流れの一例を説明するフローチャートである。まず、判定装置10は、各分野に属する単語群を抽出し(ステップS101)、同じ分野に属する単語群の分散表現を含む分散表現空間を示すランダム行列を取得する(ステップS102)。すなわち、判定装置10は、各分野のランダム行列を取得する。そして、判定装置10は、取得したランダム行列の固有値と固有ベクトルとを算出し(ステップS103)、算出した固有値と固有ベクトルとの比較結果に基づいて、分野同士の類似性を判定し(ステップS104)、処理を終了する。
[3. Example of flow of processing executed by determination device]
Next, an example of the flow of the determination process executed by the determination device 10 will be described with reference to FIG. FIG. 5 is a flowchart illustrating an example of the flow of the determination process according to the embodiment. First, the determination apparatus 10 extracts a word group belonging to each field (step S101), and acquires a random matrix indicating a distributed expression space including a distributed expression of word groups belonging to the same field (step S102). That is, the determination device 10 acquires a random matrix of each field. Then, the determination device 10 calculates the eigenvalues and eigenvectors of the acquired random matrix (step S103), and determines the similarity between fields based on the comparison result of the calculated eigenvalues and eigenvectors (step S104), The process ends.

〔4.変形例〕
上記では、判定装置10による判定処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、判定装置10が実行する判定処理のバリエーションについて説明する。
[4. Modification)
In the above, an example of the determination process by the determination device 10 has been described. However, the embodiment is not limited to this. Hereinafter, variations of the determination process executed by the determination device 10 will be described.

〔4−1.判定結果の利用について〕
例えば、判定装置10は、上述した判定処理を用いて、モデルの類似性を判定する処理を実行してもよい。例えば、判定装置10は、ある単語群から第1のモデルを用いて生成された分散表現群から第1ランダム行列を生成し、同一の単語群から第2のモデルを用いて生成された分散表現群から第2ランダム行列を生成する。そして、判定装置10は、第1ランダム行列の固有値と、第2ランダム行列の固有値との比較結果に基づいて、第1のモデルと第2のモデルとの類似性を判定してもよい。このような処理を実行した場合、例えば、判定装置10は、第1のモデルに代えて、第2のモデルを使用することができるか否かといった判定を行うことができる。
[4-1. Regarding the use of judgment results]
For example, the determination device 10 may execute the process of determining the similarity of the models by using the determination process described above. For example, the determination device 10 generates a first random matrix from a distributed expression group generated from a certain word group using the first model, and generates a first random matrix from the same word group using the second model. Generate a second random matrix from the group. Then, the determination device 10 may determine the similarity between the first model and the second model based on the result of comparison between the eigenvalues of the first random matrix and the eigenvalues of the second random matrix. When such a process is executed, for example, the determination device 10 can determine whether or not the second model can be used instead of the first model.

〔4−2.装置構成〕
上述した例では、判定装置10は、判定装置10内で判定処理を実行した。しかしながら、実施形態は、これに限定されるものではない。例えば、判定装置10は、ランダム行列の固有値や固有ベクトルの比較結果に基づいて、分野同士の類似性を判定するバックエンドサーバと、類似性の判定結果や変換関数を用いて、利用者から受付けた文章を変換し、応答として出力するフロントエンドサーバとにより実現されてもよい。また、判定装置10は、分散表現空間データベース31や判定結果データベース32を外部のストレージサーバに記憶させてもよい。
[4-2. Device configuration〕
In the example described above, the determination device 10 executes the determination process in the determination device 10. However, the embodiment is not limited to this. For example, the determination device 10 accepts from a user using a back-end server that determines the similarity between fields based on the comparison result of eigenvalues and eigenvectors of a random matrix and the determination result of the similarity and the conversion function. It may be realized by a front-end server that converts a sentence and outputs it as a response. Further, the determination device 10 may store the distributed representation space database 31 and the determination result database 32 in an external storage server.

〔4−3.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文章中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
[4-3. Other]
Further, of the processes described in the above embodiment, all or part of the processes described as being automatically performed may be manually performed, or the processes described as manually performed may be performed. All or part of the process can be automatically performed by a known method. In addition, the processing procedures, specific names, and information including various data and parameters shown in the above text and drawings can be arbitrarily changed unless otherwise specified. For example, the various information shown in each drawing is not limited to the information shown.

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。   Further, each component of each device shown in the drawings is functionally conceptual, and does not necessarily have to be physically configured as shown. That is, the specific form of distribution / integration of each device is not limited to that shown in the figure, and all or a part of the device may be functionally or physically distributed / arranged in arbitrary units according to various loads and usage conditions. It can be integrated and configured.

また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。   Further, the respective embodiments described above can be appropriately combined within a range in which the processing content is not inconsistent.

〔5.プログラム〕
また、上述してきた実施形態に係る判定装置10は、例えば図6に示すような構成のコンピュータ1000によって実現される。図6は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
[5. program〕
Further, the determination device 10 according to the above-described embodiment is realized by, for example, a computer 1000 having a configuration shown in FIG. FIG. 6 is a diagram illustrating an example of the hardware configuration. The computer 1000 is connected to an output device 1010 and an input device 1020, and an arithmetic device 1030, a primary storage device 1040, a secondary storage device 1050, an output IF (Interface) 1060, an input IF 1070, and a network IF 1080 are connected by a bus 1090. Have.

演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置1040は、RAM等、演算装置1030が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ROM(Read Only Memory)、HDD、フラッシュメモリ等により実現される。   The arithmetic unit 1030 operates based on a program stored in the primary storage device 1040 or the secondary storage device 1050, a program read from the input device 1020, or the like, and executes various processes. The primary storage device 1040 is a memory device such as a RAM that temporarily stores data used by the arithmetic device 1030 for various calculations. The secondary storage device 1050 is a storage device in which data used by the arithmetic device 1030 for various calculations and various databases are registered, and is realized by a ROM (Read Only Memory), an HDD, a flash memory, or the like.

出力IF1060は、モニタやプリンタといった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力IF1070は、マウス、キーボード、およびスキャナ等といった各種の入力装置1020から情報を受信するためのインタフェースであり、例えば、USB等により実現される。   The output IF 1060 is an interface for transmitting information to be output to an output device 1010 that outputs various kinds of information such as a monitor and a printer. For example, a USB (Universal Serial Bus) or a DVI (Digital Visual Interface), It is realized by a connector of a standard such as HDMI (registered trademark) (High Definition Multimedia Interface). The input IF 1070 is an interface for receiving information from various input devices 1020 such as a mouse, a keyboard, and a scanner, and is realized by, for example, USB.

なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置1020は、USBメモリ等の外付け記憶媒体であってもよい。   The input device 1020 is, for example, an optical recording medium such as a CD (Compact Disc), a DVD (Digital Versatile Disc), and a PD (Phase change rewritable Disk), a magneto-optical recording medium such as an MO (Magneto-Optical disk), and a tape. It may be a device that reads information from a medium, a magnetic recording medium, a semiconductor memory, or the like. The input device 1020 may also be an external storage medium such as a USB memory.

ネットワークIF1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。   The network IF 1080 receives data from another device via the network N and sends the data to the arithmetic device 1030, and also transmits the data generated by the arithmetic device 1030 via the network N to another device.

演算装置1030は、出力IF1060や入力IF1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。   The arithmetic device 1030 controls the output device 1010 and the input device 1020 via the output IF 1060 and the input IF 1070. For example, the arithmetic device 1030 loads a program from the input device 1020 or the secondary storage device 1050 onto the primary storage device 1040, and executes the loaded program.

例えば、コンピュータ1000が判定装置10として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムを実行することにより、制御部40の機能を実現する。   For example, when the computer 1000 functions as the determination device 10, the arithmetic device 1030 of the computer 1000 implements the function of the control unit 40 by executing the program loaded on the primary storage device 1040.

〔6.効果〕
上述したように、判定装置10は、所定の学習単位に属する単語の分散表現空間を示すランダム行列を、学習単位ごとに取得する。また、判定装置10は、取得されたランダム行列の固有値をそれぞれ算出する。そして、判定装置10は、算出された固有値の比較結果に基づいて、学習単位の類似性を判定する。この結果、判定装置10は、例えば、相対的な概念が類似する分野を特定することができるので、利用者が入力した文章と構造が類似する文章であって、利用者が入力した文章とは異なる分野の文章を出力することができる。この結果、判定装置10は、利用者の創作を援助する情報を出力することができる。
[6. effect〕
As described above, the determination device 10 acquires, for each learning unit, a random matrix indicating the distributed expression space of words belonging to a predetermined learning unit. The determination device 10 also calculates the eigenvalues of the acquired random matrix. Then, the determination device 10 determines the similarity of the learning unit based on the comparison result of the calculated eigenvalues. As a result, the determination device 10 can specify, for example, a field in which the relative concept is similar, so that the sentence that is similar in structure to the sentence input by the user and is not the sentence input by the user. You can output sentences in different fields. As a result, the determination device 10 can output information that assists the creation of the user.

また、判定装置10は、所定の学習単位として、所定の分野に属する単語の分散表現空間を示すランダム行列を、分野ごとに取得する。そして、判定装置10は、固有値の比較結果に基づいて、分野の類似性を判定する。この結果、判定装置10は、各分野の総体的な概念の比較結果に基づいて、分野の類似性を判定できる。   Further, the determination device 10 acquires, as a predetermined learning unit, a random matrix indicating a distributed expression space of words belonging to a predetermined field for each field. Then, the determination device 10 determines the similarity of the fields based on the comparison result of the eigenvalues. As a result, the determination device 10 can determine the similarity of the fields based on the comparison result of the overall concept of each field.

また、判定装置10は、ランダム行列の固有ベクトルをさらに算出し、固有値の比較結果と、固有ベクトルの比較結果とに基づいて、学習単位の類似性を判定する。例えば、判定装置10は、固有値の比較結果と、固有ベクトル同士のコサイン類似度の値とに基づいて、学習単位の類似性を判定する。この結果、判定装置10は、分野の類似性の判定精度を向上させることができる。   Further, the determination device 10 further calculates the eigenvectors of the random matrix, and determines the similarity of the learning unit based on the comparison result of the eigenvalues and the comparison result of the eigenvectors. For example, the determination device 10 determines the similarity of the learning unit based on the comparison result of the eigenvalues and the value of the cosine similarity between the eigenvectors. As a result, the determination device 10 can improve the determination accuracy of the similarity of fields.

また、判定装置10は、算出された固有値に基づいて、第1の学習単位に属する単語を第2の学習単位に属する単語に変換する変換関数を生成する。また、判定装置10は、変換関数を用いて、利用者によって入力された第1の学習単位に属する文章から、第2の学習単位に属する文章を、利用者によって入力された文章に対する応答として生成する。このため、判定装置10は、利用者が入力した文章から、利用者が想像していなかった文章であって、利用者が入力した文章が属する分野とは異なる分野において利用者が入力した文章と同様のコンテキストを有する文章を出力することができる。この結果、判定装置10は、利用者の創作を援助する情報を出力することができる。   In addition, the determination device 10 generates a conversion function that converts a word belonging to the first learning unit into a word belonging to the second learning unit based on the calculated eigenvalue. Further, the determination device 10 uses a conversion function to generate a sentence belonging to the second learning unit from a sentence belonging to the first learning unit input by the user, as a response to the sentence input by the user. To do. For this reason, the determination device 10 recognizes that a sentence that the user has not imagined from a sentence that the user has input is a sentence that the user has input in a field different from the field to which the user-input text belongs. It is possible to output a sentence having a similar context. As a result, the determination device 10 can output information that assists the creation of the user.

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。   As described above, some of the embodiments of the present application have been described in detail based on the drawings, but these are examples, and various modifications based on the knowledge of those skilled in the art, including the modes described in the section of the disclosure of the invention, It is possible to implement the present invention in other forms with improvements.

また、上記してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、生成部は、生成手段や生成回路に読み替えることができる。   Further, the above-mentioned "section (module, unit)" can be read as "means" or "circuit". For example, the generation unit can be read as a generation unit or a generation circuit.

10 判定装置
20 通信部
30 記憶部
31 分散表現空間データデータベース
32 判定結果データベース
40 制御部
41 取得部
42 算出部
43 判定部
44 生成部
45 出力部
100 入力装置
200 情報処理装置
10 determination device 20 communication unit 30 storage unit 31 distributed representation space data database 32 determination result database 40 control unit 41 acquisition unit 42 calculation unit 43 determination unit 44 generation unit 45 output unit 100 input device 200 information processing device

Claims (7)

所定の学習単位に属する単語の分散表現空間を示すランダム行列を、学習単位ごとに取得する取得部と、
前記取得部により取得されたランダム行列の固有値をそれぞれ算出する算出部と、
前記算出部により算出された固有値の比較結果に基づいて、前記学習単位の類似性を判定する判定部と
を有することを特徴とする判定装置。
An acquisition unit that acquires, for each learning unit, a random matrix indicating a distributed expression space of words belonging to a predetermined learning unit,
A calculation unit that calculates the eigenvalues of the random matrix acquired by the acquisition unit,
A determination unit that determines the similarity of the learning units based on the comparison result of the eigenvalues calculated by the calculation unit.
前記取得部は、前記所定の学習単位として、所定の分野に属する単語の分散表現空間を示すランダム行列を、分野ごとに取得し、
前記判定部は、前記固有値の比較結果に基づいて、前記分野の類似性を判定する
ことを特徴とする請求項1に記載の判定装置。
The acquisition unit acquires, as the predetermined learning unit, a random matrix indicating a distributed expression space of words belonging to a predetermined field for each field,
The determination device according to claim 1, wherein the determination unit determines similarity of the fields based on a comparison result of the eigenvalues.
前記算出部は、前記ランダム行列の固有ベクトルをさらに算出し、
前記判定部は、前記固有値の比較結果と、前記固有ベクトルの比較結果とに基づいて、前記学習単位の類似性を判定する
ことを特徴とする請求項1または2に記載の判定装置。
The calculation unit further calculates an eigenvector of the random matrix,
The determination device according to claim 1 or 2, wherein the determination unit determines the similarity of the learning units based on a comparison result of the eigenvalues and a comparison result of the eigenvectors.
前記判定部は、前記固有値の比較結果と、前記固有ベクトル同士のコサイン類似度の値とに基づいて、前記学習単位の類似性を判定する
ことを特徴とする請求項3に記載の判定装置。
The determination device according to claim 3, wherein the determination unit determines the similarity of the learning unit based on a comparison result of the eigenvalues and a value of a cosine similarity between the eigenvectors.
前記算出部により算出された固有値に基づいて、第1の学習単位に属する単語を第2の学習単位に属する単語に変換する変換関数を生成する生成部
をさらに有することを特徴とする請求項1〜4のうちいずれか1つに記載の判定装置。
The method further comprising: a generation unit that generates a conversion function that converts a word belonging to the first learning unit into a word belonging to the second learning unit based on the eigenvalue calculated by the calculation unit. The determination device according to any one of 4 to 4.
前記生成部は、前記変換関数を用いて、利用者によって入力された第1の学習単位に属する文章から、第2の学習単位に属する文章を、利用者によって入力された文章に対する応答として生成する
ことを特徴とする請求項5に記載の判定装置。
The generation unit uses the conversion function to generate a sentence belonging to the second learning unit from a sentence belonging to the first learning unit input by the user, as a response to the sentence input by the user. The determination device according to claim 5, wherein:
判定装置が実行する判定方法であって、
所定の学習単位に属する単語の分散表現空間を示すランダム行列を、学習単位ごとに取得する取得工程と、
前記取得工程により取得されたランダム行列の固有値をそれぞれ算出する算出工程と、
前記算出工程により算出された固有値の比較結果に基づいて、前記学習単位の類似性を判定する判定工程と
を含むことを特徴とする判定方法。
A determination method performed by the determination device,
An acquisition step of acquiring, for each learning unit, a random matrix indicating a distributed expression space of words belonging to a predetermined learning unit;
A calculation step for calculating the eigenvalues of the random matrix acquired by the acquisition step,
A determination step of determining the similarity of the learning units based on the comparison result of the eigenvalues calculated by the calculation step.
JP2016182363A 2016-09-16 2016-09-16 Judgment device and judgment method Active JP6680656B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016182363A JP6680656B2 (en) 2016-09-16 2016-09-16 Judgment device and judgment method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016182363A JP6680656B2 (en) 2016-09-16 2016-09-16 Judgment device and judgment method

Publications (2)

Publication Number Publication Date
JP2018045658A JP2018045658A (en) 2018-03-22
JP6680656B2 true JP6680656B2 (en) 2020-04-15

Family

ID=61695072

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016182363A Active JP6680656B2 (en) 2016-09-16 2016-09-16 Judgment device and judgment method

Country Status (1)

Country Link
JP (1) JP6680656B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11875112B2 (en) 2019-03-27 2024-01-16 Robert Bosch Gmbh Method and device for analyzing elements of a text collection, method and device for searching for information in digital data

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4163524B2 (en) * 2003-02-03 2008-10-08 日本電信電話株式会社 Co-occurrence thesaurus similarity measurement device, co-occurrence thesaurus similarity measurement program, and co-occurrence thesaurus similarity measurement program recording medium
JP2006215884A (en) * 2005-02-04 2006-08-17 Ricoh Co Ltd Important text element creating system, text categorizing system, program and storing medium
US7668852B2 (en) * 2006-10-31 2010-02-23 Hewlett-Packard Development Company, L.P. Method for creating sketches of sets to permit comparison
JP5079471B2 (en) * 2007-11-27 2012-11-21 株式会社日立製作所 Synonym extraction device

Also Published As

Publication number Publication date
JP2018045658A (en) 2018-03-22

Similar Documents

Publication Publication Date Title
US11487953B2 (en) Method and apparatus with natural language processing
US11521110B2 (en) Learning apparatus, learning method, and non-transitory computer readable storage medium
US9697819B2 (en) Method for building a speech feature library, and method, apparatus, device, and computer readable storage media for speech synthesis
US11693854B2 (en) Question responding apparatus, question responding method and program
US9898448B2 (en) Method for text processing
US20170255603A1 (en) Dynamic facet tree generation
WO2021034941A1 (en) A method for multi-modal retrieval and clustering using deep cca and active pairwise queries
US20200020321A1 (en) Speech recognition results re-ranking device, speech recognition results re-ranking method, and program
US20220164687A1 (en) Method for providing explainable artificial intelligence
JP6321845B1 (en) Granting device, granting method, and granting program
JP7058556B2 (en) Judgment device, judgment method, and judgment program
JP6433937B2 (en) Keyword evaluation device, similarity evaluation device, search device, evaluation method, search method, and program
JP6680656B2 (en) Judgment device and judgment method
JP2020154668A (en) Synonym determination method, synonym determination program and synonym determination device
JP2020047209A (en) Ontology processing apparatus and ontology processing program
JP6400037B2 (en) Determination apparatus and determination method
JP6963988B2 (en) Providing equipment, providing method and providing program
US20180276568A1 (en) Machine learning method and machine learning apparatus
JP6680655B2 (en) Learning device and learning method
JP7071213B2 (en) Information processing equipment, information processing methods, and information processing programs
JP2022185799A (en) Information processing program, information processing method and information processing device
KR20160067469A (en) Apparatus and method for extracting social relation between entity
JP6942028B2 (en) Comparison device, comparison method and comparison program
US20200125804A1 (en) Non-transitory computer readable recording medium, semantic vector generation method, and semantic vector generation device
JP6869849B2 (en) Information providing equipment, information providing method, and information providing program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190325

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200310

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200319

R150 Certificate of patent or registration of utility model

Ref document number: 6680656

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350