JP2019082860A - Generation program, generation method and generation device - Google Patents

Generation program, generation method and generation device Download PDF

Info

Publication number
JP2019082860A
JP2019082860A JP2017209840A JP2017209840A JP2019082860A JP 2019082860 A JP2019082860 A JP 2019082860A JP 2017209840 A JP2017209840 A JP 2017209840A JP 2017209840 A JP2017209840 A JP 2017209840A JP 2019082860 A JP2019082860 A JP 2019082860A
Authority
JP
Japan
Prior art keywords
vector
word
generating
unit
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017209840A
Other languages
Japanese (ja)
Inventor
拓弥 中島
Takuya Nakajima
拓弥 中島
隆一 高木
Ryuichi Takagi
隆一 高木
優志 木村
Masashi Kimura
優志 木村
隆道 戸田
Takamichi Toda
隆道 戸田
卓矢 吉田
Takuya Yoshida
卓矢 吉田
華代子 岩本
Kayoko Iwamoto
華代子 岩本
直紀 高橋
Naoki Takahashi
直紀 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017209840A priority Critical patent/JP2019082860A/en
Priority to US16/153,862 priority patent/US11270085B2/en
Publication of JP2019082860A publication Critical patent/JP2019082860A/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

To provide a generation program, a generation method and a generation device for holding characteristics included in a conversion parameter.SOLUTION: The generation program is configured so as to, when receiving words, cause a computer to execute a series of processing to generate a first vector and a second vector corresponding to the word by applying the first conversion parameter and the second conversion parameter to the respective received words. The generation program is also configured to cause the computer to execute a series of processing to generate a new third vector corresponding to the words on the basis of the generated first vector and the second vector.SELECTED DRAWING: Figure 1

Description

本発明は、生成プログラム、生成方法及び生成装置に関する。   The present invention relates to a generation program, a generation method and a generation apparatus.

言語処理において、複数のコーパスを併用する技術が知られている。例えば、機械翻訳において、複数のコーパスを併用することで、翻訳結果の品質を高め、翻訳の応答時間を短縮する技術が知られている。当該技術は、第1言語に属する語句と第2言語に属する語句を対応付けて格納した複数の翻訳用辞書を用いる。当該技術は、1つ以上の語句を含む基準情報を受け入れ、複数の翻訳用辞書と基準情報とを比較して、当該基準情報に対する各翻訳用辞書の類似度を求める。当該技術は、類似度をもとに、各翻訳用辞書を検索する際の優先度を規定する。また、当該技術においては、辞書ではなく、文章の集まりであるコーパスを指定する場合がある。   In language processing, techniques are known in which multiple corpuses are used in combination. For example, in machine translation, a technique is known which improves the quality of translation results and shortens the response time of translation by using a plurality of corpuses in combination. The technology uses a plurality of translation dictionaries in which words and phrases belonging to the first language and words and phrases belonging to the second language are stored in association with each other. The technique accepts reference information including one or more words and compares a plurality of translation dictionaries with the reference information to determine the degree of similarity of each translation dictionary with respect to the reference information. The technology specifies the priority in searching each translation dictionary based on the similarity. Moreover, in the said technique, not a dictionary but the corpus which is a collection of sentences may be designated.

特開2004−355217号公報JP 2004-355217 A

上記技術においては、いずれかのコーパスの特徴が失われるという問題が生じる。例えば、FAQなどの複数の文章を格納したデータベースを用いて、文章を形態素解析により分解し、機械学習により単語ベクトルを生成する際に、コーパスから生成される、単語をベクトルに変換する変換パラメータを用いる。この場合において、例えば、一方のコーパスから生成された変換パラメータを選択した場合、選択されなかったコーパスの特徴は、検索結果に反映されない。一方、2つのコーパスを統合したコーパスを用いて変換パラメータを生成する際に、統合前の各コーパスに含まれる特徴が失われる場合がある。   In the above-described technique, there arises a problem that any corpus feature is lost. For example, when a sentence is decomposed by morphological analysis using a database storing a plurality of sentences such as FAQ, and a word vector is generated by machine learning, a conversion parameter for converting a word into a vector generated from a corpus is used. Use. In this case, for example, when a transformation parameter generated from one corpus is selected, features of the corpus which are not selected are not reflected in the search results. On the other hand, when generating transformation parameters using a corpus integrating two corpuses, the features included in each corpus before consolidation may be lost.

一つの側面では、変換パラメータに含まれる特徴を保持できる生成プログラム、生成方法及び生成装置を提供することを目的とする。   In one aspect, it is an object of the present invention to provide a generation program, a generation method, and a generation device capable of holding the feature included in the conversion parameter.

一つの態様において、生成プログラムは、単語を受け付け、単語に第1の変換パラメータ及び第2の変換パラメータをそれぞれ適用して、単語に応じた第1のベクトル及び第2のベクトルを生成する処理をコンピュータに実行させる。生成プログラムは、生成した第1のベクトル及び第2のベクトルに基づき、単語に応じた新たな第3のベクトルを生成する処理をコンピュータに実行させる。   In one aspect, the generation program receives a word and applies a first conversion parameter and a second conversion parameter to the word to generate a first vector and a second vector according to the word. Make it run on a computer. The generation program causes the computer to execute processing of generating a new third vector according to the word based on the generated first vector and second vector.

一つの態様によれば、変換パラメータに含まれる特徴を保持できる。   According to one aspect, features included in the transformation parameters can be retained.

図1は、実施例1における回答抽出処理の一例を示す図である。FIG. 1 is a diagram illustrating an example of the answer extraction process according to the first embodiment. 図2は、実施例1における生成装置の一例を示す図である。FIG. 2 is a diagram illustrating an example of the generation device in the first embodiment. 図3は、実施例1におけるコーパスモデルの一例を示す図である。FIG. 3 is a diagram illustrating an example of the corpus model in the first embodiment. 図4は、実施例1における検索時学習モデルの一例を示す図である。FIG. 4 is a diagram illustrating an example of a search time learning model in the first embodiment. 図5は、実施例1における回答記憶部の一例を示す図である。FIG. 5 is a diagram illustrating an example of the answer storage unit in the first embodiment. 図6は、実施例1におけるベクトル結合処理の一例を示す図である。FIG. 6 is a diagram illustrating an example of vector combination processing in the first embodiment. 図7は、実施例1における回答抽出処理の一例を示すフローチャートである。FIG. 7 is a flowchart illustrating an example of the answer extraction process according to the first embodiment. 図8は、背景技術におけるベクトル生成処理の一例を示す図である。FIG. 8 is a diagram showing an example of vector generation processing in the background art. 図9は、実施例1におけるベクトル生成処理の一例を示す図である。FIG. 9 is a diagram illustrating an example of vector generation processing in the first embodiment. 図10は、実施例2におけるベクトル生成処理の一例を示す図である。FIG. 10 is a diagram illustrating an example of vector generation processing in the second embodiment. 図11は、実施例2における生成装置の一例を示す図である。FIG. 11 is a diagram illustrating an example of a generation device in the second embodiment. 図12は、実施例2における回答抽出処理の一例を示すフローチャートである。FIG. 12 is a flowchart illustrating an example of the answer extraction process according to the second embodiment. 図13は、実施例2におけるベクトル生成処理の別の一例を示す図である。FIG. 13 is a diagram illustrating another example of the vector generation process according to the second embodiment. 図14は、実施例3におけるベクトル結合処理の一例を示す図である。FIG. 14 is a diagram illustrating an example of vector combination processing in the third embodiment. 図15は、実施例3におけるベクトル生成処理の一例を示す図である。FIG. 15 is a diagram illustrating an example of vector generation processing in the third embodiment. 図16は、実施例3におけるベクトル生成処理の別の一例を示す図である。FIG. 16 is a diagram illustrating another example of the vector generation process according to the third embodiment. 図17は、ハードウェア構成例を示す図である。FIG. 17 is a diagram illustrating an example of a hardware configuration.

以下に、本願の開示する生成プログラム、生成方法及び生成装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、以下に示す各実施例は、矛盾を起こさない範囲で適宜組み合わせても良い。   Hereinafter, an embodiment of a generation program, a generation method, and a generation device disclosed in the present application will be described in detail based on the drawings. The present invention is not limited by this embodiment. In addition, the embodiments described below may be combined appropriately as long as no contradiction occurs.

実施例1における、後に説明する生成装置10は、コーパスモデルを用いて生成される単語ベクトルを用いた回答抽出処理をコンピュータに実行させる。実施例1における回答抽出処理は、例えばコールセンターの質疑応答集(FAQ)などを参照し、入力された質問文に対する適切な応答を抽出する処理である。なお、生成装置10は、サーバ、パーソナルコンピュータ、タブレットなどのコンピュータ装置の一例である。また、コーパスモデルは、変換パラメータの一例である。   The generation device 10 described later in the first embodiment causes the computer to execute an answer extraction process using a word vector generated using a corpus model. The answer extraction process in the first embodiment is, for example, a process of referring to a question and answer session (FAQ) of a call center and extracting an appropriate response to the input question sentence. The generation device 10 is an example of a computer device such as a server, a personal computer, or a tablet. The corpus model is an example of transformation parameters.

実施例1における回答抽出処理について、図1を用いて説明する。図1は、実施例1における回答抽出処理の一例を示す図である。図1に示すように、実施例1における回答抽出処理においては、事前学習処理において、コーパスを学習することにより、後に説明するコーパスモデルA121a及びコーパスモデルB121bが生成される。なお、以下において、コーパスモデルA121a及びコーパスモデルB121bを区別せずに表現する場合に、コーパスモデル121と表記する場合がある。   The response extracting process in the first embodiment will be described with reference to FIG. FIG. 1 is a diagram illustrating an example of the answer extraction process according to the first embodiment. As shown in FIG. 1, in the answer extraction process in the first embodiment, a corpus is learned in the prior learning process, whereby a corpus model A 121 a and a corpus model B 121 b to be described later are generated. In the following, when expressing the corpus model A 121 a and the corpus model B 121 b without distinction, the corpus model 121 may be used.

実施例1におけるコーパスは、複数の文章の集まりであり、例えば百科事典サイトや新聞データベース、検索エンジンなどの外部サーバから取得されるテキスト群である。また、実施例1におけるコーパスは、例えば顧客データベースやコールセンターの質疑応答ログなど、生成装置10を利用する会社などの内部情報であってもよい。実施例1においては、例えばコーパスAが百科事典サイトであり、コーパスBが内部情報である。   The corpus in the first embodiment is a group of a plurality of sentences, and is, for example, a text group acquired from an external server such as an encyclopedia site, a newspaper database, or a search engine. Further, the corpus in the first embodiment may be internal information of a company using the generating device 10, such as a customer database or a question and answer log of a call center, for example. In the first embodiment, for example, Corpus A is an encyclopedia site and Corpus B is internal information.

実施例1におけるコーパスモデル121は、例えば、コーパスに含まれる文章群を形態素解析によって単語に区分し、区分された単語群に対する分散表現の単語ベクトル(Bag of words)を学習することにより生成される。単語の分散表現とは、各単語を、単語間の各特徴要素である複数の次元に対して、定量化した連続値で表現した、多次元のベクトルである。なお、単語の分散表現は、例えばWord2Vecなどの公知の技術により学習することができるため、詳細な説明は省略する。   The corpus model 121 in the first embodiment is generated, for example, by dividing a sentence group included in a corpus into words by morphological analysis and learning a word vector (Bag of words) of a distributed expression for the divided word group. . The distributed representation of words is a multidimensional vector in which each word is expressed by quantified continuous values for a plurality of dimensions which are feature elements between the words. In addition, since the distributed expression of a word can be learned by well-known techniques, such as Word2Vec, for example, detailed explanation is omitted.

また、コーパスモデル121は、例えば単語ベクトルと正解ラベルとを関連付けた教師データを、ニューラルネットワークなどに入力して、入力ベクトルと正解ラベルとの関係性を学習し、学習済みモデルを生成することにより得られる。   In addition, the corpus model 121 inputs, for example, training data in which a word vector and a correct answer label are associated into a neural network or the like, learns the relationship between the input vector and the correct answer label, and generates a learned model. can get.

次に、推論処理において、生成装置10は、まず、質問文などのテキストの入力を受け付ける。図1に示すように、生成装置10は、例えば「PCの電源が入らない」などの入力テキスト1000を受け付ける。次に、生成装置10は、入力テキストに対して形態素解析を行い、入力テキスト1000を「PC,の,電源,が,入ら,ない,。」のような単語群1001に区分する。   Next, in the inference process, the generation device 10 first receives an input of text such as a question sentence. As shown in FIG. 1, the generation device 10 receives an input text 1000 such as “the power of the PC is not turned on”. Next, the generation device 10 performs morphological analysis on the input text, and divides the input text 1000 into a word group 1001 such as “PC, power supply, enter, not,”.

そして、生成装置10は、区分された各単語を、予め生成されたコーパスモデル121に入力して、単語ベクトルを取得する。生成装置10は、例えば入力単語「PC」をコーパスモデルA121aに入力することにより、単語ベクトルAを取得する。同様に、生成装置10は、入力単語「PC」をコーパスモデルB121bに入力することにより、単語ベクトルBを取得する。図1に示すように、コーパスモデルA121a及びコーパスモデルB121bは、それぞれ異なるコーパスから得られたものであるので、取得される単語ベクトルA及びBも相互に異なる。なお、単語ベクトルは、第1のベクトル及び第2のベクトルの一例である。   Then, the generation device 10 inputs each divided word into the corpus model 121 generated in advance, and acquires a word vector. The generation device 10 acquires the word vector A by, for example, inputting the input word “PC” into the corpus model A 121 a. Similarly, the generation device 10 acquires the word vector B by inputting the input word “PC” into the corpus model B 121 b. As shown in FIG. 1, since the corpus model A 121 a and the corpus model B 121 b are obtained from different corpuses, the acquired word vectors A and B are also different from each other. The word vector is an example of a first vector and a second vector.

次に、生成装置10は、取得された単語ベクトルA及びBを結合する。生成装置10は、例えば単語ベクトルAに、単語ベクトルBを連結することにより、単語ベクトルCを生成する。同様に、生成装置10は、区分されたその他の入力単語についても推論処理及び結合処理を繰り返すことにより、入力テキスト「PCの電源が入らない」に対応する分散表現を得る。なお、単語ベクトルCは、第3のベクトルの一例である。   Next, the generation device 10 combines the acquired word vectors A and B. The generation device 10 generates a word vector C by, for example, concatenating the word vector B with the word vector A. Similarly, the generation device 10 obtains a distributed representation corresponding to the input text “the power of the PC can not be turned on” by repeating the inference process and the combining process also for the other divided input words. The word vector C is an example of a third vector.

一方、生成装置10は、入力テキストを用いた検索対象とする回答データについても、事前学習処理と同様の処理により得られる、後に説明する検索時学習モデル122を有する。図1に示すように、検索時学習モデル122は、後に説明する回答記憶部123に記憶されたタイトルを形態素解析によって区分し、区分された単語群に対して単語ベクトルを学習することにより得られる。   On the other hand, the generation apparatus 10 also has a learning model 122 at the time of search, which will be described later, which is obtained by the same process as the prior learning process, also for the answer data to be searched using the input text. As shown in FIG. 1, the search time learning model 122 is obtained by classifying the title stored in the answer storage unit 123 described later by morphological analysis and learning a word vector for the divided word group .

そして、検索処理において、生成装置10は、入力テキストに対応する分散表現を、検索時学習モデル122に入力することにより、入力テキストに対応する回答を取得する。例えば、生成装置10は、回答記憶部123を参照し、タイトル「電源ボタンを押しても、パソコンが起動しません。」に対応する回答「対処方法は〜」を取得する。そして、生成装置10は、取得した回答を出力する。   Then, in the search process, the generation apparatus 10 acquires the answer corresponding to the input text by inputting the distributed expression corresponding to the input text to the learning model at search time 122. For example, the generating device 10 refers to the response storage unit 123, and acquires the response "Corrective action is ~" corresponding to the title "The PC does not start even if the power button is pressed." Then, the generation device 10 outputs the acquired answer.

このように、生成装置10は、入力単語に対して、第1のモデルから生成する第1ベクトルと第2のモデルから生成する第2ベクトルとを用いて生成した第3ベクトルを生成するので、各モデルの特徴を残したベクトルで機械学習ができる。   Thus, the generation device 10 generates, for the input word, the third vector generated using the first vector generated from the first model and the second vector generated from the second model. Machine learning can be performed using vectors that retain the features of each model.

[機能ブロック]
次に、本実施例における生成装置10の一例について、図2を用いて説明する。図2は、実施例1における生成装置の一例を示す図である。図2に示すように、本実施例における生成装置10は、記憶部120と、制御部130とを有する。
[Function block]
Next, an example of the generation device 10 in the present embodiment will be described with reference to FIG. FIG. 2 is a diagram illustrating an example of the generation device in the first embodiment. As shown in FIG. 2, the generation device 10 in the present embodiment includes a storage unit 120 and a control unit 130.

記憶部120は、プログラムやデータを記憶する記憶装置の一例であり、例えばメモリやプロセッサなどである。この記憶部120は、コーパスモデルA121a及びコーパスモデルB121b、検索時学習モデル122並びに回答記憶部123を記憶する。   The storage unit 120 is an example of a storage device that stores programs and data, and is, for example, a memory or a processor. The storage unit 120 stores a corpus model A 121 a, a corpus model B 121 b, a search time learning model 122, and an answer storage unit 123.

実施例1におけるコーパスモデルA121a及びコーパスモデルB121bは、コーパスから生成される、単語と、分散表現の単語ベクトルとを対応付けた辞書である。図3は、実施例1におけるコーパスモデルの一例を示す図である。図3に示すように、実施例1におけるコーパスモデルA121aは、「単語」と、「ベクトル」とを対応付けて記憶する。なお、コーパスモデルB121bについても、コーパスモデルA121aと同様の構成であるため、詳細な説明は省略する。   The corpus model A 121 a and the corpus model B 121 b in the first embodiment are dictionaries that are generated from a corpus and in which words are associated with word vectors in a distributed expression. FIG. 3 is a diagram illustrating an example of the corpus model in the first embodiment. As shown in FIG. 3, the corpus model A 121 a according to the first embodiment stores “words” and “vectors” in association with one another. The corpus model B 121 b also has the same configuration as that of the corpus model A 121 a, and thus detailed description will be omitted.

検索時学習モデル122は、回答データに含まれるタイトルを形態素解析によって区分し、区分された単語群に対して単語ベクトルを学習することにより得られる学習モデルである。図4は、実施例1における検索時学習モデルの一例を示す図である。図4に示すように、検索時学習モデル122は、「ID」と、「ベクトル」とを対応付けて記憶する。   The search time learning model 122 is a learning model obtained by classifying the title included in the answer data by morphological analysis and learning a word vector for the divided word group. FIG. 4 is a diagram illustrating an example of a search time learning model in the first embodiment. As shown in FIG. 4, the search-time learning model 122 stores “ID” and “vector” in association with each other.

図4において、「ID」は、回答データを一意に識別する識別子(Identifier)を記憶する。「ベクトル」は、当該IDの回答データから得られた分散表現の単語ベクトルを記憶する。   In FIG. 4, “ID” stores an identifier (Identifier) that uniquely identifies response data. The "vector" stores a word vector of distributed expression obtained from the response data of the ID.

回答記憶部123は、図1に示すように、回答記憶部123には、例えば予め図示しない他のサーバ等から取得した情報が記憶される。図5は、実施例1における回答記憶部の一例を示す図である。図5に示すように、回答記憶部123は、「タイトル」と、「回答」とを「ID」に対応付けて記憶する。   As illustrated in FIG. 1, the answer storage unit 123 stores, for example, information acquired in advance from another server or the like (not illustrated). FIG. 5 is a diagram illustrating an example of the answer storage unit in the first embodiment. As shown in FIG. 5, the answer storage unit 123 stores the “title” and the “answer” in association with the “ID”.

図5において、「タイトル」は、回答データに対応する質問文を記憶する。「回答」は、回答データの本文を記憶する。   In FIG. 5, "title" stores the question sentence corresponding to the answer data. "Answer" stores the text of the answer data.

図2に戻って、制御部130は、生成装置10全体を司る処理部であり、例えばプロセッサなどである。制御部130は、受付部131、単語抽出部132、ベクトル抽出部133、ベクトル結合部134、回答検索部135及び出力部136を有する。なお、受付部131、単語抽出部132、ベクトル抽出部133、ベクトル結合部134、回答検索部135及び出力部136は、プロセッサが有する電子回路の一例やプロセッサが実行するプロセスの一例である。   Returning to FIG. 2, the control unit 130 is a processing unit that controls the entire generation device 10 and is, for example, a processor. The control unit 130 includes a reception unit 131, a word extraction unit 132, a vector extraction unit 133, a vector combination unit 134, an answer search unit 135, and an output unit 136. The receiving unit 131, the word extracting unit 132, the vector extracting unit 133, the vector combining unit 134, the answer searching unit 135, and the output unit 136 are an example of an electronic circuit included in the processor and an example of a process executed by the processor.

受付部131は、入力テキストを受け付け、単語抽出部132に出力する。受付部131は、例えば図示しない生成装置10の操作部を通じて、利用者から入力テキストを受け付ける。また、受付部131は、例えば図示しない生成装置10の通信部を通じて、利用者が操作する端末から入力テキストを受け付けてもよい。   The accepting unit 131 accepts an input text and outputs the text to the word extracting unit 132. The accepting unit 131 accepts an input text from the user, for example, through an operation unit of the generation device 10 (not shown). Also, the receiving unit 131 may receive an input text from a terminal operated by the user, for example, through a communication unit of the generating device 10 (not shown).

単語抽出部132は、入力テキストに対する形態素解析を行う。単語抽出部132は、受付部131から入力テキストの出力を受けると、入力テキストを形態素解析によって図1に示すような単語群に区分する。単語抽出部132は、区分した単語群を、ベクトル抽出部133に出力する。なお、単語抽出部132は、形態素解析以外のその他の手法によって、入力テキストを単語群に区分してもよい。   The word extraction unit 132 performs morphological analysis on the input text. When receiving the output of the input text from the reception unit 131, the word extraction unit 132 divides the input text into word groups as shown in FIG. 1 by morphological analysis. The word extraction unit 132 outputs the divided word group to the vector extraction unit 133. Note that the word extraction unit 132 may divide the input text into word groups by another method other than morphological analysis.

ベクトル抽出部133は、区分された単語群に対応する単語ベクトルを、コーパスモデル121ごとに複数抽出して、ベクトル結合部134に出力する。なお、ベクトル抽出部133は、第1ベクトル処理部の一例である。   The vector extraction unit 133 extracts a plurality of word vectors corresponding to the divided word group for each corpus model 121, and outputs the word vectors to the vector combination unit 134. The vector extraction unit 133 is an example of a first vector processing unit.

ベクトル抽出部133は、単語をコーパスモデルA121aに入力することにより、単語ベクトルAを抽出する。同様に、ベクトル抽出部133は、単語をコーパスモデルB121bに入力することにより、単語ベクトルBを抽出する。   The vector extraction unit 133 extracts a word vector A by inputting a word into the corpus model A 121 a. Similarly, the vector extraction unit 133 extracts a word vector B by inputting a word into the corpus model B 121 b.

ベクトル結合部134は、ベクトル抽出部133から出力されたベクトルを結合する。ベクトル結合部134は、例えば、単語ベクトルAに、単語ベクトルBを連結することにより、結合された単語ベクトルCを生成する。なお、ベクトル結合部134は、第2ベクトル処理部の一例である。   The vector combination unit 134 combines the vectors output from the vector extraction unit 133. The vector combination unit 134 generates a combined word vector C, for example, by concatenating the word vector B with the word vector A. The vector combination unit 134 is an example of a second vector processing unit.

図6は、実施例1におけるベクトル結合処理の一例を示す図である。図6に示すように、ベクトル結合部134は、単語ベクトルAの各要素の後ろに、単語ベクトルBの各要素を連結することにより、単語ベクトルCを生成する。この場合において、例えば単語ベクトルA及びBがそれぞれ100次元のベクトルである場合、単語ベクトルCは200次元のベクトルとなる。   FIG. 6 is a diagram illustrating an example of vector combination processing in the first embodiment. As shown in FIG. 6, the vector combining unit 134 generates a word vector C by concatenating each element of the word vector B behind each element of the word vector A. In this case, for example, when word vectors A and B are 100-dimensional vectors, word vector C is a 200-dimensional vector.

[処理の流れ]
次に、本実施例における処理について、図7を用いて説明する。図7は、実施例1における回答抽出処理の一例を示すフローチャートである。図7に示すように、生成装置10の受付部131は、図示しない利用者から、入力テキストを受け付けるまで待機する(S100:No)。受付部131は、入力テキストを受け付けたと判定した場合(S100:Yes)、単語抽出部132に入力テキストを出力する。
[Flow of processing]
Next, processing in the present embodiment will be described using FIG. FIG. 7 is a flowchart illustrating an example of the answer extraction process according to the first embodiment. As illustrated in FIG. 7, the reception unit 131 of the generation device 10 waits until an input text is received from a user (not illustrated) (S100: No). When it is determined that the input text is received (S100: Yes), the reception unit 131 outputs the input text to the word extraction unit 132.

単語抽出部132は、出力された入力テキストを形態素解析によって単語に区分する。そして、単語抽出部132は、区分された単語を抽出して、ベクトル抽出部133に出力する(S101)。   The word extraction unit 132 classifies the outputted input text into words by morphological analysis. Then, the word extraction unit 132 extracts the divided words and outputs the extracted words to the vector extraction unit 133 (S101).

ベクトル抽出部133は、単語をコーパスモデルA121aに入力することにより、単語ベクトルAを抽出する(S110)。同様に、ベクトル抽出部133は、単語をコーパスモデルB121bに入力することにより、単語ベクトルBを抽出する(S120)。そして、ベクトル抽出部133は、抽出した単語ベクトルA及び単語ベクトルBを、ベクトル結合部134に出力する。   The vector extraction unit 133 extracts the word vector A by inputting the word into the corpus model A 121a (S110). Similarly, the vector extraction unit 133 extracts a word vector B by inputting a word into the corpus model B 121 b (S 120). Then, the vector extraction unit 133 outputs the extracted word vector A and word vector B to the vector combination unit 134.

ベクトル結合部134は、出力された単語ベクトルA及び単語ベクトルBを結合して、単語ベクトルCを生成する(S130)。そして、ベクトル結合部134は、入力テキストから区分された全ての単語について、ベクトル化が完了したか否かを判定する(S140)。   The vector combination unit 134 combines the output word vector A and word vector B to generate a word vector C (S130). Then, the vector combination unit 134 determines whether vectorization has been completed for all the words divided from the input text (S140).

ベクトル結合部134は、ベクトル化が完了していないと判定した場合(S140:No)、S101に戻って処理を繰り返す。一方、ベクトル結合部134は、ベクトル化が完了したと判定した場合(S140:Yes)、単語ごとに生成された単語ベクトルCを結合して、入力テキスト全体をベクトル化し(S150)、回答検索部135に出力する。   When it is determined that the vectorization is not completed (S140: No), the vector combining unit 134 returns to S101 and repeats the processing. On the other hand, when it is determined that the vectorization is completed (S140: Yes), the vector combination unit 134 combines the word vectors C generated for each word to vectorize the entire input text (S150), and the answer search unit Output to 135.

回答検索部135は、出力された入力テキスト全体のベクトルを、検索時学習モデル122に入力することにより、入力テキストに類似する回答を検索し(S160)、検索結果を出力部136に出力する。そして、出力部136は、出力された検索結果を、図示しない通信部又は表示部を通じて出力する(S170)。   The answer search unit 135 inputs an output vector of the entire input text to the search time learning model 122 to search for an answer similar to the input text (S 160), and outputs a search result to the output unit 136. Then, the output unit 136 outputs the output search result through a communication unit or a display unit (not shown) (S170).

[効果]
以上説明したように、本実施例における生成プログラムは、単語を受け付け、単語に第1の変換パラメータ及び第2の変換パラメータをそれぞれ適用して、単語に応じた第1のベクトル及び第2のベクトルを生成する処理をコンピュータに実行させる。生成プログラムは、生成した第1のベクトル及び第2のベクトルに基づき、単語に応じた新たな第3のベクトルを生成する処理をコンピュータに実行させる。これにより、変換パラメータに含まれる特徴を保持できる。
[effect]
As described above, the generation program in this embodiment receives a word, applies the first conversion parameter and the second conversion parameter to the word, respectively, and generates a first vector and a second vector according to the word. Have the computer execute the process of generating The generation program causes the computer to execute processing of generating a new third vector according to the word based on the generated first vector and second vector. Thereby, the features included in the conversion parameters can be held.

また、生成プログラムは、複数の判別対象の文章に含まれる単語またはフレーズの素性に関する学習を実行した学習モデルを用いて、第3のベクトルから、受け付けた単語と前記複数の判別対象の文章との判別結果を取得する処理をコンピュータに実行させてもよい。これにより、文章の検索処理において、変換パラメータに含まれる特徴を、検索結果に反映させることができる。   In addition, the generation program uses the learning model in which the learning regarding the features of the words or phrases included in the plurality of sentences to be discriminated is performed, and from the third vector, the received word and the plurality of sentences to be discriminated The computer may be made to execute the process of acquiring the determination result. Thus, in the text search process, the features included in the conversion parameter can be reflected on the search result.

本実施例におけるベクトル生成処理の効果について、図8及び図9を用いて説明する。図8は、背景技術におけるベクトル生成処理の一例を示す図である。背景技術においては、図8に示すように、2つのコーパスA及びBを結合した総合コーパスから、コーパスモデルが生成される。   The effect of the vector generation process in the present embodiment will be described using FIGS. 8 and 9. FIG. 8 is a diagram showing an example of vector generation processing in the background art. In the background art, as shown in FIG. 8, a corpus model is generated from an integrated corpus obtained by combining two corpuses A and B.

この際、例えば2つのコーパスの大きさに偏りがある場合など、いずれかのコーパスに含まれる特徴が、コーパスモデルに反映されずに失われる可能性がある。この場合、入力単語を当該コーパスモデルに入力して得られる単語ベクトルにおいて、各コーパスの特徴が反映されない場合がある。これにより、単語ベクトルを学習モデルに入力することにより得られる回答においても、コーパスの特徴が失われる場合がある。   At this time, for example, when there is a bias in the size of two corpuses, features included in any corpus may be lost without being reflected in the corpus model. In this case, the features of each corpus may not be reflected in the word vector obtained by inputting the input word into the corpus model. As a result, even in the answer obtained by inputting the word vector into the learning model, the features of the corpus may be lost.

一方、実施例1においては、図9に示すように、コーパスそのものを結合するのではなく、コーパスA及びBから生成された各コーパスモデルA及びBから得られた単語ベクトルを結合する。図9は、実施例1におけるベクトル生成処理の一例を示す図である。図9に示すように、実施例1における検索処理においては、単語ベクトルA及び単語ベクトルBの特徴が残る、図6に示すような単語ベクトルCを用いる。単語ベクトルA及び単語ベクトルBは、それぞれコーパスA及びコーパスBの特徴を残すものであるので、単語ベクトルCを学習モデルに入力することにより得られる回答においても、各コーパスの特徴を反映させることができる。   On the other hand, in the first embodiment, as shown in FIG. 9, the corpus itself is not combined, but the word vectors obtained from the corpus models A and B generated from the corpuses A and B are combined. FIG. 9 is a diagram illustrating an example of vector generation processing in the first embodiment. As shown in FIG. 9, in the search processing in the first embodiment, a word vector C as shown in FIG. 6 in which the features of the word vector A and the word vector B remain is used. Since the word vector A and the word vector B leave the features of the corpus A and the corpus B, respectively, it is possible to reflect the features of each corpus even in the answer obtained by inputting the word vector C into the learning model. it can.

また、生成プログラムは、例えば生成した第1のベクトルと第2のベクトルとを連結して第3のベクトルを生成する処理をコンピュータに実行させてもよい。これにより、各ベクトルに含まれる要素を、そのまま残すことができる。   Also, the generation program may cause the computer to execute, for example, processing of concatenating the generated first vector and the second vector to generate a third vector. Thus, the elements included in each vector can be left as they are.

なお、生成プログラムは、複数の単語を含むテキストデータを受け付け、テキストデータに応じた第1のベクトル及び第2のベクトルを生成し、テキストデータに応じた新たな第3のベクトルを生成する処理をコンピュータに実行させてもよい。つまり、単語素性の系列は複数であっても単数であってもよい。これにより、単語ではなく、質問文などの自然言語の文章を用いた検索ができる。なお、テキストデータに含まれる各単語から生成された各単語ベクトルをニューラルネットワークに順次入力するのではなく、各単語ベクトルを結合した1つの入力データをニューラルネットワークに入力する手法を採用することもできる。   The generation program receives text data including a plurality of words, generates a first vector and a second vector according to the text data, and generates a new third vector according to the text data. It may be executed by a computer. That is, the series of word features may be plural or singular. In this way, it is possible to search using sentences of natural language such as question sentences instead of words. Note that instead of sequentially inputting each word vector generated from each word included in the text data to the neural network, a method may be adopted in which one input data obtained by combining each word vector is input to the neural network. .

単語ベクトルを生成する際に、入力単語がいずれかのコーパスに含まれない場合、すなわちコーパスから生成されるコーパスモデルに当該入力単語が登録されていない場合がある。そこで、実施例2においては、いずれかのコーパスに登録されていない入力単語があることを示す、結合された単語ベクトルを生成する構成について説明する。なお、いずれかのコーパスに登録されていない入力単語を、以下において「未知語」と表記する場合がある。   When generating a word vector, the input word may not be included in any corpus, that is, the input word may not be registered in the corpus model generated from the corpus. Therefore, in the second embodiment, a configuration for generating a combined word vector that indicates that there is an input word not registered in any corpus will be described. In addition, the input word which is not registered into any corpus may be described as an "unknown word" below.

実施例2における生成プログラムは、未知語であることを示す単語ベクトルを、もう一方の当該未知語を含むコーパスに対応する単語ベクトルと結合する。図10は、実施例2におけるベクトル生成処理の一例を示す図である。図10に示すように、コーパスモデルB121bにおいては、コーパスモデルA121aに含まれる「ノートPC」という単語が登録されていない。   The generation program in the second embodiment combines a word vector indicating that the word is an unknown word with a word vector corresponding to a corpus including the other unknown word. FIG. 10 is a diagram illustrating an example of vector generation processing in the second embodiment. As shown in FIG. 10, in the corpus model B 121 b, the word “notebook PC” included in the corpus model A 121 a is not registered.

この場合において、生成プログラムは、入力単語が「ノートPC」である場合、コーパスモデルA121aを参照して、単語ベクトルAを抽出する処理をコンピュータに実行させる。一方、生成プログラムは、コーパスモデルB121bに「ノートPC」が登録されていないため、単語ベクトルBを抽出する処理を実行させることができない。   In this case, when the input word is “notebook PC”, the generation program causes the computer to execute a process of extracting the word vector A with reference to the corpus model A 121 a. On the other hand, the generation program can not execute the process of extracting the word vector B because “notebook PC” is not registered in the corpus model B 121 b.

この場合において、生成プログラムは、入力単語が未知語であることを示す単語ベクトルB2を生成し、単語ベクトルAと結合する処理をコンピュータに実行させる。   In this case, the generation program generates a word vector B2 indicating that the input word is an unknown word, and causes the computer to execute a process of combining with the word vector A.

例えば、生成プログラムは、全ての要素が0であるベクトルを、単語ベクトルAに連結させたベクトルC2を生成する処理をコンピュータに実行させる。また、生成プログラムは、単語ベクトルAを複製して、単語ベクトルAに連結したベクトルC3を生成する処理をコンピュータに実行させてもよい。さらに、生成プログラムは、後に説明する未知語ベクトル記憶部224に予め記憶された未知語ベクトルを、単語ベクトルAに連結させたベクトルC4を生成する処理をコンピュータに実行させてもよい。   For example, the generation program causes the computer to execute a process of generating a vector C2 in which a vector in which all elements are 0 is linked to a word vector A. Also, the generation program may cause the computer to execute a process of duplicating the word vector A and generating a vector C3 linked to the word vector A. Furthermore, the generation program may cause the computer to execute a process of generating a vector C4 in which an unknown word vector stored in advance in an unknown word vector storage unit 224 described later is linked to the word vector A.

[機能ブロック]
次に、当該生成プログラムを実行する生成装置について、図11を用いて説明する。図11は、実施例2における生成装置の一例を示す図である。なお、以下の実施例において、先に説明した図面に示す部位と同一の部位には同一の符号を付し、重複する説明は省略する。
[Function block]
Next, a generation apparatus that executes the generation program will be described with reference to FIG. FIG. 11 is a diagram illustrating an example of a generation device in the second embodiment. In the following embodiments, the same parts as the parts shown in the above-described drawings are denoted by the same reference numerals, and redundant description will be omitted.

図11に示すように、本実施例における生成装置20は、記憶部220と、制御部230とを有する。記憶部220は、プログラムやデータを記憶する記憶装置の一例であり、例えばメモリやプロセッサなどである。この記憶部120は、コーパスモデルA121a及びコーパスモデルB121b、検索時学習モデル122並びに回答記憶部123に加えて、さらに未知語ベクトル記憶部224を記憶する。   As illustrated in FIG. 11, the generation device 20 in the present embodiment includes a storage unit 220 and a control unit 230. The storage unit 220 is an example of a storage device that stores programs and data, and is, for example, a memory or a processor. The storage unit 120 further stores an unknown word vector storage unit 224 in addition to the corpus model A 121 a and the corpus model B 121 b, the search time learning model 122 and the answer storage unit 123.

未知語ベクトル記憶部224は、入力単語が未知語であることを示す未知語ベクトルを記憶する。実施例2において、未知語ベクトルは、例えば乱数ベクトルであるが、後に説明するように、コーパスモデルA及びコーパスモデルBを学習することにより生成されたベクトルであってもよい。未知語ベクトル記憶部224に記憶される情報は、例えば図示しない生成装置20の管理者により予め入力され、又は後に説明する未知語ベクトル処理部237により入力される。   The unknown word vector storage unit 224 stores an unknown word vector indicating that the input word is an unknown word. In the second embodiment, the unknown word vector is, for example, a random number vector, but may be a vector generated by learning the corpus model A and the corpus model B as described later. The information stored in the unknown word vector storage unit 224 is input in advance by, for example, a manager of the generation device 20 (not shown), or is input by an unknown word vector processing unit 237 described later.

制御部230は、生成装置20全体を司る処理部であり、例えばプロセッサなどである。制御部230は、受付部131、単語抽出部132、ベクトル結合部134、回答検索部135及び出力部136に加えて、さらにベクトル抽出部233及び未知語ベクトル処理部237を有する。なお、ベクトル抽出部233及び未知語ベクトル処理部237も、プロセッサが有する電子回路の一例やプロセッサが実行するプロセスの一例である。   The control unit 230 is a processing unit that controls the entire generation device 20, and is, for example, a processor. The control unit 230 further includes a vector extraction unit 233 and an unknown word vector processing unit 237 in addition to the reception unit 131, the word extraction unit 132, the vector combination unit 134, the answer search unit 135, and the output unit 136. The vector extraction unit 233 and the unknown word vector processing unit 237 are also an example of an electronic circuit included in the processor and an example of a process executed by the processor.

ベクトル抽出部233は、ベクトル抽出部133と同様に、入力単語が区分された単語群に対応する単語ベクトルを、コーパスモデルごとに複数抽出して、ベクトル結合部134に出力する。その際、ベクトル抽出部233は、各コーパスモデルに入力単語が登録されているか否かを判定する。   Similar to the vector extraction unit 133, the vector extraction unit 233 extracts a plurality of word vectors corresponding to the word group into which the input words are divided for each corpus model, and outputs the word vectors to the vector combination unit 134. At this time, the vector extraction unit 233 determines whether an input word is registered in each corpus model.

ベクトル抽出部233は、コーパスモデルに入力単語が登録されていないと判定した場合、未知語ベクトル処理部237に、未知語ベクトルの取得要求を出力する。そして、ベクトル抽出部233は、取得した未知語ベクトルを、当該コーパスモデルに対応する単語ベクトルとして、ベクトル結合部134に出力する。   If the vector extraction unit 233 determines that the input word is not registered in the corpus model, the vector extraction unit 233 outputs an unknown word vector acquisition request to the unknown word vector processing unit 237. Then, the vector extraction unit 233 outputs the acquired unknown word vector to the vector combination unit 134 as a word vector corresponding to the corpus model.

未知語ベクトル処理部237は、ベクトル抽出部233から未知語ベクトルの取得要求を受けると、未知語ベクトルをベクトル抽出部233に出力する。未知語ベクトル処理部237は、図10に示すように、例えば、全ての要素が0であるベクトルを、未知語ベクトルとして出力する。   When the unknown word vector processing unit 237 receives an unknown word vector acquisition request from the vector extraction unit 233, the unknown word vector processing unit 237 outputs the unknown word vector to the vector extraction unit 233. As shown in FIG. 10, for example, the unknown word vector processing unit 237 outputs a vector in which all elements are 0 as an unknown word vector.

また、未知語ベクトル処理部237は、例えばベクトル抽出部233から抽出済みの単語ベクトルを含む未知語ベクトルの取得要求を受け、取得要求に含まれる抽出済みの単語ベクトルを、未知語ベクトルとして出力してもよい。さらに、未知語ベクトル処理部237は、例えば未知語ベクトル記憶部224に記憶された未知語ベクトルを取得して、ベクトル抽出部233に出力してもよい。   Also, the unknown word vector processing unit 237 receives an acquisition request for an unknown word vector including a word vector already extracted from the vector extraction unit 233, for example, and outputs the extracted word vector included in the acquisition request as an unknown word vector May be Furthermore, the unknown word vector processing unit 237 may obtain the unknown word vector stored in the unknown word vector storage unit 224, for example, and output the unknown word vector to the vector extraction unit 233.

[処理の流れ]
次に、本実施例における処理について、図12を用いて説明する。図12は、実施例2における回答抽出処理の一例を示すフローチャートである。なお、以下の説明において、図7に示すステップと同じ符号については同様のステップであるため、詳細な説明を省略する。
[Flow of processing]
Next, processing in the present embodiment will be described using FIG. FIG. 12 is a flowchart illustrating an example of the answer extraction process according to the second embodiment. In the following description, the same reference numerals as in the steps shown in FIG. 7 denote the same steps, so detailed description will be omitted.

図12に示すように、生成装置20のベクトル抽出部233は、単語がコーパスモデルA121aに登録済みであるか否かを判定する(S102)。ベクトル抽出部233は、単語がコーパスモデルA121aに登録済みであると判定した場合(S102:Yes)、単語ベクトルAを抽出し(S110)、S112に移行する。   As shown in FIG. 12, the vector extraction unit 233 of the generation device 20 determines whether the word has been registered in the corpus model A 121a (S102). When it is determined that the word has been registered in the corpus model A 121a (S102: Yes), the vector extraction unit 233 extracts the word vector A (S110), and proceeds to S112.

一方、ベクトル抽出部233は、単語がコーパスモデルA121aに登録済みではないと判定した場合(S102:No)、未知語ベクトル処理部237に、未知語ベクトルの取得要求を出力する。   On the other hand, when determining that the word has not been registered in the corpus model A 121a (S102: No), the vector extraction unit 233 outputs an unknown word vector acquisition request to the unknown word vector processing unit 237.

未知語ベクトル処理部237は、未知語ベクトルの取得要求の出力を受けると、未知語ベクトルをベクトル抽出部233に出力し(S111)、S112に移行する。   When the unknown word vector processing unit 237 receives the output of the unknown word vector acquisition request, the unknown word vector processing unit 237 outputs the unknown word vector to the vector extraction unit 233 (S111), and proceeds to S112.

同様に、ベクトル抽出部233は、単語がコーパスモデルB121bに登録済みであるか否かを判定する(S112)。ベクトル抽出部233は、単語がコーパスモデルB121bに登録済みであると判定した場合(S112:Yes)、単語ベクトルBを抽出し(S120)、S130に移行する。   Similarly, the vector extraction unit 233 determines whether the word has been registered in the corpus model B 121 b (S112). If the vector extraction unit 233 determines that the word has been registered in the corpus model B 121 b (S112: Yes), it extracts the word vector B (S120), and proceeds to S130.

一方、ベクトル抽出部233は、単語がコーパスモデルB121bに登録済みではないと判定した場合(S112:No)、未知語ベクトル処理部237に、未知語ベクトルの取得要求を出力する。   On the other hand, when determining that the word is not registered in the corpus model B 121 b (S 112: No), the vector extraction unit 233 outputs an unknown word vector acquisition request to the unknown word vector processing unit 237.

未知語ベクトル処理部237は、未知語ベクトルの取得要求の出力を受けると、未知語ベクトルをベクトル抽出部233に出力し(S121)、S130に移行する。   When the unknown word vector processing unit 237 receives the output of the unknown word vector acquisition request, the unknown word vector processing unit 237 outputs the unknown word vector to the vector extraction unit 233 (S121), and proceeds to S130.

[効果]
以上説明したように、実施例2における生成プログラムは、単語が第1の変換パラメータ又は第2の変換パラメータに含まれない未知語であると判定した場合、未知語であることを示すベクトルを生成する処理をコンピュータに実行させる。これにより、入力単語が未知語であることを示す、結合された単語ベクトルを生成できる。
[effect]
As described above, when the generation program in the second embodiment determines that the word is an unknown word not included in the first conversion parameter or the second conversion parameter, it generates a vector indicating an unknown word. Make the computer execute the process to This makes it possible to generate a combined word vector indicating that the input word is an unknown word.

なお、生成プログラムは、未知語であることを示すベクトルとして、0ベクトル又は乱数ベクトルを生成する処理をコンピュータに実行させてもよい。また、生成プログラムは、未知語であることを示すベクトルとして、未知語であると判定されなかった第1又は第2のベクトルを複製したベクトルを生成する処理をコンピュータに実行させてもよい。これにより、未知語ベクトルを任意の形で生成できる。   The generation program may cause the computer to execute a process of generating a zero vector or a random number vector as a vector indicating that the word is an unknown word. Further, the generation program may cause the computer to execute processing of generating a vector obtained by duplicating the first or second vector not determined to be an unknown word as a vector indicating that the word is an unknown word. Thereby, an unknown word vector can be generated in an arbitrary form.

なお、未知語ベクトル処理部237は、未知語ベクトルとして、乱数ベクトルの代わりに、コーパスモデルA及びコーパスモデルBを学習することにより、未知語ベクトルを生成してもよい。   The unknown word vector processing unit 237 may generate the unknown word vector by learning the corpus model A and the corpus model B as the unknown word vector instead of the random number vector.

図13は、実施例2におけるベクトル生成処理の別の一例を示す図である。図13に示すように、未知語ベクトル処理部237は、コーパスモデルA及びコーパスモデルBに共通して含まれる「PC」、「スマホ」、「タブレット」などの各単語の単語ベクトルを用いて学習することにより、未知語ベクトルB3を生成する。   FIG. 13 is a diagram illustrating another example of the vector generation process according to the second embodiment. As shown in FIG. 13, the unknown word vector processing unit 237 learns using the word vector of each word such as “PC”, “smart phone”, “tablet”, etc. commonly included in corpus model A and corpus model B. By doing this, an unknown word vector B3 is generated.

このように、実施例2における生成プログラムは、第1のベクトルと第2のベクトルとの組み合わせを用いて学習処理を行うことにより、未知語であることを示すベクトルを生成する処理をコンピュータに実行させてもよい。これにより、各コーパスの特徴に即した未知語ベクトルを生成できる。   As described above, the generation program according to the second embodiment executes, on the computer, processing of generating a vector indicating an unknown word by performing learning processing using a combination of the first vector and the second vector. You may This makes it possible to generate an unknown word vector that matches the features of each corpus.

さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下に異なる実施例を説明する。   Although the embodiments of the present invention have been described above, the present invention may be implemented in various different modes other than the above-described embodiments. Therefore, different embodiments will be described below.

例えば、ベクトル結合部134が、単語ベクトルAと単語ベクトルBとを連結する構成について説明したが、これに限られず、単語ベクトルAと単語ベクトルBとを演算するような構成であってもよい。   For example, although the configuration in which the vector combining unit 134 links the word vector A and the word vector B has been described, the present invention is not limited thereto, and the configuration may be such that the word vector A and the word vector B are calculated.

図14は、実施例3におけるベクトル結合処理の一例を示す図である。図14に示すように、実施例3における図示しないベクトル結合部334は、単語ベクトルAと単語ベクトルBとを加算することにより、結合された単語ベクトルC6を生成する。   FIG. 14 is a diagram illustrating an example of vector combination processing in the third embodiment. As shown in FIG. 14, the vector combining unit 334 (not shown) in the third embodiment generates a combined word vector C6 by adding the word vector A and the word vector B.

このように、生成プログラムは、生成した第1のベクトルと第2のベクトルとを演算することにより、第3のベクトルを生成する処理をコンピュータに実行させてもよい。これにより、結合前の単語ベクトルの次元を増加させることなく、複数の単語ベクトルを結合させることができる。   As described above, the generation program may cause the computer to execute the process of generating the third vector by computing the generated first vector and the generated second vector. Thereby, a plurality of word vectors can be combined without increasing the dimension of the word vector before combining.

また、ベクトル結合部134が、次元が同一である単語ベクトルAと単語ベクトルBとを連結する構成について説明したが、これに限られず、単語ベクトルAと単語ベクトルBとで次元が異なるような構成であってもよい。   In addition, although the configuration in which the vector combining unit 134 links the word vector A and the word vector B having the same dimension has been described, the configuration is not limited thereto. The configuration is such that the word vector A and the word vector B have different dimensions. It may be

図15は、実施例3におけるベクトル生成処理の一例を示す図である。図15に示すように、実施例3におけるコーパスモデルA’321aは、200次元の単語ベクトルを記憶する。一方、実施例3におけるコーパスモデルB’321bは、100次元の単語ベクトルを記憶する。この場合において、図示しないベクトル抽出部333は、200次元の単語ベクトルAと、100次元の単語ベクトルBとをそれぞれ抽出してもよい。また、図示しないベクトル結合部334は、200次元の単語ベクトルAと、100次元の単語ベクトルBとを結合することにより、300次元の単語ベクトルCを生成してもよい。   FIG. 15 is a diagram illustrating an example of vector generation processing in the third embodiment. As shown in FIG. 15, the corpus model A '321a in the third embodiment stores a 200-dimensional word vector. On the other hand, the corpus model B '321b in the third embodiment stores a 100-dimensional word vector. In this case, the vector extraction unit 333 (not shown) may extract a 200-dimensional word vector A and a 100-dimensional word vector B, respectively. The vector combining unit 334 (not shown) may generate a 300-dimensional word vector C by combining the 200-dimensional word vector A and the 100-dimensional word vector B.

このように、生成プログラムは、第1のベクトルとは次元が異なる第2のベクトルを生成する処理をコンピュータに実行させてもよい。これにより、各コーパスモデルに対応する各単語ベクトルの重み付けを変化させることができる。   Thus, the generation program may cause the computer to execute a process of generating a second vector having a dimension different from that of the first vector. This makes it possible to change the weight of each word vector corresponding to each corpus model.

また、2つのコーパスから生成されたコーパスモデルA及びコーパスモデルBを用いる構成について説明したが、コーパスモデルの数はこれに限られず、3つ以上のコーパスモデルを用いるような構成であってもよい。   In addition, although the configuration using corpus model A and corpus model B generated from two corpuses has been described, the number of corpus models is not limited to this, and a configuration using three or more corpus models may be used. .

図16は、実施例3におけるベクトル生成処理の別の一例を示す図である。図16に示すように、実施例3においては、図10に示す例と同様のコーパスAから生成されたコーパスモデルA及びコーパスBから生成されたコーパスモデルBに加えて、コーパスNから生成されたコーパスモデルNがさらに用いられる。この場合において、図示しないベクトル抽出部333は、単語ベクトルAと、単語ベクトルBとに加えて、コーパスモデルNを用いて単語ベクトルNをさらに抽出してもよい。また、図示しないベクトル結合部334は、単語ベクトルAと、単語ベクトルBとに加えて、単語ベクトルNをさらに結合して、単語ベクトルCを生成してもよい。   FIG. 16 is a diagram illustrating another example of the vector generation process according to the third embodiment. As shown in FIG. 16, in the third embodiment, in addition to a corpus model A generated from a corpus A similar to the example shown in FIG. 10 and a corpus model B generated from a corpus B, a corpus N is generated. A corpus model N is further used. In this case, the vector extraction unit 333 (not shown) may further extract the word vector N using the corpus model N in addition to the word vector A and the word vector B. In addition to the word vector A and the word vector B, the vector combining unit 334 (not shown) may further combine the word vector N to generate a word vector C.

このように、生成プログラムは、単語に第3の変換パラメータをさらに適用して、単語に応じた第4のベクトルをさらに生成する処理をコンピュータに実行させてもよい。また、生成プログラムは、第1のベクトル及び第2のベクトルに加えて、さらに第4のベクトルに基づき、単語に応じた新たな第3のベクトルを生成する処理をコンピュータに実行させてもよい。これにより、3つ以上のコーパスの特徴を保持した単語ベクトルを利用することができる。   Thus, the generation program may further cause the computer to execute a process of further applying the third conversion parameter to the word to further generate a fourth vector according to the word. In addition, the generation program may cause the computer to execute a process of generating a new third vector according to a word based on the fourth vector in addition to the first vector and the second vector. Thereby, it is possible to use a word vector holding three or more corpus features.

ところで、ベクトルを結合すると、ベクトルの次元が大きくなり、検索処理に時間を要する場合がある。そこで、第1のベクトル、第2のベクトル及び第3のベクトルのうち、いずれか1つ又は2つ以上の組み合わせを選択するような構成であってもよい。この場合において、選択されたベクトルに対応する学習モデルを用いて、受け付けた単語と複数の判別対象の文章との判別結果を取得するような構成であってもよい。これにより、処理負荷に応じて適切な大きさのベクトルを採用することができる。   By the way, when vectors are combined, the dimension of the vectors may be increased, which may require time for the search process. Therefore, any one or a combination of two or more of the first vector, the second vector, and the third vector may be selected. In this case, the learning result corresponding to the selected vector may be used to acquire the discrimination result between the received word and the sentences to be discriminated. Thereby, a vector of appropriate size can be adopted according to the processing load.

なお、実施の形態は日本語の文書を対象とする分散学習に限られず、例えば英語や中国語などのその他の言語の文書を用いてもよい。   Note that the embodiment is not limited to distributed learning targeting Japanese documents, and documents in other languages such as English and Chinese may be used, for example.

[ニューラルネットワーク]
また、事前学習処理には、例えばRNN(再帰型ニューラルネットワーク:Recurrent Neural Network)や、CNN(Convolutional Neural Network)などの任意のニューラルネットワークを用いることができる。また、学習の手法としては、誤差逆伝播(error Back Propagation:BP)法など、公知の様々な手法を採用することができる。なお、ニューラルネットワークは、例えば入力層、中間層(隠れ層)、出力層から構成される多段構成であり、各層は複数のノードがエッジで結ばれる構造を有する。各層は、「活性化関数」と呼ばれる関数を持ち、エッジは「重み」を持ち、各ノードの値は、前の層のノードの値、接続エッジの重みの値、層が持つ活性化関数から計算される。なお、計算方法については、公知の様々な手法を採用できる。
[neural network]
In addition, any neural network such as RNN (Recurrent Neural Network) or CNN (Convolutional Neural Network) can be used for the pre-learning process. Also, as a learning method, various known methods such as an error back propagation (BP) method can be adopted. The neural network has a multistage configuration including, for example, an input layer, an intermediate layer (hidden layer), and an output layer, and each layer has a structure in which a plurality of nodes are connected by an edge. Each layer has a function called "activation function", the edge has "weight", and the value of each node is the value of the node of the previous layer, the value of weight of connection edge, and the activation function of the layer Calculated In addition, about a calculation method, well-known various methods are employable.

[システム]
この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[system]
In addition to the above, the processing procedures, control procedures, specific names, and information including various data and parameters shown in the above documents and drawings can be arbitrarily changed unless otherwise specified.

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、図11に示すベクトル抽出部233と未知語ベクトル処理部237とを統合してもよい。また、図2に示す回答検索部135を、生成装置10とは別のコンピュータにより実現してもよい。すなわち、推論処理及び結合処理とがそれぞれ異なる筐体で実行されてもよい。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。   Further, each component of each device illustrated is functionally conceptual, and does not necessarily have to be physically configured as illustrated. That is, the specific form of distribution and integration of each device is not limited to the illustrated one. That is, all or part of them can be configured to be functionally or physically dispersed and integrated in arbitrary units in accordance with various loads, usage conditions, and the like. For example, the vector extraction unit 233 and the unknown word vector processing unit 237 shown in FIG. 11 may be integrated. In addition, the response search unit 135 illustrated in FIG. 2 may be realized by a computer different from the generation device 10. That is, the inference process and the combining process may be performed in different cases. Furthermore, all or any part of each processing function performed in each device may be realized by a CPU and a program analyzed and executed by the CPU, or may be realized as wired logic hardware.

[ハードウェア構成]
図17は、ハードウェア構成例を示す図である。図17に示すように、生成装置10は、通信インタフェース10a、HDD(Hard Disk Drive)10b、メモリ10c、プロセッサ10dを有する。なお、以下においては実施例1における生成装置10について説明するが、その他の実施例における生成装置も、同様の構成により実現できる。
[Hardware configuration]
FIG. 17 is a diagram illustrating an example of a hardware configuration. As illustrated in FIG. 17, the generation device 10 includes a communication interface 10a, an HDD (Hard Disk Drive) 10b, a memory 10c, and a processor 10d. In addition, although the production | generation apparatus 10 in Example 1 is demonstrated below, the production | generation apparatus in another Example can also be implement | achieved by the same structure.

通信インタフェース10aは、他の装置の通信を制御するネットワークインタフェースカードなどである。HDD10bは、プログラムやデータなどを記憶する記憶装置の一例である。   The communication interface 10a is a network interface card or the like that controls communication of another device. The HDD 10 b is an example of a storage device that stores programs, data, and the like.

メモリ10cの一例としては、SDRAM(Synchronous Dynamic Random Access Memory)等のRAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ等が挙げられる。プロセッサ10dの一例としては、CPU(Central Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、PLD(Programmable Logic Device)等が挙げられる。   Examples of the memory 10 c include a random access memory (RAM) such as a synchronous dynamic random access memory (SDRAM), a read only memory (ROM), and a flash memory. Examples of the processor 10 d include a central processing unit (CPU), a digital signal processor (DSP), a field programmable gate array (FPGA), and a programmable logic device (PLD).

また、生成装置10は、プログラムを読み出して実行することで学習方法を実行する情報処理装置として動作する。つまり、生成装置10は、受付部131、単語抽出部132、ベクトル抽出部133、ベクトル結合部134、回答検索部135及び出力部136と同様の機能を実行するプログラムを実行する。この結果、生成装置10は、受付部131、単語抽出部132、ベクトル抽出部133、ベクトル結合部134、回答検索部135及び出力部136と同様の機能を実行するプロセスを実行することができる。なお、この他の実施例でいうプログラムは、生成装置10によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。   The generation device 10 also operates as an information processing device that executes a learning method by reading and executing a program. That is, the generation device 10 executes a program that executes the same function as the reception unit 131, the word extraction unit 132, the vector extraction unit 133, the vector combination unit 134, the answer search unit 135, and the output unit 136. As a result, the generation device 10 can execute a process that executes the same function as the reception unit 131, the word extraction unit 132, the vector extraction unit 133, the vector combination unit 134, the answer search unit 135, and the output unit 136. The program referred to in this other embodiment is not limited to being executed by the generation device 10. For example, when the other computer or server executes the program, or when they cooperate to execute the program, the present invention can be applied similarly.

10、20 生成装置
120、220 記憶部
121a コーパスモデルA
121b コーパスモデルB
122 検索時学習モデル
123 回答記憶部
224 未知語ベクトル記憶部
130、230 制御部
131 受付部
132 単語抽出部
133、233 ベクトル抽出部
134 ベクトル結合部
135 回答検索部
136 出力部
237 未知語ベクトル処理部
10, 20 generator 120, 220 storage unit 121a corpus model A
121b Corpus Model B
122 Search time learning model 123 Answer storage unit 224 Unknown word vector storage unit 130, 230 Control unit 131 Reception unit 132 Word extraction unit 133, 233 Vector extraction unit 134 Vector combination unit 135 Answer search unit 136 Output unit 237 Unknown word vector processing unit

Claims (14)

単語を受け付け、
受け付けた前記単語に第1の変換パラメータ及び第2の変換パラメータをそれぞれ適用して、前記単語に応じた第1のベクトル及び第2のベクトルを生成し、
生成した前記第1のベクトル及び前記第2のベクトルに基づき、前記単語に応じた新たな第3のベクトルを生成する
処理をコンピュータに実行させることを特徴とする生成プログラム。
Accept words,
Applying a first conversion parameter and a second conversion parameter to the received word to generate a first vector and a second vector according to the word;
A generation program having a computer execute a process of generating a new third vector according to the word based on the generated first vector and the second vector.
前記第3のベクトルを生成する処理は、生成した第1のベクトルと前記第2のベクトルとを連結して前記第3のベクトルを生成することを特徴とする請求項1に記載の生成プログラム。   The program according to claim 1, wherein the process of generating the third vector generates the third vector by concatenating the generated first vector and the second vector. 前記第3のベクトルを生成する処理は、生成した第1のベクトルと前記第2のベクトルとを演算することにより、前記第3のベクトルを生成することを特徴とする請求項1又は2に記載の生成プログラム。   The process of generating the third vector is characterized in that the third vector is generated by calculating the generated first vector and the second vector. Generator of. 前記第1のベクトル及び第2のベクトルを生成する処理は、前記第1のベクトルとは次元が異なる前記第2のベクトルを生成することを特徴とする請求項1乃至3のいずれか1つに記載の生成プログラム。   4. The process according to any one of claims 1 to 3, wherein the process of generating the first vector and the second vector generates the second vector having a dimension different from that of the first vector. Description generator. 前記第1のベクトル及び第2のベクトルを生成する処理は、前記単語が前記第1の変換パラメータ又は前記第2の変換パラメータに含まれない未知語であると判定した場合、前記未知語であることを示すベクトルを生成することを特徴とする請求項1乃至4のいずれか1つに記載の生成プログラム。   The process of generating the first vector and the second vector is the unknown word when it is determined that the word is an unknown word not included in the first conversion parameter or the second conversion parameter. The generator according to any one of claims 1 to 4, characterized by generating a vector indicating that. 前記第1のベクトル及び第2のベクトルを生成する処理は、前記未知語であることを示すベクトルとして、0ベクトル又は乱数ベクトルを生成することを特徴とする請求項5に記載の生成プログラム。   The program according to claim 5, wherein the process of generating the first vector and the second vector generates a zero vector or a random number vector as a vector indicating that the word is an unknown word. 前記第1のベクトル及び第2のベクトルを生成する処理は、前記未知語であることを示すベクトルとして、未知語であると判定されなかった前記第1のベクトル又は第2のベクトルを複製したベクトルを生成することを特徴とする請求項5に記載の生成プログラム。   In the process of generating the first vector and the second vector, a vector obtained by duplicating the first vector or the second vector not determined to be an unknown word as the vector indicating the unknown word. The generation program according to claim 5, characterized in that: 前記第1のベクトルと前記第2のベクトルとの組み合わせを用いて学習処理を行うことにより、前記未知語であることを示すベクトルを生成する処理をさらにコンピュータに実行させることを特徴とする請求項5に記載の生成プログラム。   The computer-implemented method further causes the computer to execute a process of generating a vector indicating the unknown word by performing a learning process using a combination of the first vector and the second vector. The generator described in 5. 複数の判別対象の文章に含まれる単語またはフレーズの素性に関する学習を実行した学習モデルを用いて、前記第3のベクトルから、受け付けた前記単語と前記複数の判別対象の文章との判別結果を取得する処理をさらにコンピュータに実行させることを特徴とする請求項1乃至8のいずれか1つに記載の生成プログラム。   Using the learning model in which the learning about the feature of the word or phrase included in the sentences to be discriminated is performed, the discrimination result between the received word and the sentences to be discriminated is obtained from the third vector The generation program according to any one of claims 1 to 8, further causing a computer to execute the processing. 前記判別結果を取得する処理は、前記第1のベクトル、前記第2のベクトル及び前記第3のベクトルのうち、いずれか1つ又は2つ以上の組み合わせを選択し、選択されたベクトルに対応する前記学習モデルを用いて、受け付けた前記単語と前記複数の判別対象の文章との判別結果を取得することを特徴とする請求項9に記載の生成プログラム。   The process of acquiring the discrimination result selects any one or a combination of one or more of the first vector, the second vector, and the third vector, and corresponds to the selected vector. The generation program according to claim 9, wherein a discrimination result between the received word and the plurality of sentences to be discriminated is acquired using the learning model. 前記受け付ける処理は、複数の前記単語を含むテキストデータを受け付け、
前記第1のベクトル及び第2のベクトルを生成する処理は、前記テキストデータに応じた前記第1のベクトル及び第2のベクトルを生成し、
前記第3のベクトルを生成する処理は、前記テキストデータに応じた新たな第3のベクトルを生成することを特徴とする請求項1乃至10のいずれか1つに記載の生成プログラム。
The accepting process accepts text data including a plurality of the words,
The process of generating the first vector and the second vector generates the first vector and the second vector according to the text data,
The generation program according to any one of claims 1 to 10, wherein the process of generating the third vector generates a new third vector according to the text data.
前記第1のベクトル及び第2のベクトルを生成する処理は、受け付けた前記単語に第3の変換パラメータをさらに適用して、前記単語に応じた第4のベクトルをさらに生成し、
前記第3のベクトルを生成する処理は、生成した前記第1のベクトル及び前記第2のベクトルに加えて、さらに前記第4のベクトルに基づき、前記単語に応じた新たな第3のベクトルを生成することを特徴とする請求項1乃至11のいずれか1つに記載の生成プログラム。
The process of generating the first vector and the second vector further applies a third conversion parameter to the received word to further generate a fourth vector according to the word;
The process of generating the third vector generates a new third vector according to the word based on the fourth vector in addition to the generated first vector and the second vector. The generation program according to any one of claims 1 to 11, wherein:
コンピュータが、
単語を受け付け、
受け付けた前記単語に第1の変換パラメータ及び第2の変換パラメータをそれぞれ適用して、前記単語に応じた第1のベクトル及び第2のベクトルを生成し、
生成した前記第1のベクトル及び前記第2のベクトルに基づき、前記単語に応じた新たな第3のベクトルを生成する
処理を行う生成方法。
The computer is
Accept words,
Applying a first conversion parameter and a second conversion parameter to the received word to generate a first vector and a second vector according to the word;
A generation method for performing processing of generating a new third vector according to the word based on the generated first vector and the second vector.
単語を受け付ける受付部と、
受け付けた前記単語に第1の変換パラメータ及び第2の変換パラメータをそれぞれ適用して、前記単語に応じた第1のベクトル及び第2のベクトルを生成する第1ベクトル処理部と、
生成した前記第1のベクトル及び前記第2のベクトルに基づき、前記単語に応じた新たな第3のベクトルを生成する第2ベクトル処理部と、
を有する生成装置。
A reception unit for receiving words,
A first vector processing unit that applies a first conversion parameter and a second conversion parameter to the received word to generate a first vector and a second vector according to the word;
A second vector processing unit that generates a new third vector according to the word based on the generated first vector and the second vector;
A generator having:
JP2017209840A 2017-10-30 2017-10-30 Generation program, generation method and generation device Pending JP2019082860A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017209840A JP2019082860A (en) 2017-10-30 2017-10-30 Generation program, generation method and generation device
US16/153,862 US11270085B2 (en) 2017-10-30 2018-10-08 Generating method, generating device, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017209840A JP2019082860A (en) 2017-10-30 2017-10-30 Generation program, generation method and generation device

Publications (1)

Publication Number Publication Date
JP2019082860A true JP2019082860A (en) 2019-05-30

Family

ID=66242998

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017209840A Pending JP2019082860A (en) 2017-10-30 2017-10-30 Generation program, generation method and generation device

Country Status (2)

Country Link
US (1) US11270085B2 (en)
JP (1) JP2019082860A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021096761A (en) * 2019-12-19 2021-06-24 株式会社Nttドコモ Retrieval support apparatus
WO2022249478A1 (en) * 2021-05-28 2022-12-01 富士通株式会社 Information processing program, information processing method, and information processing device

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11494564B2 (en) * 2020-03-27 2022-11-08 Naver Corporation Unsupervised aspect-based multi-document abstractive summarization

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006190226A (en) * 2005-01-07 2006-07-20 Advanced Telecommunication Research Institute International Declinable word automatic paraphrasing apparatus, declinable word paraphrasing method and declinable word paraphrasing processing program
US20140236577A1 (en) * 2013-02-15 2014-08-21 Nec Laboratories America, Inc. Semantic Representations of Rare Words in a Neural Probabilistic Language Model
JP2015228170A (en) * 2014-06-02 2015-12-17 富士通株式会社 Machine translation method, machine translation program and machine translation apparatus
JP2016063359A (en) * 2014-09-17 2016-04-25 株式会社東芝 Bus interface circuit

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7734459B2 (en) * 2001-06-01 2010-06-08 Microsoft Corporation Automatic extraction of transfer mappings from bilingual corpora
US7191115B2 (en) * 2001-06-20 2007-03-13 Microsoft Corporation Statistical method and apparatus for learning translation relationships among words
JP3765800B2 (en) 2003-05-28 2006-04-12 沖電気工業株式会社 Translation dictionary control device, translation dictionary control method, and translation dictionary control program
JPWO2016067418A1 (en) * 2014-10-30 2017-04-27 三菱電機株式会社 Dialog control apparatus and dialog control method
US20170308526A1 (en) * 2016-04-21 2017-10-26 National Institute Of Information And Communications Technology Compcuter Implemented machine translation apparatus and machine translation method
US10409903B2 (en) * 2016-05-31 2019-09-10 Microsoft Technology Licensing, Llc Unknown word predictor and content-integrated translator
JP6705318B2 (en) * 2016-07-14 2020-06-03 富士通株式会社 Bilingual dictionary creating apparatus, bilingual dictionary creating method, and bilingual dictionary creating program
CN109314660B (en) * 2017-03-31 2021-11-23 微软技术许可有限责任公司 Method and device for providing news recommendation in automatic chat

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006190226A (en) * 2005-01-07 2006-07-20 Advanced Telecommunication Research Institute International Declinable word automatic paraphrasing apparatus, declinable word paraphrasing method and declinable word paraphrasing processing program
US20140236577A1 (en) * 2013-02-15 2014-08-21 Nec Laboratories America, Inc. Semantic Representations of Rare Words in a Neural Probabilistic Language Model
JP2015228170A (en) * 2014-06-02 2015-12-17 富士通株式会社 Machine translation method, machine translation program and machine translation apparatus
JP2016063359A (en) * 2014-09-17 2016-04-25 株式会社東芝 Bus interface circuit

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SAHAR GHANNAY, ET.AL.: "Word Embedding Evaluation and Combination", PROCEEDINGS OF LREC2016, JPN6021026098, 23 May 2016 (2016-05-23), pages 300 - 305, ISSN: 0004678828 *
土田 崇仁: "Word2Vecを用いた地域やランドマークの意味演算", 第8回データ工学と情報マネジメントに関するフォーラム (第14回日本データベース学会年次大会) [O, JPN6021026100, 2 March 2016 (2016-03-02), JP, pages 1 - 6, ISSN: 0004678829 *
牧 諒亮: "視線情報を用いた述語項構造解析モデルへの単語分散表現の導入", 言語処理学会第23回年次大会 発表論文集 [ONLINE] PROCEEDINGS OF THE TWENTY-THIRD ANNUAL M, JPN6021026101, 6 March 2017 (2017-03-06), JP, pages 605 - 608, ISSN: 0004678830 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021096761A (en) * 2019-12-19 2021-06-24 株式会社Nttドコモ Retrieval support apparatus
JP7339148B2 (en) 2019-12-19 2023-09-05 株式会社Nttドコモ Search support device
WO2022249478A1 (en) * 2021-05-28 2022-12-01 富士通株式会社 Information processing program, information processing method, and information processing device

Also Published As

Publication number Publication date
US11270085B2 (en) 2022-03-08
US20190129948A1 (en) 2019-05-02

Similar Documents

Publication Publication Date Title
US11017178B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN106844368B (en) Method for man-machine conversation, neural network system and user equipment
CN108427707B (en) Man-machine question and answer method, device, computer equipment and storage medium
RU2678716C1 (en) Use of autoencoders for learning text classifiers in natural language
CN111539197B (en) Text matching method and device, computer system and readable storage medium
CN111581949B (en) Method and device for disambiguating name of learner, storage medium and terminal
EP3799640A1 (en) Semantic parsing of natural language query
WO2020007027A1 (en) Online question-answer method, apparatus, computer equipment and storage medium
CN111859986A (en) Semantic matching method, device, equipment and medium based on multitask twin network
KR20180094664A (en) Method for information extraction from text data and apparatus therefor
JP2019082841A (en) Generation program, generation method and generation device
Banik et al. Gru based named entity recognition system for bangla online newspapers
CN112581327B (en) Knowledge graph-based law recommendation method and device and electronic equipment
US11270085B2 (en) Generating method, generating device, and recording medium
CN115186080A (en) Intelligent question-answering data processing method, system, computer equipment and medium
CN113761124B (en) Training method of text coding model, information retrieval method and equipment
D’silva et al. Automatic text summarization of konkani texts using pre-trained word embeddings and deep learning
CN113761151A (en) Synonym mining method, synonym mining device, synonym question answering method, synonym question answering device, computer equipment and storage medium
CN116049376B (en) Method, device and system for retrieving and replying information and creating knowledge
CN117290478A (en) Knowledge graph question-answering method, device, equipment and storage medium
CN117076636A (en) Information query method, system and equipment for intelligent customer service
JP6899973B2 (en) Semantic relationship learning device, semantic relationship learning method, and semantic relationship learning program
CN111414755A (en) Network emotion analysis method based on fine-grained emotion dictionary
CN116644148A (en) Keyword recognition method and device, electronic equipment and storage medium
CN114676237A (en) Sentence similarity determining method and device, computer equipment and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200807

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210616

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210831

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220111