JP6789426B1 - 演算システム、及び演算プログラム - Google Patents
演算システム、及び演算プログラム Download PDFInfo
- Publication number
- JP6789426B1 JP6789426B1 JP2020018552A JP2020018552A JP6789426B1 JP 6789426 B1 JP6789426 B1 JP 6789426B1 JP 2020018552 A JP2020018552 A JP 2020018552A JP 2020018552 A JP2020018552 A JP 2020018552A JP 6789426 B1 JP6789426 B1 JP 6789426B1
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- meaning
- word
- calculated
- word string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 claims abstract description 469
- 238000004364 calculation method Methods 0.000 claims abstract description 259
- 238000000034 method Methods 0.000 claims description 180
- 230000008569 process Effects 0.000 claims description 140
- 239000013598 vector Substances 0.000 claims description 38
- 230000010354 integration Effects 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 abstract description 10
- 238000009825 accumulation Methods 0.000 description 38
- 238000004891 communication Methods 0.000 description 21
- 230000000694 effects Effects 0.000 description 5
- 238000000354 decomposition reaction Methods 0.000 description 4
- 230000000877 morphologic effect Effects 0.000 description 4
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000002496 gastric effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
また、単語列間類似度に基づいて第2単語列意味第1文側被含有尺度を演算し、演算結果に基づいて第2文意味第1文側被含有尺度を演算し、また、単語列間類似度に基づいて第1単語列意味第2文側被含有尺度を演算し、演算結果に基づいて第1文意味第2文側被含有尺度を演算することにより、例えば、単語列の単位(つまり、比較的小さい粒度の単位)で意味が文に含まれる程度を考慮することができるので、第1文及び第2文相互間の意味の類似性の度合いを的確に把握することが可能となる。
また、第2単語列意味第1文側被含有尺度に基づいて第2単語列群意味第1文側被含有尺度を演算し、演算結果に基づいて第2文意味第1文側被含有尺度を演算し、また、第1単語列意味第2文側被含有尺度に基づいて第1単語列群意味第2文側被含有尺度を演算し、演算結果に基づいて第1文意味第2文側被含有尺度を演算することにより、例えば、単語列群の単位(つまり、単語列よりも大きな粒度の単位)で意味が文に含まれる程度も考慮することができるので、第1文及び第2文相互間の意味の類似性の度合いを的確に把握することが可能となる。
また、第1単語列の個数分の第1演算値(コサイン類似度に基づく演算値)の内の最大値を、第2文における1個の第2単語列の意味が第1文に含まれる程度を示す第2単語列意味第1文側被含有尺度とし、また、第2単語列の個数分の第2演算値(コサイン類似度に基づく演算値)の内の最大値を、第1文における1個の第1単語列の意味が第2文に含まれる程度を示す第1単語列意味第2文側被含有尺度とすることにより、例えば、第2単語列意味第1文側被含有尺度、及び第1単語列意味第2文側被含有尺度を適切に演算することができるので、第1文及び第2文相互間の意味の類似性の度合いを的確に把握することが可能となる。
また、第2単語列の個数分の第2単語列意味第1文側被含有尺度を演算し、演算した第2単語列意味第1文側被含有尺度についての平均に対応する演算を行うことにより第2単語列群意味第1文側被含有尺度を演算し、また、第1単語列の個数分の第1単語列意味第2文側被含有尺度を演算し、演算した第1単語列意味第2文側被含有尺度についての平均に対応する演算を行うことにより第1単語列群意味第2文側被含有尺度を演算することにより、例えば、第2単語列群意味第1文側被含有尺度、及び第1単語列群意味第2文側被含有尺度を適切に演算することができるので、第1文及び第2文相互間の意味の類似性の度合いを的確に把握することが可能となる。
また、nがa(aは正の整数)からb(bはaより大きな正の整数)各々である場合の第2単語列群意味第1文側被含有尺度を演算し、演算した第2単語列群意味第1文側被含有尺度についての平均に対応する演算を行うことにより第2文意味第1文側被含有尺度を演算し、また、nがa(aは正の整数)からb(bはaより大きな正の整数)各々である場合の第1単語列群意味第2文側被含有尺度を演算し、演算した第1単語列群意味第2文側被含有尺度についての平均に対応する演算を行うことにより第1文意味第2文側被含有尺度を演算した上で、第2文意味第1文側被含有尺度と第1文意味第2文側被含有尺度との平均を文間類似度として演算することにより、例えば、第2文意味第1文側被含有尺度、及び第1文意味第2文側被含有尺度を適切に演算することができるので、第1文及び第2文相互間の意味の類似性の度合いを的確に把握することが可能となる。
まず、基本的概念について説明する。本発明に係る演算システムは、文間類似度を演算するシステムであり、例えば、文間類似度を演算する専用システム、あるいは、汎用的に用いられるシステム(一例としては、汎用コンピュータ、サーバコンピュータ、あるいは、ネットワーク上に分散配置された複数のコンピュータ(つまり、いわゆるクラウドコンピュータ)等)に対して、演算プログラムをインストールして文間類似度を演算する機能を実装することにより実現されるシステム等を含む概念である。また、演算システムは、例えば、取得手段、及び演算手段を備える。
次に、用語について説明する。
まず、本実施の形態に係るチャットシステムについて説明する。図1は、本発明の実施の形態がチャットシステムのブロック図である。
端末装置1は、問い合わせを行うユーザが携帯している携帯端末であり、例えば、いわゆるスマートフォンであり、一例としては、通信部11、タッチパッド12、ディスプレイ13、記録部14、及び制御部15を備える。
通信部11は、外部装置(例えば、サーバ装置2)との間で通信するための通信手段である。この通信部11の具体的な種類や構成は任意であるが、例えば、公知の通信回路等を用いて構成することができる。
タッチパッド12は、ユーザの指等で押圧されることにより、当該ユーザから各種操作入力を受け付ける操作手段である。このタッチパッド12の具体的な構成は任意であるが、例えば、抵抗膜方式や静電容量方式等による操作位置検出手段を備えた公知のものを用いることができる。
ディスプレイ13は、制御部15の制御に基づいて各種の画像を表示する表示手段である。このディスプレイ13の具体的な構成は任意であるが、例えば、公知の液晶ディスプレイや有機ELディスプレイの如きフラットパネルディスプレイ等を用いることができる。なお、上記のタッチパッド12とディスプレイ13と相互に重畳させてタッチパネルとして一体形成しても構わない。
記録部14は、端末装置1の動作に必要なプログラム及び各種のデータを記録する記録手段であり、例えば、外部記録装置としてのフラッシュメモリ(図示省略)を用いて構成されている。ただし、フラッシュメモリに代えてあるいはフラッシュメモリと共に、ハードディスク、磁気ディスクの如き磁気的記録媒体、又はDVDやブルーレイディスクの如き光学的記録媒体を含む、その他の任意の記録媒体を用いることができる(他の装置の記録部も同様とする)。
制御部15は、端末装置1を制御する制御手段であり、具体的には、CPU、当該CPU上で解釈実行される各種のプログラム(OSなどの基本制御プログラムや、OS上で起動され特定機能を実現するアプリケーションプログラムを含む)、及びプログラムや各種のデータを格納するためのRAMの如き内部メモリを備えて構成されるコンピュータである(他の装置の制御部も同様とする)。特に、実施の形態に係るプログラムは、任意の記録媒体又はネットワークを介して端末装置1にインストールされることで、制御部15の各部を実質的に構成する(他の装置の制御部も同様とする)。
サーバ装置2は、演算システムであり、例えば、通信部21、記録部22、及び制御部23を備える。
通信部21は、外部装置(例えば、端末装置1)との間で通信するための通信手段である。この通信部21の具体的な種類や構成は任意であるが、例えば、通信部11と同様にして構成することができる。
記録部22は、サーバ装置2の動作に必要なプログラム及び各種のデータを記録する記録手段であり、例えば、類似語特定情報データベース(以下、データベースを「DB」と称する)221、単語間類似度特定情報DB222、共起度特定情報DB223、逆文書頻度特定情報DB224、質問回答特定情報DB225を備える。
類似語特定情報DB221とは、類似語特定情報を格納する類似語特定情報格納手段である。「類似語特定情報」とは、例えば、相互に意味が類似している単語nグラム(nは正の整数)を特定する情報である。この類似語特定情報DB221に特定されている類似語特定情報は任意であるが、例えば、単語1グラムである「チェックアウト」と「checkout」が相互に類似していること、単語2グラムである「チェックアウト+は」と「checkout+は」が相互に類似していること等を特定する情報が格納されていることとする。なお、この類似語特定情報DB221における類似語特定情報を格納する具体的な手法は任意であるが、例えば、管理者が不図示の入力手段(キーボード又はマウス等)を介してサーバ装置2に類似語特定情報を入力したり、あるいは、管理者が自己の端末(パーソナルコンピュータ等)からサーバ装置2に類似語特定情報を送信したりすることにより、類似語特定情報が格納されることとする。
単語間類似度特定情報DB222とは、単語間類似度特定情報を格納する単語間類似度特定情報格納手段である。「単語間類似度特定情報」とは、単語nグラム相互間の類似性の度合いを特定する情報である。図2は、単語間類似度特定情報を例示した図である。「単語間類似度特定情報」は、図2に示すように、例えば、項目「単語情報」に対応する情報と、項目「類似度情報」に対応する情報とが相互に関連付けられて格納されている。項目「単語情報」に対応する情報は、2個の単語nグラムを特定する単語情報である(図2では、単語1グラムである「checkout」と「チェックイン」を特定する「checkout、チェックイン」、及び単語2グラムの「checkout+は」と「チェックイン+は」を特定する「checkout+は、チェックイン+は」等)。項目「類似度情報」に対応する情報は、単語列間類似度であり、単語nグラム相互間の意味についての類似性の度合いを特定する類似度情報である。この類似度情報としては任意の情報を用いることができるが、例えば、単語情報で特定されている2個の単語nグラム各々の分散表現に対応するベクトル各々のコサイン類似度に対応する数値情報を用いる場合について説明する。図2では、例えば、最上段の情報について、「類似度情報」=「Vs(checkout、チェックイン)」は、「単語情報」=「checkout、チェックイン」が示す単語1グラムである「checkout」及び単語1グラムである「チェックイン」の各々の分散表現である各ベクトルのコサイン類似度を示す数値情報であることとして、以下説明する。なお、実際には、このコサイン類似度を示す数値情報については、「0」以上から「1」以下の数値となり、例えば、2個の単語nグラムの意味が相互に一致する場合、「1」となり、また、2個の単語nグラムの意味が相互に遠くなる(つまり、意味の類似性の度合いが下がる)につれて「0」に近い数値となり、一方、2個の単語nグラムの意味が相互に近づく(つまり、意味の類似性の度合いが上がる)につれて「1」に近い数値となる。
図1の共起度特定情報DB223は、共起度特定情報を格納する共起度特定情報格納手段である。「共起度特定情報」とは、単語nグラム相互間の共起度を特定する情報である。図3は、共起度特定情報を例示した図である。「共起度特定情報」は、図3に示すように、例えば、項目「単語情報」に対応する情報と、項目「共起度情報」に対応する情報とが相互に関連付けられて格納されている。項目「単語情報」に対応する情報は、図2の同一名称の情報と同様である。項目「共起度情報」に対応する情報は、2個の単語nグラム各々の共起度を特定する共起度情報である。この共起度情報としては任意の情報を用いることができるが、例えば、前述のコーパスDBから取得した多数の文において、「「図3の単語情報が特定する単語nグラムの内の両方の単語nグラムが含まれている文の個数」÷「図3の単語情報が特定する単語nグラムの内の少なくとも一方が含まれている文の個数」」の演算結果の数値情報を用いる場合について説明する。図3では、例えば、最上段の情報について、「類似度情報」=「Vc(checkout、チェックイン)」は、前述のコーパスDBから取得した多数の文において、「「checkout」及び「チェックイン」の両方の単語nグラムが含まれている文の個数」÷「「checkout」及び「チェックイン」の少なくとも一方が含まれている文の個数」の演算結果を示す数値情報であることとして、以下説明する。つまり、この共起度情報においては、2個の単語nグラムが共に使われている文が多い程、大きな数値となる。
図1の逆文書頻度特定情報DB224は、逆文書頻度特定情報を格納する逆文書頻度特定情報格納手段である。「逆文書頻度特定情報」とは、単語nグラムのIDF(つまり、逆文書頻度)を特定する情報である。図4は、逆文書頻度特定情報を例示した図である。「逆文書頻度特定情報」は、図4に示すように、例えば、項目「単語情報」に対応する情報と、項目「逆文書頻度情報」に対応する情報とが相互に関連付けられて格納されている。項目「単語情報」に対応する情報は、図2の同一名称の情報と同様であり、1個の単語nグラムを特定する単語情報である。項目「逆文書頻度情報」に対応する情報は、単語nグラムのIDFを特定する逆文書頻度情報である。この逆文書頻度情報としては任意の情報を用いることができるが、例えば、前述のコーパスDBから取得した多数の文において、IDFを演算する所定の演算式を用いて行われる演算の演算結果の数値情報を用いる場合について説明する。なお、ここでの所定の演算式としては、例えば、「前述のコーパスDBから取得した多数の文の個数」÷「前述のコーパスDBから取得した多数の文の内の、1個の単語nグラムが含まれている文の個数」の演算結果の対数(つまり、「log」)に対して、定数(例えば、「1」等)を加算する演算式を用いてもよいし、その他の任意の演算式を用いてもよい。図4では、例えば、最上段の情報について、「逆文書頻度情報」=「Vi(checkout)」は、前述のコーパスDBから取得した多数の文における、「checkout」についての、前述の所定の演算式を用いて行われた演算結果を示す数値情報であることとして、以下説明する。つまり、この逆文書頻度情報においては、単語nグラムが含まれている文の個数が多くなる程、小さな数値となる。
図1の質問回答特定情報DB225は、質問回答特定情報を格納する質問回答特定情報格納手段である。「質問回答特定情報」とは、質問と当該質問に対する回答を特定する情報である。図5は、質問回答特定情報を例示した図である。「質問回答特定情報」は、図5に示すように、例えば、項目「質問情報」に対応する情報と、項目「回答情報」に対応する情報とが相互に関連付けられて格納されている。項目「質問情報」に対応する情報は、質問内容を示す文を特定する質問情報である(図4では、チャットシステム100で用いられる1個の質問の文のテキスト情報である「チェックインチェックアウトは何時」等)。なお、ここでの質問情報が特定する文を「蓄積文」とも称する。項目「回答情報」に対応する情報は、質問情報が示す質問内容に対する回答内容を示す文を特定する回答情報である(図4では、チャットシステム100で用いられる1個の文のテキスト情報である「チェックインは15時でチェックアウトは10時です」等)。
制御部23は、サーバ装置2を制御する制御手段である。この制御部23は、機能概念的に、例えば、取得部231、及び演算部232を備える。取得部231は、第1文及び第2文を取得する取得手段である。演算部232は、取得部231が取得した第1文及び第2文に基づいて、文間類似度を演算する演算手段であり、特に、取得部231が取得した第1文に含まれている複数の単語の内のn個(nは正の整数)の連続する単語からなる第1単語列と、取得部231が取得した第2文に含まれている複数の単語の内のn個(nは正の整数)の連続する単語からなる第2単語列との類似性の度合いである単語列間類似度に基づいて、第2文の意味が第1文に含まれる程度を示す第2文意味第1文側被含有尺度を演算する第1演算処理と、単語列間類似度に基づいて、第1文の意味が第2文に含まれる程度を示す第1文意味第2文側被含有尺度を演算する第2演算処理と、第1演算処理にて演算された第2文意味第1文側被含有尺度と、第2演算処理にて演算された第1文意味第2文側被含有尺度とに基づいて、文間類似度を演算する第3演算処理と、を行う演算手段である。そして、このような制御部23の各部によって行われる処理については、後述する。
次に、このように構成されるチャットシステム100によって行われる回答出力処理について説明する。図6は、回答出力処理のフローチャートである(以下では、各ステップを「S」と称する)。回答出力処理は、サーバ装置2で行われる処理であり、概略的には、ユーザからの質問に対する回答を出力する処理である。この回答出力処理を実行するタイミングは任意であるが、例えば、サーバ装置2の電源をオンした場合に、繰り返し起動することとし、この回答出力処理が起動したところから説明する。
このように本実施の形態によれば、単語列間類似度に基づいて蓄積文意味入力文側被含有尺度を演算し、また、単語列間類似度に基づいて入力文意味蓄積文側被含有尺度を演算した上で、これらの演算結果に基づいて文間類似度を演算することにより、例えば、少なくとも単語列の単位(つまり、比較的小さい粒度の単位)の類似度を用いて文間類似度を演算するので、入力文及び蓄積文相互間の意味の類似性の度合いを的確に把握することが可能となる。また、蓄積文意味入力文側被含有尺度及び入力文意味蓄積文側被含有尺度に基づいて文間類似度を演算するので、入力文及び蓄積文相互間の意味の類似性の度合いをより的確に把握することが可能となる。
以上、本発明に係る実施の形態について説明したが、本発明の具体的な構成及び手段は、特許請求の範囲に記載した本発明の技術的思想の範囲内において、任意に改変及び改良することができる。以下、このような変形例について説明する。
まず、発明が解決しようとする課題や発明の効果は、上述の内容に限定されるものではなく、発明の実施環境や構成の細部に応じて異なる可能性があり、上述した課題の一部のみを解決したり、上述した効果の一部のみを奏したりすることがある。
また、上述した各電気的構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各部の分散や統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散又は統合して構成できる。また、本出願における「装置」とは、単一の装置によって構成されたものに限定されず、複数の装置によって構成されたものを含む。
実施の形態や図面において例示した構成要素に関して、形状、数値、又は複数の構成要素の構造若しくは時系列の相互関係については、本発明の技術的思想の範囲内において、任意に改変及び改良することができる。
また、上記実施の形態では、図7の各数式の重みの値を任意に変更してもよい。具体的には、数式M2−1、M2−1−1の重みの値として所定値(予め定められている値)を用いてもよいし、あるいは、前述したように、各重みの値を省略してもよい。なお、数式M2についても同様としてもよい。
また、上記実施の形態では、図7の各数式の演算を実施する処理フローとして、図8及び図10の処理フローを実行する場合について説明した、これに限らず、図7の演算を行う限りにおいて他の任意のフローを実行してもよい。
また、上記実施の形態の図6のSA3の入力文意味蓄積文側被含有尺度演算処理では、入力文側及び蓄積文側において単語nグラムの「n」の値が相互に同じである場合について説明したが、これに限らない。例えば、「n」の値を相互に異ならせて処理を行ってもよい。この場合、任意の手法(例えば、前述の「ベクトルの各要素を加算する手法」で説明した手法、あるいは、その他の公知の手法等)でベクトルの次元を相互に一致させて処理を行ってもよい。なお、図6のSA4の蓄積文意味入力文側被含有尺度演算処理についても同様である。
また、上記実施の形態の図8のSB6の類似の判定手法を任意に変更してもよい。例えば、図1の類似語特定情報DB221の類似語特定情報として、「n」の値の相互に異なる単語nグラムが相互に類似していることを特定する情報も記録されていることとし、当該記録されている情報に基づいて、「n」の値に関わらずに蓄積文の単語nグラムを全て取得し、そのうちの少なくとも1個の単語nグラムと、SB5で取得した1個の入力文の単語nグラムが相互に類似しているか否かを判定してもよい。なお、図10のSC6の処理についても同様である。
また、上記実施の形態では、図7の各数式の演算に基づいてチャットシステム100を実現する場合について説明したが、これに限らない。図7の各数式の演算を行って、単に文間類似度を演算するのみシステムに適用してもよい。
付記1の演算システムは、第1文及び第2文の類似性の度合いである文間類似度を演算する演算システムであって、前記第1文及び前記第2文を取得する取得手段と、前記取得手段が取得した前記第1文及び前記第2文に基づいて、前記文間類似度を演算する演算手段と、を備え、前記演算手段は、前記取得手段が取得した前記第1文に含まれている複数の単語の内のn個(nは正の整数)の連続する単語からなる第1単語列と、前記取得手段が取得した前記第2文に含まれている複数の単語の内のn個(nは正の整数)の連続する単語からなる第2単語列との類似性の度合いである単語列間類似度に基づいて、前記第2文の意味が前記第1文に含まれる程度を示す第2文意味第1文側被含有尺度を演算する第1演算処理と、前記単語列間類似度に基づいて、前記第1文の意味が前記第2文に含まれる程度を示す第1文意味第2文側被含有尺度を演算する第2演算処理と、前記第1演算処理にて演算された前記第2文意味第1文側被含有尺度と、前記第2演算処理にて演算された前記第1文意味第2文側被含有尺度とに基づいて、前記文間類似度を演算する第3演算処理と、を行う。
付記1に記載の演算システム、及び付記7に記載の演算システムによれば、単語列間類似度に基づいて第2文意味第1文側被含有尺度を演算し、また、単語列間類似度に基づいて第1文意味第2文側被含有尺度を演算した上で、これらの演算結果に基づいて文間類似度を演算することにより、例えば、少なくとも単語列の単位(つまり、比較的小さい粒度の単位)の類似度を用いて文間類似度を演算するので、第1文及び第2文相互間の意味の類似性の度合いを的確に把握することが可能となる。また、第2文意味第1文側被含有尺度及び第1文意味第2文側被含有尺度に基づいて文間類似度を演算するので、第1文及び第2文相互間の意味の類似性の度合いをより的確に把握することが可能となる。
2 サーバ装置
11 通信部
12 タッチパッド
13 ディスプレイ
14 記録部
15 制御部
21 通信部
22 記録部
23 制御部
100 チャットシステム
221 類似語特定情報DB
222 単語間類似度特定情報DB
223 共起度特定情報DB
224 逆文書頻度特定情報DB
225 質問回答特定情報DB
231 取得部
232 演算部
Claims (2)
- 第1文及び第2文の類似性の度合いである文間類似度を演算する演算システムであって、
前記第1文及び前記第2文を取得する取得手段と、
前記取得手段が取得した前記第1文及び前記第2文に基づいて、前記文間類似度を演算する演算手段と、を備え、
前記演算手段は、
前記取得手段が取得した前記第1文に含まれている複数の単語の内のn個(nは正の整数)の連続する単語からなる第1単語列と、前記取得手段が取得した前記第2文に含まれている複数の単語の内のn個(nは正の整数)の連続する単語からなる第2単語列との類似性の度合いである単語列間類似度に基づいて、前記第2文の意味が前記第1文に含まれる程度を示す第2文意味第1文側被含有尺度を演算する第1演算処理と、
前記単語列間類似度に基づいて、前記第1文の意味が前記第2文に含まれる程度を示す第1文意味第2文側被含有尺度を演算する第2演算処理と、
前記第1演算処理にて演算された前記第2文意味第1文側被含有尺度と、前記第2演算処理にて演算された前記第1文意味第2文側被含有尺度とに基づいて、前記文間類似度を演算する第3演算処理と、を行い、
前記演算手段は、
前記第1演算処理において、前記単語列間類似度に基づいて、前記第2単語列の意味が前記第1文に含まれる程度を示す第2単語列意味第1文側被含有尺度を演算し、演算した前記第2単語列意味第1文側被含有尺度に基づいて、前記第2文意味第1文側被含有尺度を演算し、
前記第2演算処理において、前記単語列間類似度に基づいて、前記第1単語列の意味が前記第2文に含まれる程度を示す第1単語列意味第2文側被含有尺度を演算し、演算した前記第1単語列意味第2文側被含有尺度に基づいて、前記第1文意味第2文側被含有尺度を演算し、
前記演算手段は、
前記第1演算処理において、前記第2単語列意味第1文側被含有尺度に基づいて、前記取得手段が取得した前記第2文に含まれている前記第2単語列の集合である第2単語列群の意味が前記第1文に含有されている程度を示す第2単語列群意味第1文側被含有尺度を演算し、演算した前記第2単語列群意味第1文側被含有尺度に基づいて、前記第2文意味第1文側被含有尺度を演算し、
前記第2演算処理において、前記第1単語列意味第2文側被含有尺度に基づいて、前記取得手段が取得した前記第1文に含まれている前記第1単語列の集合である第1単語列群の意味が前記第2文に含有されている程度を示す第1単語列群意味第2文側被含有尺度を演算し、演算した前記第1単語列群意味第2文側被含有尺度に基づいて、前記第1文意味第2文側被含有尺度を演算し、
前記単語列間類似度は、前記第1文における1個の前記第1単語列を示す分散表現の第1ベクトルと、前記第2文における1個の前記第2単語列を示す分散表現の第2ベクトルとのコサイン類似度であり、
前記演算手段は、
前記第1演算処理において、
前記コサイン類似度に基づく第1演算値であって、前記コサイン類似度に対応する数値と重みに対応する数値との積算結果である前記第1演算値を演算する第1演算処理側第1処理と、
前記第1演算処理側第1処理において、前記第1文に含まれている前記第1単語列を順次適用して、当該第1演算処理側第1処理を前記第1単語列の個数に対応する回数分繰り返し実行し、前記第1単語列の個数分の前記第1演算値を演算する第1演算処理側第2処理と、
前記第1演算処理側第2処理で演算された前記第1単語列の個数分の前記第1演算値の内の最大値を、前記第2文における1個の前記第2単語列の意味が前記第1文に含まれる程度を示す前記第2単語列意味第1文側被含有尺度とする第1演算処理側第3処理と、を行い、
前記第2演算処理において、
前記コサイン類似度に基づく第2演算値であって、前記コサイン類似度に対応する数値と重みに対応する数値との積算結果である前記第2演算値を演算する第2演算処理側第1処理と、
前記第2演算処理側第1処理において、前記第2文に含まれている前記第2単語列を順次適用して、当該第2演算処理側第1処理を前記第2単語列の個数に対応する回数分繰り返し実行し、前記第2単語列の個数分の前記第2演算値を演算する第2演算処理側第2処理と、
前記第2演算処理側第2処理で演算された前記第2単語列の個数分の前記第2演算値の内の最大値を、前記第1文における1個の前記第1単語列の意味が前記第2文に含まれる程度を示す前記第1単語列意味第2文側被含有尺度とする第2演算処理側第3処理と、を行い、
前記演算手段は、
前記第1演算処理において、
前記第2文に含まれている前記第2単語列を順次適用して、前記第1演算処理側第1処理、前記第1演算処理側第2処理、及び前記第1演算処理側第3処理を、前記第2単語列の個数に対応する回数分繰り返し実行し、前記第2単語列の個数分の前記第2単語列意味第1文側被含有尺度を演算する第1演算処理側第4処理と、
前記第1演算処理側第4処理で演算した前記第2単語列の個数分の前記第2単語列意味第1文側被含有尺度についての平均に対応する演算を行うことにより、前記第2単語列群意味第1文側被含有尺度を演算する第1演算処理側第5処理と、を更に行い、
前記第2演算処理において、
前記第1文に含まれている前記第1単語列を順次適用して、前記第2演算処理側第1処理、前記第2演算処理側第2処理、及び前記第2演算処理側第3処理を、前記第1単語列の個数に対応する回数分繰り返し実行し、前記第1単語列の個数分の前記第1単語列意味第2文側被含有尺度を演算する第2演算処理側第4処理と、
前記第2演算処理側第4処理で演算した前記第1単語列の個数分の前記第1単語列意味第2文側被含有尺度についての平均に対応する演算を行うことにより、前記第1単語列群意味第2文側被含有尺度を演算する第2演算処理側第5処理と、を更に行い、
前記演算手段は、
前記第1演算処理において、前記第1演算処理側第1処理乃至前記第1演算処理側第5処理を実行し、前記第1単語列に含まれる単語の個数であるnがa(aは正の整数)からb(bはaより大きな正の整数)各々である場合の前記第2単語列群意味第1文側被含有尺度を演算し、演算した前記第2単語列群意味第1文側被含有尺度についての平均に対応する演算を行うことにより、前記第2文意味第1文側被含有尺度を演算し、
前記第2演算処理において、前記第2演算処理側第1処理乃至前記第2演算処理側第5処理を実行し、前記第2単語列に含まれる単語の個数であるnがa(aは正の整数)からb(bはaより大きな正の整数)各々である場合の前記第1単語列群意味第2文側被含有尺度を演算し、演算した前記第1単語列群意味第2文側被含有尺度についての平均に対応する演算を行うことにより、前記第1文意味第2文側被含有尺度を演算し、
前記第3演算処理において、前記第1演算処理にて演算された前記第2文意味第1文側被含有尺度と、前記第2演算処理にて演算された前記第1文意味第2文側被含有尺度との平均を前記文間類似度として演算する、
演算システム。 - 第1文及び第2文の類似性の度合いである文間類似度を演算する演算プログラムであって、
コンピュータを、
前記第1文及び前記第2文を取得する取得手段と、
前記取得手段が取得した前記第1文及び前記第2文に基づいて、前記文間類似度を演算する演算手段と、として機能させ、
前記演算手段は、
前記取得手段が取得した前記第1文に含まれている複数の単語の内のn個(nは正の整数)の連続する単語からなる第1単語列と、前記取得手段が取得した前記第2文に含まれている複数の単語の内のn個(nは正の整数)の連続する単語からなる第2単語列との類似性の度合いである単語列間類似度に基づいて、前記第2文の意味が前記第1文に含まれる程度を示す第2文意味第1文側被含有尺度を演算する第1演算処理と、
前記単語列間類似度に基づいて、前記第1文の意味が前記第2文に含まれる程度を示す第1文意味第2文側被含有尺度を演算する第2演算処理と、
前記第1演算処理にて演算された前記第2文意味第1文側被含有尺度と、前記第2演算処理にて演算された前記第1文意味第2文側被含有尺度とに基づいて、前記文間類似度として演算する第3演算処理と、を行い、
前記演算手段は、
前記第1演算処理において、前記単語列間類似度に基づいて、前記第2単語列の意味が前記第1文に含まれる程度を示す第2単語列意味第1文側被含有尺度を演算し、演算した前記第2単語列意味第1文側被含有尺度に基づいて、前記第2文意味第1文側被含有尺度を演算し、
前記第2演算処理において、前記単語列間類似度に基づいて、前記第1単語列の意味が前記第2文に含まれる程度を示す第1単語列意味第2文側被含有尺度を演算し、演算した前記第1単語列意味第2文側被含有尺度に基づいて、前記第1文意味第2文側被含有尺度を演算し、
前記演算手段は、
前記第1演算処理において、前記第2単語列意味第1文側被含有尺度に基づいて、前記取得手段が取得した前記第2文に含まれている前記第2単語列の集合である第2単語列群の意味が前記第1文に含有されている程度を示す第2単語列群意味第1文側被含有尺度を演算し、演算した前記第2単語列群意味第1文側被含有尺度に基づいて、前記第2文意味第1文側被含有尺度を演算し、
前記第2演算処理において、前記第1単語列意味第2文側被含有尺度に基づいて、前記取得手段が取得した前記第1文に含まれている前記第1単語列の集合である第1単語列群の意味が前記第2文に含有されている程度を示す第1単語列群意味第2文側被含有尺度を演算し、演算した前記第1単語列群意味第2文側被含有尺度に基づいて、前記第1文意味第2文側被含有尺度を演算し、
前記単語列間類似度は、前記第1文における1個の前記第1単語列を示す分散表現の第1ベクトルと、前記第2文における1個の前記第2単語列を示す分散表現の第2ベクトルとのコサイン類似度であり、
前記演算手段は、
前記第1演算処理において、
前記コサイン類似度に基づく第1演算値であって、前記コサイン類似度に対応する数値と重みに対応する数値との積算結果である前記第1演算値を演算する第1演算処理側第1処理と、
前記第1演算処理側第1処理において、前記第1文に含まれている前記第1単語列を順次適用して、当該第1演算処理側第1処理を前記第1単語列の個数に対応する回数分繰り返し実行し、前記第1単語列の個数分の前記第1演算値を演算する第1演算処理側第2処理と、
前記第1演算処理側第2処理で演算された前記第1単語列の個数分の前記第1演算値の内の最大値を、前記第2文における1個の前記第2単語列の意味が前記第1文に含まれる程度を示す前記第2単語列意味第1文側被含有尺度とする第1演算処理側第3処理と、を行い、
前記第2演算処理において、
前記コサイン類似度に基づく第2演算値であって、前記コサイン類似度に対応する数値と重みに対応する数値との積算結果である前記第2演算値を演算する第2演算処理側第1処理と、
前記第2演算処理側第1処理において、前記第2文に含まれている前記第2単語列を順次適用して、当該第2演算処理側第1処理を前記第2単語列の個数に対応する回数分繰り返し実行し、前記第2単語列の個数分の前記第2演算値を演算する第2演算処理側第2処理と、
前記第2演算処理側第2処理で演算された前記第2単語列の個数分の前記第2演算値の内の最大値を、前記第1文における1個の前記第1単語列の意味が前記第2文に含まれる程度を示す前記第1単語列意味第2文側被含有尺度とする第2演算処理側第3処理と、を行い、
前記演算手段は、
前記第1演算処理において、
前記第2文に含まれている前記第2単語列を順次適用して、前記第1演算処理側第1処理、前記第1演算処理側第2処理、及び前記第1演算処理側第3処理を、前記第2単語列の個数に対応する回数分繰り返し実行し、前記第2単語列の個数分の前記第2単語列意味第1文側被含有尺度を演算する第1演算処理側第4処理と、
前記第1演算処理側第4処理で演算した前記第2単語列の個数分の前記第2単語列意味第1文側被含有尺度についての平均に対応する演算を行うことにより、前記第2単語列群意味第1文側被含有尺度を演算する第1演算処理側第5処理と、を更に行い、
前記第2演算処理において、
前記第1文に含まれている前記第1単語列を順次適用して、前記第2演算処理側第1処理、前記第2演算処理側第2処理、及び前記第2演算処理側第3処理を、前記第1単語列の個数に対応する回数分繰り返し実行し、前記第1単語列の個数分の前記第1単語列意味第2文側被含有尺度を演算する第2演算処理側第4処理と、
前記第2演算処理側第4処理で演算した前記第1単語列の個数分の前記第1単語列意味第2文側被含有尺度についての平均に対応する演算を行うことにより、前記第1単語列群意味第2文側被含有尺度を演算する第2演算処理側第5処理と、を更に行い、
前記演算手段は、
前記第1演算処理において、前記第1演算処理側第1処理乃至前記第1演算処理側第5処理を実行し、前記第1単語列に含まれる単語の個数であるnがa(aは正の整数)からb(bはaより大きな正の整数)各々である場合の前記第2単語列群意味第1文側被含有尺度を演算し、演算した前記第2単語列群意味第1文側被含有尺度についての平均に対応する演算を行うことにより、前記第2文意味第1文側被含有尺度を演算し、
前記第2演算処理において、前記第2演算処理側第1処理乃至前記第2演算処理側第5処理を実行し、前記第2単語列に含まれる単語の個数であるnがa(aは正の整数)からb(bはaより大きな正の整数)各々である場合の前記第1単語列群意味第2文側被含有尺度を演算し、演算した前記第1単語列群意味第2文側被含有尺度についての平均に対応する演算を行うことにより、前記第1文意味第2文側被含有尺度を演算し、
前記第3演算処理において、前記第1演算処理にて演算された前記第2文意味第1文側被含有尺度と、前記第2演算処理にて演算された前記第1文意味第2文側被含有尺度との平均を前記文間類似度として演算する、
演算プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020018552A JP6789426B1 (ja) | 2020-02-06 | 2020-02-06 | 演算システム、及び演算プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020018552A JP6789426B1 (ja) | 2020-02-06 | 2020-02-06 | 演算システム、及び演算プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6789426B1 true JP6789426B1 (ja) | 2020-11-25 |
JP2021125001A JP2021125001A (ja) | 2021-08-30 |
Family
ID=73452911
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020018552A Active JP6789426B1 (ja) | 2020-02-06 | 2020-02-06 | 演算システム、及び演算プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6789426B1 (ja) |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019020893A (ja) * | 2017-07-13 | 2019-02-07 | 国立研究開発法人情報通信研究機構 | ノン・ファクトイド型質問応答装置 |
-
2020
- 2020-02-06 JP JP2020018552A patent/JP6789426B1/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2021125001A (ja) | 2021-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Duchateau et al. | The frailty model | |
Chambers | Software for data analysis: programming with R | |
Murtagh | Correspondence analysis and data coding with Java and R | |
Liesen et al. | Krylov subspace methods: principles and analysis | |
Tsiatis | Semiparametric theory and missing data | |
JP6836294B2 (ja) | 検索用資料情報記憶装置 | |
Trevisani et al. | A portrait of JASA: the History of Statistics through analysis of keyword counts in an early scientific journal | |
Cassi et al. | How to evaluate the degree of interdisciplinarity of an institution? | |
Karabatsos | A menu-driven software package of Bayesian nonparametric (and parametric) mixed models for regression analysis and density estimation | |
US20210149937A1 (en) | Enhanced intent matching using keyword-based word mover's distance | |
US20190065443A1 (en) | Matrix generation program, matrix generation apparatus, and plagiarism detection program | |
Jones et al. | The R book | |
Chu et al. | An algorithm for structural synthesis of planar simple and multiple joint kinematic chains | |
Zhang et al. | A note on the stability of linear dynamical systems with time delay | |
Antunes et al. | Supervised learning and knowledge-based approaches applied to biomedical word sense disambiguation | |
CN111373386A (zh) | 相似度指标值计算装置、相似检索装置及相似度指标值计算用程序 | |
Radeva et al. | Web Application for Retrieval-Augmented Generation: Implementation and Testing | |
Dahlke et al. | Refinements to effect sizes for tests of categorical moderation and differential prediction | |
Rogowski et al. | Performance analysis of relaxation Runge–Kutta methods | |
CN102918522A (zh) | 用于生成统计研究信息的系统、方法以及逻辑 | |
WO2022044115A1 (ja) | 情報処理装置、情報処理方法、および、プログラム | |
JP6789426B1 (ja) | 演算システム、及び演算プログラム | |
Neuman et al. | Fast, good, and repeatable: Summations, vectorization, and reproducibility | |
Bijwaard et al. | A simple GMM estimator for the semiparametric mixed proportional hazard model | |
Wang et al. | General formulation of inverse substructuring method for multicoordinate coupled system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200206 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20200206 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20200213 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200430 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200609 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200806 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201020 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201102 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6789426 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |