JP6899973B2 - 意味関係学習装置、意味関係学習方法、及び意味関係学習プログラム - Google Patents

意味関係学習装置、意味関係学習方法、及び意味関係学習プログラム Download PDF

Info

Publication number
JP6899973B2
JP6899973B2 JP2020561087A JP2020561087A JP6899973B2 JP 6899973 B2 JP6899973 B2 JP 6899973B2 JP 2020561087 A JP2020561087 A JP 2020561087A JP 2020561087 A JP2020561087 A JP 2020561087A JP 6899973 B2 JP6899973 B2 JP 6899973B2
Authority
JP
Japan
Prior art keywords
example data
negative example
learning
data
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020561087A
Other languages
English (en)
Other versions
JPWO2020144736A1 (ja
Inventor
隼人 内出
隼人 内出
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2020144736A1 publication Critical patent/JPWO2020144736A1/ja
Application granted granted Critical
Publication of JP6899973B2 publication Critical patent/JP6899973B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、機械学習を行う意味関係学習装置、並びに、機械学習を行うために使用される意味関係学習方法及び意味関係学習プログラムに関する。
パソコン及びインターネットの普及によって、ユーザがアクセス可能な電子化データの量が増大している。このため、大規模な電子化データの中から、所望のデータを効率的に発見するための技術が求められている。自然言語処理の分野では、言い換え文(すなわち、意味的に等価な文)の検索のために、同義関係にあるテキストのペアである正例と同義関係にないテキストのペアである負例とを、教師データとして予め人手で作成し、作成された教師データを用いてテキスト間の意味関係を統計的に機械学習する学習装置が使用されている。この機械学習の結果を用いれば、入力されたテキストと同義関係にあるテキストを検索及び推定することができる。
例えば、特許文献1は、文中に含まれる述部の同義判定処理を行う装置を提案している。この装置は、互いに同じ意味を持つ述語(すなわち、互いに同義関係にあるテキストの例)のペアを正例とし、互いに異なる意味を持つ述語(すなわち、互いに同義関係にないテキストの例)のペアを負例とし、正例と負例とを教師データとし機械学習処理を行い、その結果、同義判定処理に用いられる判定用モデルを取得している。
特開2014−119988号公報
しかしながら、上記装置が行う機械学習処理で用いられる負例では、非常に近い意味を持つ言語データから構成される負例と非常に遠い意味を持つ言語データから構成される負例とが、区別されておらず、混在していると考えられる。したがって、このような負例を教師データとする機械学習処理によって、良好な意味関係の判別を可能にする判別用モデルを得ることは難しい。
本発明は、上記従来技術の課題を解決するためになされたものであり、良好な意味関係の判別を可能にする機械学習処理を行うことができる意味関係学習装置、並びに、良好な意味関係の判別を可能にする機械学習処理を行うために使用される意味関係学習方法及び意味関係学習プログラムを提供することを目的とする。
本発明の一態様による意味関係学習装置は、複数の正例データペアの各々は互いに予め決められた意味関係にある言語データから構成されており、前記複数の正例データペアを格納している正例データ記憶部から、前記複数の正例データペアを取得し、前記言語データを組み合わせることによって複数の負例データペアを作成し、前記複数の負例データペアの各々は互いに前記予め決められた意味関係にない言語データから構成される、負例データ作成部と、前記複数の負例データペアの各々を構成する前記言語データから特徴量を抽出する特徴量抽出部と、前記複数の負例データペアの各々における前記言語データの前記特徴量の間の類似度を算出する類似度算出部と、前記類似度に基づいて、前記複数の負例データペアを予め決められた複数の類似度範囲に分類することによって、又は、前記類似度に基づいて、前記複数の負例データペアを構成する前記言語データと前記複数の正例データペアを構成する前記言語データとから作成された複数の学習用負例データペアを予め決められた複数の類似度範囲に分類することによって、前記複数の類似度範囲に対応する複数の学習用負例データセットを作成し、前記複数の学習用負例データセットの各々は前記複数の負例データペアのうちの1つ以上の負例データペアを含む、学習用負例データ作成部と、前記複数の類似度範囲に基づいて予め決められた選択スケジュールに従う順序で、前記複数の学習用負例データセットのうちのいずれかの学習用負例データセットを選択する学習データセット選択部と、前記学習データセット選択部によって選択された前記学習用負例データセットと前記複数の正例データペアとを用いて機械学習処理を行う学習処理部と、を備えることを特徴とする。
本発明の一態様による意味関係学習方法は、複数の正例データペアの各々は互いに予め決められた意味関係にある言語データから構成されており、意味関係学習装置が、前記複数の正例データペアを格納している正例データ記憶部から、前記複数の正例データペアを取得し、前記言語データを組み合わせることによって複数の負例データペアを作成し、前記複数の負例データペアの各々は互いに前記予め決められた意味関係にない言語データから構成される、負例データ作成ステップと、前記意味関係学習装置が、前記複数の負例データペアの各々を構成する前記言語データから特徴量を抽出する抽出ステップと、前記意味関係学習装置が、前記複数の負例データペアの各々における前記言語データの前記特徴量の間の類似度を算出する算出ステップと、前記意味関係学習装置が、前記類似度に基づいて、前記複数の負例データペアを予め決められた複数の類似度範囲に分類することによって、又は、前記類似度に基づいて、前記複数の負例データペアを構成する前記言語データと前記複数の正例データペアを構成する前記言語データとから作成された複数の学習用負例データペアを予め決められた複数の類似度範囲に分類することによって、前記複数の類似度範囲に対応する複数の学習用負例データセットを作成し、前記複数の学習用負例データセットの各々は前記複数の負例データペアのうちの1つ以上の負例データペアを含む、学習用負例データ作成ステップと、前記意味関係学習装置が、前記複数の類似度範囲に基づいて予め決められた選択スケジュールに従う順序で、前記複数の学習用負例データセットのうちのいずれかの学習用負例データセットを選択する選択ステップと、前記意味関係学習装置が、選択された前記学習用負例データセットと前記複数の正例データペアとを用いて機械学習処理を行う学習ステップと、を有することを特徴とする。
本発明によれば、良好な意味関係の判別を可能にする機械学習処理を行うことができる。
本発明の実施の形態1に係る意味関係学習装置の構成を概略的に示す機能ブロック図である。 実施の形態1に係る意味関係学習装置のハードウェア構成の例を示す図である。 実施の形態1に係る意味関係学習装置の動作を示すフローチャートである。 実施の形態1における負例データ作成部の動作を示すフローチャートである。 実施の形態1における特徴量抽出部の動作を示すフローチャートである。 実施の形態1における類似度算出部の動作を示すフローチャートである。 実施の形態1における学習用負例データ作成部の動作を示すフローチャートである。 実施の形態1における学習データ選択部の動作を示すフローチャートである。 実施の形態1における学習処理部の動作を示すフローチャートである。 本発明の実施の形態2に係る意味関係学習装置の構成を概略的に示す機能ブロック図である。 実施の形態2に係る意味関係学習装置の動作を示すフローチャートである。 実施の形態2における負例データ作成部の動作を示すフローチャートである。 実施の形態2における特徴量抽出部の動作を示すフローチャートである。 実施の形態2における類似度算出部の動作を示すフローチャートである。 実施の形態2における学習用負例データ作成部の動作を示すフローチャートである。
以下に、本発明の実施の形態に係る意味関係学習装置、意味関係学習方法、及び意味関係学習プログラムを、図面を参照しながら説明する。なお、以下の実施の形態は、例にすぎず、本発明の範囲内で種々の変更が可能である。
実施の形態に係る意味関係学習装置は、意味関係の判別処理を行う意味関係判別部を備えた意味関係判別装置に備えることができる学習装置である。実施の形態に係る意味関係学習方法は、意味関係の判別処理で使用される意味関係判別用モデルを取得するための学習方法である。実施の形態に係る意味関係学習プログラムは、意味関係の判別処理で使用される意味関係判別用モデルを取得するためのソフトウェアプログラムである。
《1》実施の形態1.
《1−1》実施の形態1の構成.
図1は、本発明の実施の形態1に係る意味関係学習装置1の構成を概略的に示す機能ブロック図である。図1に示されるように、意味関係学習装置1は、実施の形態1に係る意味関係学習方法を実施することができる装置である。図1に示されるように、意味関係学習装置1は、負例データ作成部12と、特徴量抽出部13と、類似度算出部14と、学習用負例データ作成部15と、学習データセット選択部17と、学習処理部18とを備えている。また、意味関係学習装置1は、正例データ記憶部11と、学習用負例データ記憶部16とを備えてもよい。
正例データ記憶部11は、複数の正例データペア(以下、「正例」とも言う。)A11を格納している。複数の正例データペアの各々は、互いに予め決められた意味関係にある言語に関するデータ(以下、「言語データ」とも言う。)から構成されている。実施の形態1において、予め決められた意味関係は、同義関係である。互いに同義関係にある言語データのペアは、例えば、互いに同義関係にあるテキストのペアである。ここで、テキストは、単語及び文を含む。なお、予め決められた意味関係は、同義関係に限定されない。
負例データ作成部12は、正例データ記憶部11に格納されている複数の正例データペアA11を取得する。負例データ作成部12は、複数の正例データペアA11の各々を構成する言語データを組み合わせることによって複数の負例データペア(以下、「負例」とも言う。)A12を作成する。複数の負例データペアA12の各々は、互いに予め決められた意味関係にない言語データから構成される。実施の形態1においては、複数の負例データペアA12の各々は、互いに同義関係にない言語データから構成される。互いに同義関係にない言語データのペアは、例えば、互いに同義関係にないテキストのペアである。ここで、テキストは、単語及び文を含む。
特徴量抽出部13は、負例データ作成部12によって作成された複数の負例データペアA12の各々を構成する言語データから特徴量A13を抽出、すなわち、算出する。特徴量としては、利用する類似度と言語データの性質などに適した特徴量を利用することができる。例えば、負例データペアを構成する言語データがテキストデータである場合には、テキスト間の類似度の算出のための特徴量として、テキストの文長、テキストの文字種、テキストの形態素解析の結果、テキストの係り受け解析の結果、テキストから変換された多次元ベクトル、などのうちの1つ以上を使用することができる。テキストを多次元ベクトルに変換する方法は、公知であり、例えば、非特許文献1に記載の方法を使用することができる。
Tomas Mikolov、外3名、 "Efficient Estimation of Word Representations in Vector Space"、 ICLR(International Conference on Learning Representations) 2013
類似度算出部14は、複数の負例データペアA12の各々における特徴量A13の間の類似度を算出する。類似度算出部14は、算出された類似度を、この類似度に対応する負例データペアA12に付与して、類似度が付与された負例データペアA14を作成する。
類似度としては、言語データの性質に応じて事前に定義されたものを使用することができる。例えば、負例データペアを構成する言語データがテキストデータである場合には、テキスト間の文長の差異、テキストの編集距離(すなわち、レーベンシュタイン距離)、テキストを形態素解析して得られた単語列の重複度合い、テキストを係り受け解析した結果得られた文節単位の重複度合い、テキストを係り受け解析した結果得られた係り受け関係の重複度合い、テキストから変換された多次元ベクトルのユークリッド距離又はコサイン類似度など、のうちの1つ以上を使用することができる。
例えば、テキスト間の文長の差異が小さいほど、類似度が高い。また、テキストの編集距離が短いほど、類似度が高い。また、テキストを形態素解析して得られた単語列の重複度合いが大きいほど、類似度が高い。また、テキストを係り受け解析した結果得られた文節単位の重複度合いが大きいほど、類似度が高い。また、テキストを係り受け解析した結果得られた係り受け関係の重複度合いが大きいほど、類似度が高い。また、テキストから変換された多次元ベクトルのユークリッド距離が短いほど、類似度が高い。テキストを多次元ベクトルに変換する方法は、公知であり、例えば、非特許文献1に記載の方法を使用することができる。また、コサイン類似度は、ベクトル空間モデルにおいて、文書同士を比較する際に用いられ、その計算方法は公知である。また、事前に用意された学習装置によって出力される尤度、などの判別結果を、類似度として用いてもよい。
学習用負例データ作成部15は、類似度算出部14によって算出された類似度が付与された負例データペアA14に基づいて、複数の負例データペアA14を予め決められた複数の類似度範囲に分類することによって、複数の類似度範囲に対応する複数の学習用負例データセットA15を作成する。複数の学習用負例データセットA15の各々は、類似度が付与された複数の負例データペアA14のうちの1つ以上の負例データペアを含む。
例えば、負例データペアがテキストペアであり、類似度がベクトル化されたテキスト間のユークリッド距離である場合には、学習用負例データ作成部15は、負例データ作成部12で作成されたテキストを、類似度算出部14で算出されたユークリッド距離に基づいて分類することによって、類似度算出部14で算出されたユークリッド距離の範囲ごとに分類された学習用負例データセットA15を作成する。ここで、類似度範囲であるユークリッド距離d1の範囲は、例えば、
0.1≦d1<0.3の範囲である第1の類似度範囲、
0.3≦d1<0.5の範囲である第2の類似度範囲、及び
0.5≦d1≦0.7の範囲である第3の類似度範囲、
である。この例は、負例データペアを、類似度範囲別に、3つのデータセットに分類する場合の例である。なお、作成する学習用負例データセットの類似度範囲の広さ、類似度範囲の数は、上記の例に限定されない。
学習用負例データ記憶部16は、学習用負例データ作成部15によって作成された、複数の類似度範囲に対応する複数の学習用負例データセットA15を受け取り、複数の学習用負例データセットA16として格納する。
学習データセット選択部17は、複数の類似度範囲に基づいて予め決められた選択スケジュールに従う順序で、学習用負例データ記憶部16に格納されている複数の学習用負例データセットA16のうちの、いずれかの学習用負例データセットA17を選択する。
具体的には、学習データセット選択部17は、類似度範囲の類似度が低い学習用負例データセットから順に学習処理部18へ出力し、学習処理部18における学習処理を実行する。1回の学習処理が終了したら次に類似度が高い学習用負例データセットを学習処理部18へ出力し、学習用負例データセットの選択スケジュールが終了するまで、同様の順番で処理を繰り返す。
言い換えれば、学習データセット選択部17は、先ず、複数の類似度範囲のうちの1番低い(すなわち、最も低い)値の類似度範囲に対応する学習用負例データセットが1番目に選択されるように、次に、複数の類似度範囲のうちの2番目に低い値の類似度範囲に対応する学習用負例データセットが2番目に選択されるように、選択スケジュールを決定する。つまり、学習データセット選択部17は、nを1以上の整数としたときに、複数の類似度範囲のうちのn番目に低い値の類似度範囲に対応する学習用負例データセットがn番目に選択されるように、選択スケジュールを決定する。
このように、類似度が低い学習用負例データセットから学習を開始し、徐々に類似度が高い学習用負例データセットを学習することで、意味関係学習装置は、良い解に早く収束することができる。また、意味関係学習装置によって得られた意味関係判別用モデルの汎化性能を向上させることができる。なお、学習用負例データセットの選択スケジュールでは、任意の学習回数を設定してもよい。また、意味関係学習装置の精度が最も高くなるようにするため、学習用負例データセットの選択スケジュールの決定に、ベイズ最適化などによる最適化の結果を用いてもよい。
つまり、電子化データの意味関係判別のための学習において、類似度を考慮した負例データペアを事前に用意し、難易度の低い簡単な問題設定(例えば、類似度が低い言語データから構成される負例データペアを用いた問題)の学習を先に行い、難易度の高い問題設定(例えば、類似度が高い言語データから構成される負例データペアを用いた問題)の学習を後で行う。このようにすれば、意味関係学習装置1が良い解に早く収束するだけでなく、意味関係学習装置1を備えた意味関係判別装置の汎化性能を向上させることができる。
学習処理部18は、学習データセット選択部17によって選択された学習用負例データセットA17と正例データ記憶部11に格納されている複数の正例データペアA11とを用いて機械学習処理を行う。機械学習処理には、公知の学習アルゴリズムを用いることができる。使用可能なアルゴリズムとしては、SVM(Support Vector Machine)、ニューラルネットワーク、又は決定木、などがある。
図2は、実施の形態1に係る意味関係学習装置1のハードウェア構成の例を示す図である。意味関係学習装置1は、例えば、ソフトウェアとしてのプログラム、すなわち、実施の形態1に係る意味関係学習プログラムを格納する記憶装置としてのメモリ102と、メモリ102に格納されたプログラムを実行する情報処理部としてのプロセッサ101と備えている。意味関係学習装置1は、例えば、コンピュータである。実施の形態1に係る意味関係学習プログラムは、情報を記憶する記憶媒体から読取装置(図示せず)を介して又はインターネットなどに接続可能な通信インタフェース(図示せず)を介してメモリ102に格納される。また、意味関係学習装置1は、マウス103及びキーボード104などのようなユーザ操作部である入力装置と、画像を表示する表示装置105及び音声を出力する音声出力部(図示せず)などのような出力装置とを有してもよい。また、意味関係学習装置1は、データベースなどの各種情報を格納する補助記憶装置106を有してもよい。補助記憶装置106は、必ずしも意味関係学習装置1の内部に存在する必要は無く、通信インターフェースを介してクラウド上に存在する記憶装置であってもよい。
図1に示される負例データ作成部12、特徴量抽出部13、類似度算出部14、学習用負例データ作成部15、学習データセット選択部17、及び学習処理部18は、メモリ102に格納されているプログラムを実行するプロセッサ101によって実現されることができる。また、図1に示される正例データ記憶部11及び学習用負例データ記憶部16は、補助記憶装置106の一部であってもよい。
《1−2》実施の形態1の動作.
図3は、実施の形態1に係る意味関係学習装置1の動作を示すフローチャートである。また、図4は、実施の形態1における負例データ作成部12の動作を示すフローチャートである。まず、負例データ作成部12は、正例データ記憶部11から複数の正例データペアA11を取得することで、複数の正例データペアA11の各々を構成する言語データを取得する(ステップS11、ステップS111)。
次に、負例データ作成部12は、正例データ記憶部11から取得された言語データを組み合わせることによって複数の負例データペアA12を作成する(ステップS12、ステップS112)。複数の負例データペアA12の各々は、互いに同義関係にない言語データから構成される。つまり、負例データ作成部12は、正例データペアA11以外の言語データの組み合わせから複数の負例データペアA12を作成する。負例データ作成部12は、正例データペアA11以外の言語データの全ての組み合わせから複数の負例データペアA12を作成することが望ましい。負例データ作成部12は、負例データペアA12を特徴量抽出部13及び類似度算出部14へ出力する(ステップS113)。
図5は、実施の形態1における特徴量抽出部13の動作を示すフローチャートである。特徴量抽出部13は、複数の負例データペアA12を取得し、複数の負例データペアA12の各々を構成する言語データから特徴量A13を抽出、すなわち、算出する(ステップS13、ステップS131,S132)。特徴量抽出部13は、特徴量A13を類似度算出部14へ出力する(ステップS133)。
図6は、実施の形態1における類似度算出部14の動作を示すフローチャートである。類似度算出部14は、複数の負例データペアA12及び複数の特徴量A13を取得し、複数の負例データペアA12の各々における特徴量A13の間の類似度を算出する(ステップS14、ステップS141,S142)。類似度算出部14は、類似度を負例データペアに付与し、類似度が付与された負例データペアA14を学習用負例データ作成部15へ出力する(ステップS143)。
図7は、実施の形態1における学習用負例データ作成部15の動作を示すフローチャートである。学習用負例データ作成部15は、類似度が付与された複数の負例データペアA14を取得し、複数の負例データペアA14を予め決められた複数の類似度範囲に分類することによって、複数の類似度範囲に対応する複数の学習用負例データセットA15を作成する(ステップS15、ステップS151,S152)。つまり、複数の学習用負例データセットA15の各々は、複数の負例データペアA12のうちの1つ以上の負例データペアを含むデータのグループである。複数の類似度範囲に対応する複数の学習用負例データセットA15は、学習用負例データ記憶部16に格納される(ステップS153)。
図8は、実施の形態1における学習データセット選択部17の動作を示すフローチャートである。学習データセット選択部17は、複数の類似度範囲に基づいて予め決められた選択スケジュールに従う順序で、学習用負例データ記憶部16に格納されている複数の学習用負例データセットA16のうちの、いずれかの学習用負例データセットA17を選択する(ステップS16、ステップS161)。選択された学習用負例データセットA17は、学習処理部18へ出力される(ステップS162)。
図9は、実施の形態1における学習処理部18の動作を示すフローチャートである。学習処理部18は、選択された学習用負例データセットA17と正例データ記憶部11に格納されている複数の正例データペアA11とを用いて機械学習処理を行う(ステップS17、ステップS171)。図3におけるステップS16及びS17の処理は、学習用負例データセットの選択スケジュールが終了するまで繰り返される(ステップS18)。
《1−3》実施の形態1の効果.
以上に説明したように、実施の形態1に係る意味関係学習装置1、意味関係学習方法、又は意味関係学習プログラムを用いれば、良好な意味関係の判別を可能にする機械学習処理を行うことができる。
具体的に言えば、類似度を考慮した負例データペアA14を事前に用意し、類似度が低い言語データから構成される負例データペアを用いる学習を最初に行い、次に、類似度が次に低い言語データから構成される負例データペアを用いる学習を行う。つまり、徐々に難易度が高い問題設定(すなわち、類似度が高い言語データから構成される負例データペアを用いた問題設定)へ学習を進める。このようにすれば、良い解に早く収束するだけでなく、汎化性能を向上させることができる。
《2》実施の形態2.
《2−1》実施の形態2の構成.
図10は、本発明の実施の形態2に係る意味関係学習装置2の構成を概略的に示す機能ブロック図である。意味関係学習装置2は、実施の形態2に係る意味関係学習方法を実施することができる装置である。図10に示されるように、意味関係学習装置2は、負例データ作成部22と、特徴量抽出部23と、類似度算出部24と、学習用負例データ作成部25と、学習データセット選択部27と、学習処理部28とを備えている。また、意味関係学習装置2は、正例データ記憶部21と、学習用負例データ記憶部26とを備えてもよい。以下に、実施の形態2を、実施の形態1と異なる箇所を中心に、説明する。
正例データ記憶部21は、複数の正例データペアA21を格納している。複数の正例データペアの各々は、互いに予め決められた意味関係にある言語データから構成されている。実施の形態2において、予め決められた意味関係は、質問文と回答文の関係である。互いに予め決められた意味関係にある言語データは、例えば、質問文データと回答文データである。なお、予め決められた意味関係は、質問文と回答文の関係に限定されない。
負例データ作成部22は、正例データ記憶部21に格納されている複数の正例データペアA21を取得する。負例データ作成部22は、複数の正例データペアA21の各々を構成する言語データを組み合わせることによって複数の負例データペアA22を作成する。複数の負例データペアA22の各々は、互いに予め決められた意味関係にない言語データから構成される。実施の形態2においては、複数の負例データペアA22の各々は、互いに質問文と回答文の関係にない言語データから構成される。負例データペアA22は、例えば、質問文と質問文とから構成されるデータペア、及び回答文と回答文とから構成されるデータペアである。
特徴量抽出部23は、負例データ作成部22によって作成された複数の負例データペアA22の各々を構成する言語データから特徴量A23を抽出、すなわち、算出する。実施の形態1の場合と同様に、特徴量としては、利用する類似度と言語データの性質などに適した特徴量を利用することができる。
類似度算出部24は、複数の負例データペアA22の各々における特徴量A23の間の類似度を算出する。類似度算出部24は、算出した類似度を、この類似度に対応する負例データペアA22に付与して、類似度が付与された負例データペアA24を作成する。類似度としては、実施の形態1の場合と同様のものを使用することができる。
学習用負例データ作成部25は、類似度算出部24で作成された類似度が付与された負例データペアA24に含まれる質問文データで、正例データ記憶部21に格納されている正例データペアA21を構成する質問文データを置き換えることによって、又は、類似度算出部24で作成された類似度が付与された負例データペアA24に含まれる回答文データで、正例データ記憶部21に格納されている正例データペアA21を構成する回答文データを置き換えることによって、複数の学習用負例データペアを作成する。学習用負例データ作成部25は、類似度算出部24によって算出された類似度に基づいて、複数の学習用負例データペアを構成する言語データを予め決められた複数の類似度範囲に分類することによって、複数の類似度範囲に対応する複数の学習用負例データセットA25を作成する。複数の学習用負例データセットA25の各々は、類似度が付与された複数の学習用負例データペアA24のうちの1つ以上の負例データペアを含む。
例えば、学習用負例データ作成部25が、「質問文データD10」と「回答文データD20」とから構成される正例データペアから、「質問文データD10」と「質問文データD11」とから構成される負例データペアを用いて、「質問文データD11」と「回答文データD20」とから構成される学習用負例データペアを作成する場合を説明する。この場合、学習用負例データ作成部25は、正例データペアの「質問文データD10」を、負例データペアの「質問文データD11」で置き換えることによって、「質問文データD11」と「回答文データD20」とから構成される学習用負例データペアを作成する。このとき、作成された学習用負例データペアには、「質問文データD10」と「質問文データD11」とから構成される負例データペアに付与されている類似度が付与される。
また、例えば、学習用負例データ作成部25が、「質問文データD10」と「回答文データD20」とから構成される正例データペアから、「回答文データD20」と「回答文データD21」とから構成される負例データペアを用いて、「質問文データD10」と「回答文データD21」とから構成される学習用負例データペアを作成する場合を説明する。この場合、学習用負例データ作成部25は、正例データペアの「回答文データD20」を、負例データペアの「回答文データD21」で置き換えることによって、「質問文データD10」と「回答文データD21」とから構成される学習用負例データペアを作成する。このとき、作成された学習用負例データペアには、「回答文データD20」と「回答文データD21」とから構成される負例データペアに付与されている類似度が付与される。
例えば、負例データ作成部22で作成された負例データペアを構成する「質問文A」と「質問文B」との間の類似度について説明する。類似度算出部24は、「質問文A」のテキストデータと「質問文B」のテキストデータとを、それぞれ多次元ベクトルに変換し、多次元ベクトルに基づいてテキスト間のユークリッド距離d2を算出し、この算出で得られたユークリッド距離d2を類似度とする。このように処理することで、類似度が付与された、「質問文」と「回答文」から構成される学習用負例データペアが作成される。
学習用負例データ作成部25は、算出されたユークリッド距離d2に基づいて、「質問文」と「回答文」から構成される学習用負例データペアを、ユークリッド距離d2の範囲ごとに分類された学習用負例データセットA25を作成する。ここで、類似度範囲であるユークリッド距離d2の範囲は、例えば、
0.1≦d2<0.3の範囲である第1の類似度範囲、
0.3≦d2<0.5の範囲である第2の類似度範囲、及び
0.5≦d2≦0.7の範囲である第3の類似度範囲、
である。この例は、学習用負例データペアを、類似度範囲別に、3つのデータセットに分類する場合の例である。なお、作成する学習用負例データセットの類似度範囲の広さ、類似度範囲の数は、上記の例に限定されない。
学習用負例データ記憶部26は、学習用負例データ作成部25によって作成された、複数の類似度範囲に対応する複数の学習用負例データセットA25を受け取り、複数の学習用負例データセットA26として格納する。
学習データセット選択部27は、複数の類似度範囲に基づいて予め決められた選択スケジュールに従う順序で、学習用負例データ記憶部26に格納されている複数の学習用負例データセットA26のうちの、いずれかの学習用負例データセットA27を選択する。
具体的には、学習データセット選択部27は、類似度範囲の類似度が低い学習用負例データセットから順に学習処理部28へ出力し、学習処理部28における学習処理を実行する。1回の学習処理が終了したら次に類似度が高い学習用負例データセットを学習処理部28へ出力し、学習用負例データセットの選択スケジュールが終了するまで、同様の順番で処理を繰り返す。
言い換えれば、学習データセット選択部27は、先ず、複数の類似度範囲のうちの1番低い(すなわち、最も低い)値の類似度範囲に対応する学習用負例データセットが1番目に選択されるように、次に、複数の類似度範囲のうちの2番目に低い値の類似度範囲に対応する学習用負例データセットが2番目に選択されるように、選択スケジュールを決定する。つまり、学習データセット選択部17は、nを1以上の整数としたときに、複数の類似度範囲のうちのn番目に低い値の類似度範囲に対応する学習用負例データセットがn番目に選択されるように、選択スケジュールを決定する。
このように、類似度が低い学習用負例データセットから学習を開始し、徐々に類似度が高い学習用負例データセットを学習することで、意味関係学習装置2は、良い解に早く収束することができる。また、意味関係学習装置2によって得られた意味関係判別用モデルの汎化性能を向上させることができる。なお、学習用負例データセットの選択スケジュールでは、任意の学習回数を設定してもよい。また、意味関係学習装置2の精度が最も高くなるようにするため、学習用負例データセットの選択スケジュールの決定に、ベイズ最適化などによる最適化の結果を用いてもよい。
つまり、電子化データの意味関係判別のための学習において、類似度を考慮した学習用負例データペアを事前に用意し、難易度の低い簡単な問題設定(例えば、類似度が低い言語データから構成される学習用負例データペアを用いた問題)の学習を先に行い、難易度の高い問題設定(例えば、類似度が高い言語データから構成される学習用負例データペアを用いた問題)の学習を後で行う。このようにすれば、意味関係学習装置2が良い解に早く収束するだけでなく、意味関係学習装置2を備えた意味関係判別装置の汎化性能を向上させることができる。
学習処理部28は、学習データセット選択部27によって選択された学習用負例データセットA27と正例データ記憶部21に格納されている複数の正例データペアA21とを用いて機械学習処理を行う。学習処理部28の機能は、実施の形態1における学習処理部18の機能と同様である。
また、実施の形態2に係る意味関係学習装置2のハードウェア構成は、図2に示されるものと同様である。
《2−2》実施の形態2の動作.
図11は、実施の形態2に係る意味関係学習装置2の動作を示すフローチャートである。また、図12は、実施の形態2における負例データ作成部22の動作を示すフローチャートである。まず、負例データ作成部22は、正例データ記憶部21から複数の正例データペアA21を取得することで、複数の正例データペアA21の各々を構成する言語データである質問文データと回答文データとを取得する(ステップS21、ステップS211)。
次に、負例データ作成部22は、正例データ記憶部21から取得された質問文データ同士を組み合わせることによって及び回答文同士を組み合わせることによって、複数の負例データペアA22を作成する(ステップS22、ステップS212,S213)。複数の負例データペアA22の各々は、予め決められた意味関係にない言語データのペアから構成される。つまり、負例データ作成部22は、正例データペアA21以外の言語データの組み合わせから複数の負例データペアA22を作成する。負例データ作成部22は、負例データペアA22を特徴量抽出部23及び類似度算出部24へ出力する(ステップS214)。
図13は、実施の形態2における特徴量抽出部23の動作を示すフローチャートである。特徴量抽出部23は、複数の負例データペアA22を取得し、複数の負例データペアA22の各々を構成する言語データから特徴量A23を抽出、すなわち、算出する(ステップS23、ステップS231,S232)。特徴量抽出部23は、特徴量A23を類似度算出部14へ出力する(ステップS233)。
図14は、実施の形態2における類似度算出部24の動作を示すフローチャートである。類似度算出部24は、複数の負例データペアA22及び複数の特徴量A23を取得し、複数の負例データペアA22の各々における特徴量A23の間の類似度を算出する(ステップS24、ステップS241,S242)。類似度算出部14は、類似度を負例データペアに付与し、類似度が付与された負例データペアA24を学習用負例データ作成部25へ出力する(ステップS24、ステップS242,S243)。
図15は、実施の形態2における学習用負例データ作成部25の動作を示すフローチャートである。学習用負例データ作成部25は、類似度に基づいて、複数の負例データペアA24を構成する言語データと複数の正例データペアA11を構成する言語データとから作成された複数の学習用負例データペアを予め決められた複数の類似度範囲に分類することによって、複数の学習用負例データセットA25を作成する(ステップS15、ステップS151,S152)。つまり、複数の学習用負例データセットA15の各々は、複数の負例データペアA12のうちの1つ以上の負例データペアを含むデータのグループである。複数の類似度範囲に対応する複数の学習用負例データセットA15は、学習用負例データ記憶部16に格納される(ステップS153)。
学習データセット選択部27及び学習処理部28の動作は、実施の形態1における学習データセット選択部17及び学習処理部18と同様である。
《2−3》実施の形態2の効果.
以上に説明したように、実施の形態2に係る意味関係学習装置2、意味関係学習方法、又は意味関係学習プログラムを用いれば、良好な意味関係の判別を可能にする機械学習処理を行うことができる。
具体的に言えば、類似度を考慮した負例データペアA24を事前に用意し、類似度が低い言語データから構成される学習用負例データペアの学習用負例データペアセットを用いる学習を最初に行い、次に、類似度が次に低い言語データから構成される学習用負例データペアの学習用負例データペアセットを用いる学習を行う。つまり、徐々に難易度が高い問題設定(すなわち、類似度が高い言語データから構成される負例データペアの学習用負例データペアセットを用いた問題設定)へ学習を進める。このようにすれば、良い解に早く収束するだけでなく、汎化性能を向上させることができる。
1,2 意味関係学習装置、 11,21 正例データ記憶部、 12,22 負例データ作成部、 13,23 特徴量抽出部、 14,24 類似度算出部、 15,25 学習用負例データ作成部、 16,26 学習用負例データ記憶部、 17,27 学習データセット選択部、 18,28 学習処理部。

Claims (11)

  1. 複数の正例データペアの各々は互いに予め決められた意味関係にある言語データから構成されており、前記複数の正例データペアを格納している正例データ記憶部から、前記複数の正例データペアを取得し、前記言語データを組み合わせることによって複数の負例データペアを作成し、前記複数の負例データペアの各々は互いに前記予め決められた意味関係にない言語データから構成される、負例データ作成部と、
    前記複数の負例データペアの各々を構成する前記言語データから特徴量を抽出する特徴量抽出部と、
    前記複数の負例データペアの各々における前記言語データの前記特徴量の間の類似度を算出する類似度算出部と、
    前記類似度に基づいて、前記複数の負例データペアを予め決められた複数の類似度範囲に分類することによって、又は、前記類似度に基づいて、前記複数の負例データペアを構成する前記言語データと前記複数の正例データペアを構成する前記言語データとから作成された複数の学習用負例データペアを予め決められた複数の類似度範囲に分類することによって、前記複数の類似度範囲に対応する複数の学習用負例データセットを作成し、前記複数の学習用負例データセットの各々は前記複数の負例データペアのうちの1つ以上の負例データペアを含む、学習用負例データ作成部と、
    前記複数の類似度範囲に基づいて予め決められた選択スケジュールに従う順序で、前記複数の学習用負例データセットのうちのいずれかの学習用負例データセットを選択する学習データセット選択部と、
    前記学習データセット選択部によって選択された前記学習用負例データセットと前記複数の正例データペアとを用いて機械学習処理を行う学習処理部と、
    を備えることを特徴とする意味関係学習装置。
  2. 前記予め決められた意味関係にある前記言語データは、互いに同義関係にある言語データであり、
    前記予め決められた意味関係にない前記言語データは、互いに同義関係にない言語データであり、
    前記学習用負例データ作成部は、前記類似度に基づいて、前記複数の負例データペアを予め決められた複数の類似度範囲に分類することによって、前記複数の学習用負例データセットを作成する
    ことを特徴とする請求項1に記載の意味関係学習装置。
  3. 前記学習データセット選択部は、
    nを1以上の整数としたときに、
    前記複数の類似度範囲のうちのn番目に低い値の類似度範囲に対応する学習用負例データセットがn番目に選択されるように、前記選択スケジュールを決定する
    ことを特徴とする請求項2に記載の意味関係学習装置。
  4. 前記予め決められた意味関係にある前記言語データは、質問文を示す言語データと回答文を示す言語データであり、
    前記予め決められた意味関係にない前記言語データは、質問文を示す第1の言語データと質問文を示す第2の言語データ、又は、回答文を示す第3の言語データと回答文を示す第4の言語データであり、
    前記学習用負例データ作成部は、前記類似度に基づいて、前記複数の負例データペアと前記複数の正例データペアとから作成された複数の学習用負例データペアを予め決められた複数の類似度範囲に分類することによって、前記複数の学習用負例データセットを作成する
    ことを特徴とする請求項1に記載の意味関係学習装置。
  5. 前記予め決められた意味関係にある前記言語データは、質問文を示す言語データと回答文を示す言語データであり、
    前記予め決められた意味関係にない前記言語データは、質問文を示す第1の言語データと質問文を示す第2の言語データ、又は、回答文を示す第3の言語データと回答文を示す第4の言語データであり、
    前記学習用負例データ作成部は、前記複数の正例データペアの各々の質問文データを、前記複数の負例データペアのうちのいずれかの負例データペアの前記第1の言語データ若しくは前記第2の言語データで置き換えることによって、又は、前記複数の正例データペアの各々の回答文データを、前記複数の負例データペアのうちのいずれかの負例データペアの前記第3の言語データ若しくは前記第4の言語データで置き換えることによって、作成された複数の学習用負例データペアを予め決められた複数の類似度範囲に分類することによって、前記複数の学習用負例データセットを作成する
    ことを特徴とする請求項1に記載の意味関係学習装置。
  6. 前記学習データセット選択部は、
    nを1以上の整数としたときに、
    前記複数の類似度範囲のうちのn番目に低い値の類似度範囲に対応する学習用負例データセットがn番目に選択されるように、前記選択スケジュールを決定する
    ことを特徴とする請求項4又は5に記載の意味関係学習装置。
  7. 前記複数の正例データペアを格納している前記正例データ記憶部をさらに備えたことを特徴とする請求項1から6のいずれか1項に記載の意味関係学習装置。
  8. 前記学習用負例データ作成部によって作成された前記複数の学習用負例データセットを格納する学習用負例データ記憶部をさらに備えたことを特徴とする請求項1から7のいずれか1項に記載の意味関係学習装置。
  9. 前記学習処理部によって行われた前記機械学習処理の結果を記憶する記憶部をさらに備えたことを特徴とする請求項1から8のいずれか1項に記載の意味関係学習装置。
  10. 複数の正例データペアの各々は互いに予め決められた意味関係にある言語データから構成されており、意味関係学習装置が、前記複数の正例データペアを格納している正例データ記憶部から、前記複数の正例データペアを取得し、前記言語データを組み合わせることによって複数の負例データペアを作成し、前記複数の負例データペアの各々は互いに前記予め決められた意味関係にない言語データから構成される、負例データ作成ステップと、
    前記意味関係学習装置が、前記複数の負例データペアの各々を構成する前記言語データから特徴量を抽出する抽出ステップと、
    前記意味関係学習装置が、前記複数の負例データペアの各々における前記言語データの前記特徴量の間の類似度を算出する算出ステップと、
    前記意味関係学習装置が、前記類似度に基づいて、前記複数の負例データペアを予め決められた複数の類似度範囲に分類することによって、又は、前記類似度に基づいて、前記複数の負例データペアを構成する前記言語データと前記複数の正例データペアを構成する前記言語データとから作成された複数の学習用負例データペアを予め決められた複数の類似度範囲に分類することによって、前記複数の類似度範囲に対応する複数の学習用負例データセットを作成し、前記複数の学習用負例データセットの各々は前記複数の負例データペアのうちの1つ以上の負例データペアを含む、学習用負例データ作成ステップと、
    前記意味関係学習装置が、前記複数の類似度範囲に基づいて予め決められた選択スケジュールに従う順序で、前記複数の学習用負例データセットのうちのいずれかの学習用負例データセットを選択する選択ステップと、
    前記意味関係学習装置が、選択された前記学習用負例データセットと前記複数の正例データペアとを用いて機械学習処理を行う学習ステップと、
    を有することを特徴とする意味関係学習方法。
  11. 複数の正例データペアの各々は互いに予め決められた意味関係にある言語データから構成されており、前記複数の正例データペアを格納している正例データ記憶部から、前記複数の正例データペアを取得し、前記言語データを組み合わせることによって複数の負例データペアを作成し、前記複数の負例データペアの各々は互いに前記予め決められた意味関係にない言語データから構成される、負例データ作成処理と、
    前記複数の負例データペアの各々を構成する前記言語データから特徴量を抽出する抽出処理と、
    前記複数の負例データペアの各々における前記言語データの前記特徴量の間の類似度を算出する算出処理と、
    前記類似度に基づいて、前記複数の負例データペアを予め決められた複数の類似度範囲に分類することによって、又は、前記類似度に基づいて、前記複数の負例データペアを構成する前記言語データと前記複数の正例データペアを構成する前記言語データとから作成された複数の学習用負例データペアを予め決められた複数の類似度範囲に分類することによって、前記複数の類似度範囲に対応する複数の学習用負例データセットを作成し、前記複数の学習用負例データセットの各々は前記複数の負例データペアのうちの1つ以上の負例データペアを含む、学習用負例データ作成処理と、
    前記複数の類似度範囲に基づいて予め決められた選択スケジュールに従う順序で、前記複数の学習用負例データセットのうちのいずれかの学習用負例データセットを選択する選択処理と、
    選択された前記学習用負例データセットと前記複数の正例データペアとを用いて機械学習処理を行う学習処理と、
    をコンピュータに実行させることを特徴とする意味関係学習プログラム。
JP2020561087A 2019-01-08 2019-01-08 意味関係学習装置、意味関係学習方法、及び意味関係学習プログラム Active JP6899973B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/000173 WO2020144736A1 (ja) 2019-01-08 2019-01-08 意味関係学習装置、意味関係学習方法、及び意味関係学習プログラム

Publications (2)

Publication Number Publication Date
JPWO2020144736A1 JPWO2020144736A1 (ja) 2021-02-18
JP6899973B2 true JP6899973B2 (ja) 2021-07-07

Family

ID=71521530

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020561087A Active JP6899973B2 (ja) 2019-01-08 2019-01-08 意味関係学習装置、意味関係学習方法、及び意味関係学習プログラム

Country Status (6)

Country Link
US (1) US20210312333A1 (ja)
JP (1) JP6899973B2 (ja)
KR (1) KR102400689B1 (ja)
CN (1) CN113302601A (ja)
DE (1) DE112019006005T5 (ja)
WO (1) WO2020144736A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112256849B (zh) * 2020-10-20 2024-02-13 深圳前海微众银行股份有限公司 模型训练方法、文本检测方法、装置、设备和存储介质
JP7190479B2 (ja) * 2020-12-28 2022-12-15 楽天グループ株式会社 学習装置、機械学習モデル及び学習方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4838272B2 (ja) * 2008-01-30 2011-12-14 日本電信電話株式会社 映像インデキシング装置,映像インデキシング方法,映像インデキシングプログラムおよびその記録媒体
WO2009123288A1 (ja) * 2008-04-03 2009-10-08 日本電気株式会社 単語分類システム、方法およびプログラム
JP5379813B2 (ja) 2011-01-07 2013-12-25 日本電信電話株式会社 データ抽出装置、データ抽出方法、及びプログラム
JP5682448B2 (ja) * 2011-05-20 2015-03-11 日本電気株式会社 因果単語対抽出装置、因果単語対抽出方法および因果単語対抽出用プログラム
JP5825676B2 (ja) * 2012-02-23 2015-12-02 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答システム及びコンピュータプログラム
JP5431532B2 (ja) 2012-06-08 2014-03-05 日本電信電話株式会社 質問応答装置、モデル学習装置、方法、及びプログラム
JP5916016B2 (ja) 2012-12-17 2016-05-11 日本電信電話株式会社 同義判定装置、同義学習装置、及びプログラム
EP2953062A4 (en) * 2013-02-01 2017-05-17 Fujitsu Limited Learning method, image processing device and learning program
JP5976037B2 (ja) 2014-05-26 2016-08-23 日本電信電話株式会社 モデル学習装置、ランキング装置、方法、及びプログラム
JP2017010249A (ja) * 2015-06-22 2017-01-12 日本電信電話株式会社 パラメタ学習装置、文類似度算出装置、方法、及びプログラム
JP6618735B2 (ja) * 2015-08-31 2019-12-11 国立研究開発法人情報通信研究機構 質問応答システムの訓練装置及びそのためのコンピュータプログラム
JP6558863B2 (ja) * 2016-08-09 2019-08-14 日本電信電話株式会社 モデル作成装置、推定装置、方法、及びプログラム
JP6440035B2 (ja) * 2016-08-26 2018-12-19 井関農機株式会社 コンバイン
CN108153853B (zh) * 2017-12-22 2022-02-01 齐鲁工业大学 基于Wikipedia链接结构的中文概念向量生成方法和装置

Also Published As

Publication number Publication date
KR20210088725A (ko) 2021-07-14
KR102400689B1 (ko) 2022-05-20
CN113302601A (zh) 2021-08-24
WO2020144736A1 (ja) 2020-07-16
US20210312333A1 (en) 2021-10-07
JPWO2020144736A1 (ja) 2021-02-18
DE112019006005T5 (de) 2021-09-02

Similar Documents

Publication Publication Date Title
US10606946B2 (en) Learning word embedding using morphological knowledge
Alami et al. Unsupervised neural networks for automatic Arabic text summarization using document clustering and topic modeling
Govindarajan Sentiment analysis of restaurant reviews using hybrid classification method
JP6848091B2 (ja) 情報処理装置、情報処理方法、及びプログラム
US11599749B1 (en) Method of and system for explainable knowledge-based visual question answering
CN115309910B (zh) 语篇要素和要素关系联合抽取方法、知识图谱构建方法
JP6899973B2 (ja) 意味関係学習装置、意味関係学習方法、及び意味関係学習プログラム
CN113821527A (zh) 哈希码的生成方法、装置、计算机设备及存储介质
Zhuang et al. Bag-of-discriminative-words (bodw) representation via topic modeling
AbdElminaam et al. DeepCorrect: Building an efficient framework for auto correction for subjective questions using GRU_LSTM deep learning
Jiang et al. Moocon: a framework for semi-supervised concept extraction from Mooc content
CN117435685A (zh) 文档检索方法、装置、计算机设备、存储介质和产品
US20240037335A1 (en) Methods, systems, and media for bi-modal generation of natural languages and neural architectures
US11880664B2 (en) Identifying and transforming text difficult to understand by user
WO2018066083A1 (ja) 学習プログラム、情報処理装置および学習方法
KR20070118154A (ko) 정보 처리 장치 및 방법, 및 프로그램 기록 매체
CN114662488A (zh) 词向量生成方法和设备、计算设备及计算机可读存储介质
Zhang et al. Open-domain document-based automatic QA models based on CNN and attention mechanism
JP4925293B2 (ja) 確信度付与装置及び方法及びプログラム
Chantamuang et al. Sentence-Level sentiment analysis for student feedback relevant to teaching process assessment
Mančev et al. A primal sub-gradient method for structured classification with the averaged sum loss
Suominen et al. Critical points in assessing learning performance via cross-validation
Nair et al. Study of machine learning techniques for sentiment analysis
Wandabwa et al. Document level semantic comprehension of noisy text streams via convolutional neural networks
JP2012164220A (ja) トピックモデリング装置、トピックモデリング方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201029

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20201029

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20210114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210326

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210518

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210615

R150 Certificate of patent or registration of utility model

Ref document number: 6899973

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250