JP7147439B2 - 言語処理方法、言語処理プログラム及び言語処理装置 - Google Patents

言語処理方法、言語処理プログラム及び言語処理装置 Download PDF

Info

Publication number
JP7147439B2
JP7147439B2 JP2018186005A JP2018186005A JP7147439B2 JP 7147439 B2 JP7147439 B2 JP 7147439B2 JP 2018186005 A JP2018186005 A JP 2018186005A JP 2018186005 A JP2018186005 A JP 2018186005A JP 7147439 B2 JP7147439 B2 JP 7147439B2
Authority
JP
Japan
Prior art keywords
word
degree
correspondence
text data
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018186005A
Other languages
English (en)
Other versions
JP2020057105A (ja
Inventor
秀夫 伊東
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2018186005A priority Critical patent/JP7147439B2/ja
Priority to PCT/JP2019/035124 priority patent/WO2020066545A1/en
Priority to US17/262,071 priority patent/US11928431B2/en
Publication of JP2020057105A publication Critical patent/JP2020057105A/ja
Application granted granted Critical
Publication of JP7147439B2 publication Critical patent/JP7147439B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、言語処理方法、言語処理プログラム及び言語処理装置に関する。
従来では、2つのテキストデータの内容が合致しているか否かを判定する場合に、この判定を行う人物は、両テキストデータに含まれる単語間の対応関係を把握する作業を行うことになる。例えば、2つのテキストデータが、模範解答を示すテキストデータと答案を示すテキストデータであった場合には、採点を行う教師は、2つのテキストデータに含まれる単語同士の対応関係を把握した上で、答案の内容が模範解答の内容と合致するか否かを判定することになる。
しかし、この作業は、各テキストデータに含まれる単語の数が多いほど負担が大きくなる。そこで、従来では、Gale-Shapleyアルゴリズムを用いて、単語同士の対応付けを自動的に行うことが考えられている。
しかしながら、上述したアルゴリズムは、予め、単語同士の対応のし易さの度合いが決められており、決められた度合いに基づき、単語同士を対応させるものである。このため、2つのテキストデータのそれぞれに含まれる単語同士の対応付けを行う際に、従来のアルゴリズムを用いた場合、文脈や文脈における単語の使われ方等が考慮されず、適切な対応付けを行うことが困難な場合がある。
本発明は、上記事情に鑑みて成されたものであり、適切な単語同士の対応付けを行うことを目的としている。
開示の技術は、コンピュータによる言語処理方法であって、前記コンピュータが、第一のテキストデータに含まれる第一の単語群と、第二のテキストデータに含まれる第二の単語群と、で取り得る全ての単語の組み合わせについて、単語同士の対応付きやすさの度合いを示す値を算出し、前記対応付きやすさの度合いを示す値に基づき、第一の単語と第二の単語との対応付けを行い、前記対応付けの結果と、前記単語同士の対応付きやすさの度合いを示す値と、を用いて、前記第一の単語を含む第一のテキストデータの単語群と前記第二の単語を含む第二のテキストデータの単語群とについて、単語群同士の対応付きやすさの度合いを示す値を算出し、前記単語群同士の対応付きやすさの度合いを示す値を用いて、前記単語同士の対応付きやすさの度合いを示す値を更新する。
適切な単語同士の対応付けを行うことができる。
言語処理装置の動作の概略を説明する図である。 言語処理装置のハードウェア構成の一例を示す図である。 対応付け処理部の機能を説明する図である。 言語処理装置の動作を説明する第一のフローチャートである。 言語処理装置の動作を説明する第二のフローチャートである。 テキストデータの一例を示す図である。 単語対応度情報の一例を示す図である。 対応付け情報の一例を示す図である。 単語対応度情報の更新を説明する第一の図である。 単語対応度情報の更新を説明する第二の図である。 更新された単語対応度情報の一例を示す図である。 対応付け結果情報を用いた表示例を示す図である。 言語処理装置を含むシステムのシステム構成の一例を示す図である。
以下に図面を参照して、実施形態について説明する。図1は、言語処理装置の動作の概略を説明する図である。
本実施形態の言語処理装置100は、単語ベクトルデータベース110、対応付け処理部120、出力部130を有する。
本実施形態の単語ベクトルデータベース110は、単語毎の出現頻度を表現するものであれば良く、単語毎に予め求められて、単語ベクトルデータベース110に格納されている。
対応付け処理部120は、テキストデータ10と、テキストデータ20の入力を受け付けると、単語ベクトルデータベース110を参照して、テキストデータ10に含まれる単語と、テキストデータ20に含まれる単語との対応付けを行い、出力部130により対応付け結果情報30を出力する。
このとき、本実施形態の対応付け処理部120は、テキストデータ10に含まれる単語と、テキストデータ20に含まれる単語と、の対応付きやすさの度合い(対応のしやすさの度合い)を示す値を、それぞれの単語が含まれる文脈同士の対応付きやすさに応じた値(文脈同士の対応付きやすさの度合いを示す値)とする。
以下の説明では、単語同士の対応付きやすさの度合いを示す値を単語対応度と呼び、文脈同士の対応付きやすさの値を文脈対応度と呼ぶ。尚、対応付きやすさは、単語の一致、品詞、混成(合成)語等を考慮して決められても良い。
具体的には、本実施形態の言語処理装置100は、単語ベクトルデータベース110を参照して、テキストデータ10に含まれる単語と、テキストデータ20に含まれる単語との単語対応度を求める。そして、次に言語処理装置100は、テキストデータ10における単語が含まれる文脈と、テキストデータ20において単語が含まれる文脈との文脈対応度を求め、この文脈対応度に基づき、単語対応度を更新する。
本実施形態の言語処理装置100は、更新した単語対応度を用いてテキストデータ10に含まれる単語と、テキストデータ20に含まれる単語と対応付けた結果を、対応付け結果情報30として出力する。
このように、本実施形態では、単語が含まれる文脈同士の文脈対応度を用いて、単語同士の対応付けを行うため、適切に単語同士の対応付けを行うことができる。
尚、図1の例では、単語ベクトルデータベース110が言語処理装置100に設けられるものとしたが、これに限定されない。単語ベクトルデータベース110は、言語処理装置100の外部に設けられていても良い。また、単語ベクトルデータベース110に、例えば、テキストデータ10とテキストデータ20が示す内容が含まれる分野の単語の単語ベクトルが格納されていても良い。
尚、本実施形態のテキストデータ10、テキストデータ20は、複数の単語を含む文脈(ユニット)を示すテキストデータであれば良い。具体的には、例えば、テキストデータ10、20のそれぞれは、例えば、1つの文であっても良いし、複数の文の集合であっても良い。
また、テキストデータ10、20のそれぞれは、例えば、単なる文字列群であっても良く、文を含んでいなくても良い。具体的には、例えば、特定の文書データから切り出された文字列群を、テキストデータ10、20としても良い。
言い換えれば、本実施形態の文脈対応度は、テキストデータ10に含まれる単語群や、テキストデータ20に含まれる単語群との対応付きやすさの度合いを示す値(単語群同士の対応付きやすさの度合いを示す値)と言える。
以下に、本実施形態の言語処理装置100について、さらに説明する。図2は、言語処理装置のハードウェア構成の一例を示す図である。
本実施形態の言語処理装置100は、それぞれバスBで相互に接続されている入力装置11、出力装置12、ドライブ装置13、補助記憶装置14、メモリ装置15、演算処理装置16及びインターフェース装置17を含む情報処理装置である。
入力装置11は、各種の情報の入力を行うための装置であり、例えばキーボードやポインティングデバイス等であっても良い。出力装置12は、各種の情報の出力を行うためものであり、例えばディスプレイ等であっても良い。インターフェース装置17は、LANカード等を含み、ネットワークに接続する為に用いられる。
言語処理プログラムは、言語処理装置100を制御する各種プログラムの少なくとも一部である。言語処理プログラムは例えば記憶媒体18の配布やネットワークからのダウンロード等によって提供される。言語処理プログラムを記録した記憶媒体18は、CD-ROM、フレキシブルディスク、光磁気ディスク等の様に情報を光学的、電気的或いは磁気的に記録する記憶媒体、ROM、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記憶媒体を用いることができる。
また、言語処理プログラムは、言語処理プログラムを記録した記憶媒体18がドライブ装置13にセットされると、記憶媒体18からドライブ装置13を介して補助記憶装置14にインストールされる。ネットワークからダウンロードされた言語処理プログラムは、インターフェース装置17を介して補助記憶装置14にインストールされる。
補助記憶装置14は、インストールされた言語処理プログラムを格納すると共に、必要なファイル、データ等を格納する。メモリ装置15は、言語処理装置100の起動時に補助記憶装置14から言語処理プログラムを読み出して格納する。そして、演算処理装置16はメモリ装置15に格納された言語処理プログラムに従って、後述するような各種処理を実現している。
次に、図3を参照して、本実施形態の言語処理装置100の対応付け処理部120の機能について説明する。図3は、対応付け処理部の機能を説明する図である。以下の説明する各部は、演算処理装置16が、メモリ装置15に格納された言語処理プログラムを読み出して実行することで実現される。
本実施形態の対応付け処理部120は、入力受付部121、単語対応度算出部122、単語対応付け部123、対応付け履歴保持部124、単語対応度更新部125、終了判定部126を有する。
入力受付部121は、言語処理装置100において、単語の対応付けが行われるテキストデータ10(第一のテキストデータ)と、テキストデータ20(第二のテキストデータ)の入力を受け付ける。
単語対応度算出部122は、単語ベクトルデータベース110を参照し、入力受付部121が受け付けたテキストデータ10に含まれる各単語と、テキストデータ20に含まれる各単語とを対応付けたときの単語の組み合わせ毎の単語対応度を算出する。以下の説明では、単語の組み合わせ毎の単語対応度を含む情報を、単語対応度情報と呼ぶ。
単語対応付け部123は、単語対応度算出部122によって算出された単語対応度情報に基づき、例えば、Gale-Shapleyアルゴリズムを用いて、テキストデータ10に含まれる単語とテキストデータ20に含まれる単語の対応付けを行う。そして、単語対応付け部123は、その結果として、対応付け情報を出力する。
対応付け履歴保持部124は、単語対応度算出部122により算出された単語対応度情報と、対応付け情報とを含む情報を、単語の対応付けの履歴を示す対応付け履歴情報128として保持する。
単語対応度更新部125は、対応付け履歴保持部124に格納された対応付け履歴情報128を参照して、テキストデータ10とテキストデータ20の文脈対応度を算出する。そして、単語対応度更新部125は、文脈対応度と対応付け履歴情報128とを用いて、単語の組み合わせ毎の単語対応度を更新する。
終了判定部126は、単語対応度更新部125による処理を実行した後に、対応付け履歴情報128が変化するか否かを判定し、変化しなくなった場合に、対応付け処理部120の処理を終了させる。
次に、図4を参照して、本実施形態の言語処理装置100の動作について説明する。図4は、言語処理装置の動作を説明する第一のフローチャートである。
本実施形態の言語処理装置100において、対応付け処理部120は、入力受付部121がテキストデータ10とテキストデータ20の入力を受け付けると、単語対応度算出部122により、各テキストデータに含まれる単語の組み合わせ毎の単語対応度を算出する(ステップS401)。尚、単語の組み合わせ毎の単語対応度は、単語対応度情報として、対応付け履歴情報128の一部として対応付け履歴保持部124に保持される。
以下に、単語対応度算出部122による単語対応度の算出について説明する。以下の説明では、テキストデータ10に含まれるx番目のユニットのi番目の単語を、axiと示し、テキストデータ20に含まれるy番目のユニットのj番目の単語を、byjと示す。尚、ユニットとは、例えば、一文や、一行等の単位であり、任意に決めることができる。
また、以下の説明では、単語axiから単語byjへの単語対応度をP(axi→byj)と示す。言い換えれば、単語axiと単語byjとの対応付けやすさの度合いを示す値をP(axi→byj)と示す。対応付けやすさとは、例えば、意味が似ている、文脈において配置される位置が近い、等という表現で表すこともできる。
本実施形態の単語対応度算出部122は、単語対応度Pを以下の式(1)によって算出する。
単語対応度P(axi→byj)=<axi,byj> 式(1)
ここで、<axi,byj>は、単語ベクトルデータベース110における単語axiの単語ベクトルと、単語byjの単語ベクトルとの内積を示す。
単語ベクトルとしては、単語の出現分布を表現するものであればよく、予め単に単語毎に求めて、単語ベクトルデータベース110に格納しておく。例えば、単語ベクトルは、テキスト集合(t1,t2,・・・,tn)の各テキストtkにおける単語の出現の有無を表す0または1を要素としたn次元のベクトルであっても良い。また、単語ベクトルは、深層学習を用いた文献(Distributed Representations of Sentences and Documents Proceedings of The 31st International Conference on Machine Learning (ICML 2014), pp. 1188 - 1196, 2014)による方法で作成したベクトルを用いても良い。
意味が類似している単語は、その出現分布(使用場面)も類似するため、出現分布に応じて定まる単語ベクトルの内積は、単語の意味内容が類似しているほど大きくなる。よって単語同士の単語対応度P(axi→byj)も大きくなる。
例えば、「犬」と「学校」という2単語について考えると、「犬」はペット関連の書籍(テキスト)等に多く出現し、「学校」は教育関連の書籍(テキスト)等に多く出現する。また、「猫」という単語も、「犬」と同様にペット関連の書籍(テキスト)等に多く出現し、「大学」という単語も、「学校」と同様に教育関連の書籍(テキスト)等に多く出現する。
ここで、ペット関連の書籍t1,t2と教育関連の書籍t3,t4における単語の出現回数を並べた単語ベクトル(n1,n2,n3,n4)を考えると、「犬」と「猫」の単語ベクトルはn1,n2が大きく、n3,n4が小さくなる。これに対して、「学校」や「大学」の単語ベクトルは、n1,n2が小さく、n3,n4が大きくなる。よって、「犬」と「猫」の単語ベクトルの内積は、「犬」と「大学」の単語ベクトルの内積のよりも大きくなる。つまり、「犬」と「猫」の組み合わせの単語対応度は、「犬」と「大学」の組み合わせの単語対応度よりも大きくなる。
本実施形態の単語対応度算出部122は、テキストデータ10に含まれる単語と、テキストデータ20に含まれる単語とで、取り得る全ての単語の組み合わせについて、単語対応度P(axi→byj)を算出する。
そして、単語対応度算出部122は、単語対応度P(axi→byj)の集合を、単語対応度情報として、対応付け履歴保持部124に保持させる。
続いて、対応付け処理部120は、単語対応付け部123により、単語対応度情報を参照して、テキストデータ10に含まれる単語と、テキストデータ20に含まれる単語との対応付けを行い、対応付け情報を取得する(ステップS402)。尚、対応付け情報は、対応付け履歴情報128の一部として対応付け履歴保持部124に保持される。ステップS402の処理の詳細は後述する。
続いて、対応付け処理部120は、単語対応度情報を更新する(ステップS403)。言い換えれば、単語対応度更新部125は、単語の組み合わせ毎の単語対応度を更新する。
以下に、単語対応度更新部125の処理について説明する。本実施形態の単語対応度更新部125は、以下の式(2)によって、単語対応度情報を更新する。
P(axi→byj)=P(axi→byj|ux→uy)×P(ux→uy) 式(2)
尚、uxは、テキストデータ10に含まれるx番目のユニット(文脈)を示し、uyは、テキストデータ20に含まれるy番目のユニットを示している。また、P(ux→uy)は、ユニットuxとユニットuyとの対応付けやすさを示す文脈対応度を示す。この文脈対応度は、単語対応付け部123によって取得される対応付け情報によって変化する。
式(2)の右辺第1項は、以下の式(3)によって求められる。式(3)では、ユニットuxとユニットuyとが対応付けられている場合における、単語axiが単語byiに対応付けられる確率を示している。
尚、式(3)のP(axi→byj)及びP(axi→byk)は式(1)から求められる値を用いる。また、Σ_k等はkに関する和を表す。
P(axi→byj|ux→uy)
=P(axi→byj)/Σ_kP(axi→byk) 式(3)
また、式(2)の右辺第2項は、以下の式(4)によって求められる。尚、式(4)のP(axi→byj)は、単語対応付け部123による対応付け情報において、対応付けられた単語同士の単語対応度とする。
P(ux→uy)
=Σ_iP(axi→byj)/Σ_iΣ_zP(axi→bzl) 式(4)
このように、本実施形態の単語対応度情報は、式(3)と式(4)の積で示される式(2)によって更新される。
ここで式(3)の条件付き確率は、式(1)で求められる値であり変化しないが、式(4)で得られる文脈対応度は、単語対応付け部123の結果に依存して変化する。
式(4)で得られる文脈対応度の変化に応じて、式(2)で更新された単語対応度情報が変化すれば、図4のステップS402における単語対応付け部123の処理の結果も変化する可能性がある。
続いて、対応付け処理部120は、終了判定部126により、処理の終了条件を満たすか否かを判定する(ステップS404)。
具体的には、終了判定部126は、ステップS403で算出した更新後の単語対応度情報が、更新前の単語対応度情報と一致する場合に、終了条件を満たすものと判定する。つまり、終了判定部126は、テキストデータ10の単語とテキストデータ20の単語との対応関係が変化しない場合に、処理の終了条件を満たすものと判定する。
以下に、終了判定部126の処理について、具体的に説明する。本実施形態の終了判定部126は、式(5)で定義される対数尤度Qを計算して記憶しておく。この値が、記憶しておいた前回の値よりも減少、もしくは変わらない場合に、終了判定部126は、終了条件を満たすものと判定する。
Q=Σ_xΣ_ylogP(ux→uy) 式(5)
ステップS404において、終了条件を満たしていないと判定された場合、対応付け処理部120は、ステップS402へ戻る。
ステップS404において、終了条件を満たすと判定された場合、対応付け処理部120は、出力部130により、最新の対応付け情報を、対応付け結果情報30として出力し(ステップS405)、処理を終了する。言い換えれば、出力部130は、テキストデータ10に含まれる単語axi毎に、それぞれに対応付けられたテキストデータ20の単語byjを出力する。
次に、図5を参照して、単語対応付け部123の処理について説明する。図5は、言語処理装置の動作を説明する第二のフローチャートである。図5では、図4のステップS402の処理の詳細を示している。
本実施形態の単語対応付け部123は、テキストデータ10から、単語Waを取り出す(ステップS501)。続いて、単語対応付け部123は、単語Waが、テキストデータ20に含まれる単語と対応付けられているか否かを判定する(ステップS502)。ステップS502において、単語Waが、テキストデータ20に含まれる単語と対応付けられている場合、ステップS501に戻る。
ステップS501において、単語Waが、テキストデータ20に含まれる単語と対応付けられていない場合、単語対応付け部123は、テキストデータ20から、単語Waと単語対応度が大きい順に、単語Wbを取り出す(ステップS503)。
続いて、単語対応付け部123は、単語Wbは、テキストデータ10に含まれる単語Waとは他の単語Wcと対応付けられているか否かを判定する(ステップS504)。ステップS504において、対応付けられていない場合、後述するステップS507へ進む。
ステップS504において、対応付けられている場合、単語対応付け部123は、単語Waと単語Wbの単語対応度が、単語Wcと単語Wbの単語対応度よりも大きいか否かを判定する(ステップS505)。ステップS505において、単語Waと単語Wbの単語対応度が、単語Wcと単語Wbの単語対応度以下である場合、つまり、ステップS505においてNoの場合、単語対応付け部123は、ステップS503へ戻る。
ステップS505において、単語Waと単語Wbの単語対応度が、単語Wcと単語Wbの単語対応度よりも大きい場合、単語対応付け部123は、単語Wcと単語Wbとの対応付けを解除する(ステップS506)。続いて、単語対応付け部123は、単語Waと単語Wbとを対応付ける(ステップS507)。
続いて、単語対応付け部123は、テキストデータ10に含まれる全ての単語について、対応付けが行われたか否かを判定する(ステップS508)。ステップS508において、全ての単語について対応付けが行われていない場合、単語対応付け部123は、ステップS501に戻る。ステップS508において、全ての単語について対応付けが行われた場合、単語対応付け部123は、処理を終了する。
尚、本実施形態では、テキストデータ10に含まれる単語の数と比べて、テキストデータ20に含まれる単語の数の方が少ない場合には、テキストデータ20に対し、単語の数がテキストデータ10と等しくなるように、ダミーの単語を追加しても良い。尚、ダミーとして追加する単語は、テキストデータ10に含まれる単語との単語対応度が、テキストデータ20に含まれる単語との単語対応度よりも小さくなるものとする。
例えば、テキストデータ10に単語w1、w2、w3が含まれており、テキストデータ20に単語w5、w6が含まれている場合、テキストデータ20に、単語数がテキストデータ10と同じになるように、ダミーの単語w7を追加する。
単語w7の語形もしくは識別ラベルは、テキストデータ20の他の単語w5、w6と区別でき、w7のみを同定できるものであればよい。また、単語w1と単語w7との単語対応度は、例えば、 単語w1と単語w5との単語対応度が0.1、単語w1と単語w6との単語対応度が0.3であった場合、0.1より小さな値(例えば0.0)とする。
また、単語w2と単語w7との単語対応度は、例えば、単語w2と単語w5との単語対応度が0.2、単語w2と単語w6との単語対応度が0.4であった場合、0.2より小さな値(例えば0.0)とする。
尚、単語対応度が非負となるように定義されている場合には、ダミーの単語との単語対応度は一律に0としてもよい。
次に、図6乃至図11を参照して、本実施形態の対応付け処理部120の処理について具体的に説明する。
図6、テキストデータの一例を示す図である。図6では、テキストデータ10には、1つのユニット「昨日、小説を買った」が含まれる。以下の説明では、テキストデータ10に含まれるユニット「昨日、小説を買った」をユニットua1として示す。
テキストデータ20には、2つのユニット「昨日、本を買った」、「彼は、小説を書く」が含まれる。以下の説明では、テキストデータ20に含まれる1つ目のユニット「昨日、本を買った」をユニットub1と示し、2つ目のユニット「彼は、小説を書く」をユニットub2と示す。
図7は、単語対応度情報の一例を示す図である。図7では、図6に示すテキストデータ10に含まれる単語と、テキストデータ20に含まれる単語との組み合わせ毎の単語対応度を算出した結果である単語対応度情報71を示している。
図7の例では、縦軸方向にテキストデータ10に含まれる単語を記載し、横軸方向にテキストデータ20に含まれる単語を記載している。
テキストデータ10に含まれる単語は、「昨日」、「小説を」、「買った」の3つである。また。テキストデータ20に含まれる単語は、「昨日」、「本を」、「買った」、「彼は」、「小説を」、「書く」の6つである。
ここでは、単語対応付け部123は、単語ベクトルデータベース110を参照し、テキストデータ10に含まれる単語の単語ベクトルと、テキストデータ20に含まれる単語の単語ベクトルと、式(1)とによって、単語同士の単語対応度を算出している。図7に示す単語同士の単語対応度は、単語対応度更新部125により更新される前の単語対応度であり、単語対応度の初期値と言える。
尚、図7では、説明を簡便化するため大部分の単語対応度は一律に0.0としている。対応付け処理部120は、単語対応度情報71が取得されると、単語対応付け部123により、単語同士の対応付けを行う。
図8は、対応付け情報の一例を示す図である。図8に示す対応付け情報81は、図7の単語対応度情報71にしたがって、Gale-Shapleyアルゴリズムにより、テキストデータ10に含まれる単語とテキストデータ20に含まれる単語の対応付けを行った結果を示している。
次に、対応付け処理部120は、単語対応度更新部125により、テキストデータ10に含まれるユニットと、テキストデータ20に含まれるユニットとの組み合わせ毎の文脈対応度を算出する。
図9は、単語対応度情報の更新を説明する第一の図である。図9では、式(3)によって得られた結果を示している。
例えば、ユニットua1がユニットub1に対応付く場合に、ユニットua1の単語「昨日」とユニットub1の単語「昨日」との単語対応度は、以下のようになる。
P(昨日→昨日|ua1→ub1)
=P(昨日→昨日)/{P(昨日→昨日)+P(昨日→本を)+P(昨日→買った)}}
=1.0/(1.0+0+0)=1.0
となる。また、ユニットua1がユニットub2に対応付く場合に、ユニットua1の単語「昨日」とユニットub2の単語「彼は」との単語対応度は、以下のようになる。
P(昨日→彼は|ua1→ub2)
=P(昨日→彼は)/{P(昨日→彼は)+P(昨日→小説を)+P(昨日→書く)}
=0.3/(0.3+0+0)=1.0
図10は、単語対応度情報の更新を説明する第二の図である。図10では、式(4)によって得られた結果を示している。図10では、縦軸方向に、テキストデータ10に含まれるユニットを記載し、横軸方向にテキストデータ20に含まれるユニットを記載している。
図8に示す対応付け情報81では、ユニットua1の単語「昨日」は、ユニットub1の単語「昨日」と対応付けられており、ユニットua1の単語「小説を」は、ユニットub2の単語「小説を」と対応付けられている。また、ユニットua1の単語「買った」は、ユニットub1との単語「買った」と対応付けられている。
したがって、図10では、ユニットua1とユニットub1との文脈対応度は、以下のようになる。
P(ua1→ub1)
={P(昨日→昨日)+P(買った→買った)}}/{P(昨日→昨日)+P(小説を→小説を)+P(買った→買った)}
=(1.0+1.0)/(1.0+1.0+1.0)
=2.0/3.0=0.7(0.66・・を四捨五入)
となる。同様に、ユニットua1とユニットub2との文脈対応度は、
P(ua1→ub2)
=P((小説を→小説を)/{P(昨日→昨日)+P(小説を→小説を)+P(買った→買った)
=1.0/(1.0+1.0+1.0)=1.0/3.0=0.3(0.33を四捨五入)
となる。
以上の式(3)と式(4)の値を用いて、式(2)の値を計算した結果を、図11に示す。図11は、更新された単語対応度情報の一例を示す図である。
図11に示す単語同士の組み合わせ毎の単語対応度は、それぞれが式(2)によって更新された単語対応度である。つまり、図11は、図7に示す単語対応度情報71を、式(2)を用いて更新した単語対応度情報71Aである。
本実施形態では、更新された単語対応度情報71Aに基づいて、単語対応付け部123による単語同士の対応付けを行うと、ユニットua1に含まれる単語「小説を」は、ユニットub1に含まれる単語「小説を」ではなく、ユニットub2に含まれる単語「本を」と対応付けられる。
つまり、本実施形態によれば、式(1)によって得られる単語単独での単語対応度だけではなく、式(4)で得られる、その単語が属するユニットの間の文脈対応度も加味した単語対応度を用いる。
このため、本実施形態によれば、文脈「昨日、小説を買った」に出現する単語「小説を」を、文脈「彼は、小説を書く」よりも類似した文脈「昨日、本を買った」に出現し、かつ、単語「小説を」と単語対応度が高い単語「本を」に対応づけることができる。したがって、本実施形態によれば、適切な単語同士の対応付けを行うことができる。
尚、本実施形態では、単語ベクトルデータベース110に格納された単語ベクトルを用いて単語対応度を算出するものとしたが、単語対応度とされる値は、これに限定されない。単語対応度は、単語同士の対応のし易さの度合い(指標)を示していれば良く、例えば、単語に含まれる文字の形状の類似の度合いや、文脈に出現する位置や、文字数、文字の種類等によって示されても良い。
次に、図12を参照して、本実施形態の対応付け結果情報30を用いて単語の対応付けを行った結果の表示例について説明する。図12は、対応付け結果情報を用いた表示例を示す図である。
図12に示す画面201は、例えば、言語処理装置100の出力装置12等に表示された画面であっても良いし、言語処理装置100と通信を行う端末装置等に表示された画面であっても良い。
画面201には、入力された2つのテキストデータをそれぞれ表示させる表示欄202、203と、各テキストデータにおいて、対応する単語を含む文章同士を強調表示させたことを示すメッセージ204とが表示されている。
表示欄202には、テキストデータAAが表示されており、テキストデータAAには、ユニット221、212、213が含まれる。表示欄203には、テキストデータBBが表示されており、テキストデータBBには、ユニット221、222が含まれる。
図12の例では、テキストデータAAのユニット211と、テキストデータBBのユニット222とが、強調表示されている。つまり、図12の例では、テキストデータAAのユニット211に含まれる単語と、テキストデータBBのユニット222に含まれる単語とが、対応付けられていることがわかる。
したがって、画面201では、テキストデータAAとテキストデータBBでは、ユニット211とユニット222は、意味が近い文脈であることを、画面201の閲覧者に示唆することができる。
尚、図12の例では、ユニット単位で強調表示を行うものとしたが、これに限定されない。本実施形態では、対応付け結果情報30において、対応付けられている2つの単語に同じ色にマーカを付して表示させても良い。また、強調表示されたユニットに含まれる単語について、ユニットに付されたマーカとは異なる色のマーカを付して表示させても良い。
図12の例では、例えば、対応付け結果情報30において、ユニット211内の単語「天気」と、ユニット222の「お天気」が対応付けられていた場合、これらの2つの単語について、ユニット211、222に付されたマーカとは別の表示態様(字体、フォント等を含む)で強調表示させても良い。
次に、本実施形態の言語処理装置100を有する言語処理システムのシステム構成について説明する。図13は、言語処理装置を含むシステムのシステム構成の一例を示す図である。
図13に示す言語処理システム200は、言語処理装置100と端末装置300とを含み、端末装置300は、言語処理装置100とネットワーク等を介して接続される。
言語処理システム200において、言語処理装置100は、例えば、端末装置300から、テキストデータ10、20を受信すると、このテキストデータ10、20に基づき、対応付け処理部120の処理を実行する。そして、対応付け処理部120の処理の結果として取得された対応付け結果情報30を、出力部130により、端末装置300へ出力する。
尚、端末装置300から受信するテキストデータ10、20は、予め2つのテキストファイルとして受信されても良いし、1つのテキストファイルとして受信しても良い。
以上、各実施形態に基づき本発明の説明を行ってきたが、上記実施形態に示した要件に本発明が限定されるものではない。これらの点に関しては、本発明の主旨をそこなわない範囲で変更することができ、その応用形態に応じて適切に定めることができる。
10、20 テキストデータ
100 言語処理装置
110 単語ベクトルデータベース
120 対応付け処理部
121 入力受付部
122 単語対応度算出部
123 単語対応付け部
124 対応付け履歴保持部
125 単語対応度更新部
126 終了判定部
128 対応付け履歴情報
130 出力部
特開2011-154720号公報
D. Gale and L.S. Shapley. College admissions and the stability of marriage. American Mathmatical Monthly, 69:9-15, 1962

Claims (6)

  1. コンピュータによる言語処理方法であって、前記コンピュータが、
    第一のテキストデータに含まれる第一の単語群と、第二のテキストデータに含まれる第二の単語群と、で取り得る全ての単語の組み合わせについて、単語同士の対応付きやすさの度合いを示す値を算出し、
    前記対応付きやすさの度合いを示す値に基づき、第一の単語と第二の単語との対応付けを行い、
    前記対応付けの結果と、前記単語同士の対応付きやすさの度合いを示す値と、を用いて、前記第一の単語を含む第一のテキストデータの単語群と前記第二の単語を含む第二のテキストデータの単語群とについて、単語群同士の対応付きやすさの度合いを示す値を算出し、前記単語群同士の対応付きやすさの度合いを示す値を用いて、前記単語同士の対応付きやすさの度合いを示す値を更新する、言語処理方法。
  2. 前記対応付けを行った結果が、終了条件を満たす場合に、前記対応付けを行った結果を出力する、請求項1記載の言語処理方法。
  3. 前記終了条件は、
    更新された前記単語同士の対応付きやすさの度合いを示す値に基づき、記第一の単語と前記第二の単語との対応付けを行った結果が更新前と一致することである、請求項2記載の言語処理方法。
  4. 前記単語群は、
    複数の単語を含む文脈を示すテキストデータ、1つの文、複数の文の集合の何れかである、請求項1乃至3の何れか一項に記載の言語処理方法。
  5. 第一のテキストデータに含まれる第一の単語群と、第二のテキストデータに含まれる第二の単語群と、で取り得る全ての単語の組み合わせについて、単語同士の対応付きやすさの度合いを示す値を算出する処理と、
    前記対応付きやすさの度合いを示す値に基づき、第一の単語と第二の単語との対応付けを行う処理と、
    前記対応付けの結果と、前記単語同士の対応付きやすさの度合いを示す値と、を用いて、前記第一の単語を含む第一のテキストデータの単語群と前記第二の単語を含む第二のテキストデータの単語群とについて、単語群同士の対応付きやすさの度合いを示す値を算出し、前記単語群同士の対応付きやすさの度合いを示す値を用いて、前記単語同士の対応付きやすさの度合いを示す値を更新する処理と、をコンピュータに実行させる、言語処理プログラム。
  6. 第一のテキストデータに含まれる第一の単語群と、第二のテキストデータに含まれる第二の単語群と、で取り得る全ての単語の組み合わせについて、単語同士の対応付きやすさの度合いを示す値を算出する算出部と、
    前記対応付きやすさの度合いを示す値に基づき、第一の単語と第二の単語との対応付けを行う対応付け部と、
    前記対応付けの結果と、前記単語同士の対応付きやすさの度合いを示す値と、を用いて、前記第一の単語を含む第一のテキストデータの単語群と前記第二の単語を含む第二のテキストデータの単語群とについて、単語群同士の対応付きやすさの度合いを示す値を算出し、前記単語群同士の対応付きやすさの度合いを示す値を用いて、前記単語同士の対応付きやすさの度合いを示す値を更新する更新部と、を有する言語処理装置。
JP2018186005A 2018-09-28 2018-09-28 言語処理方法、言語処理プログラム及び言語処理装置 Active JP7147439B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018186005A JP7147439B2 (ja) 2018-09-28 2018-09-28 言語処理方法、言語処理プログラム及び言語処理装置
PCT/JP2019/035124 WO2020066545A1 (en) 2018-09-28 2019-09-06 Method of processing language, recording medium, system for processing language, and language processing apparatus
US17/262,071 US11928431B2 (en) 2018-09-28 2019-09-06 Method of processing language, recording medium, system for processing language, and language processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018186005A JP7147439B2 (ja) 2018-09-28 2018-09-28 言語処理方法、言語処理プログラム及び言語処理装置

Publications (2)

Publication Number Publication Date
JP2020057105A JP2020057105A (ja) 2020-04-09
JP7147439B2 true JP7147439B2 (ja) 2022-10-05

Family

ID=68000012

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018186005A Active JP7147439B2 (ja) 2018-09-28 2018-09-28 言語処理方法、言語処理プログラム及び言語処理装置

Country Status (3)

Country Link
US (1) US11928431B2 (ja)
JP (1) JP7147439B2 (ja)
WO (1) WO2020066545A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005275685A (ja) 2004-03-24 2005-10-06 Ntt Data Corp 文書情報序列化装置、文書情報序列化方法、プログラムおよび記録媒体
JP2006107353A (ja) 2004-10-08 2006-04-20 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム
WO2008023470A1 (fr) 2006-08-21 2008-02-28 Kyoto University Procédé de recherche de phrase, moteur de recherche de phrase, programme informatique, support d'enregistrement et stockage de document
JP2011118526A (ja) 2009-12-01 2011-06-16 Hitachi Ltd 単語意味関係抽出装置
JP2011175574A (ja) 2010-02-25 2011-09-08 Nippon Hoso Kyokai <Nhk> 文書平易化装置および平易化規則テーブル作成装置、ならびにプログラム
JP2017162190A (ja) 2016-03-09 2017-09-14 富士通株式会社 類似文書検索プログラム、類似文書検索装置、及び類似文書検索方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7191115B2 (en) * 2001-06-20 2007-03-13 Microsoft Corporation Statistical method and apparatus for learning translation relationships among words
JP4361299B2 (ja) 2003-03-20 2009-11-11 株式会社リコー 評価表現抽出装置、プログラム、及び記憶媒体
JP3765798B2 (ja) * 2003-05-27 2006-04-12 沖電気工業株式会社 文書対応関係検査装置、翻訳処理装置、文書対応関係検査方法、翻訳処理方法、および文書対応関係検査プログラム
WO2005017698A2 (en) 2003-08-11 2005-02-24 Educational Testing Service Cooccurrence and constructions
JP5286384B2 (ja) 2011-04-26 2013-09-11 三菱電機インフォメーションシステムズ株式会社 マッチングシステム
US10885089B2 (en) * 2015-08-21 2021-01-05 Cortical.Io Ag Methods and systems for identifying a level of similarity between a filtering criterion and a data item within a set of streamed documents
WO2016151986A1 (ja) 2015-03-23 2016-09-29 日本電気株式会社 電力マッチング装置、電力マッチング方法および電力マッチングプログラムが格納された非一時的なコンピュータ可読媒体
US10380257B2 (en) * 2015-09-28 2019-08-13 International Business Machines Corporation Generating answers from concept-based representation of a topic oriented pipeline
US10489712B2 (en) * 2016-02-26 2019-11-26 Oath Inc. Quality-based scoring and inhibiting of user-generated content
US10572221B2 (en) * 2016-10-20 2020-02-25 Cortical.Io Ag Methods and systems for identifying a level of similarity between a plurality of data representations
JP6913893B2 (ja) 2017-04-26 2021-08-04 パナソニックIpマネジメント株式会社 受光量計測システム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005275685A (ja) 2004-03-24 2005-10-06 Ntt Data Corp 文書情報序列化装置、文書情報序列化方法、プログラムおよび記録媒体
JP2006107353A (ja) 2004-10-08 2006-04-20 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム
WO2008023470A1 (fr) 2006-08-21 2008-02-28 Kyoto University Procédé de recherche de phrase, moteur de recherche de phrase, programme informatique, support d'enregistrement et stockage de document
JP2011118526A (ja) 2009-12-01 2011-06-16 Hitachi Ltd 単語意味関係抽出装置
JP2011175574A (ja) 2010-02-25 2011-09-08 Nippon Hoso Kyokai <Nhk> 文書平易化装置および平易化規則テーブル作成装置、ならびにプログラム
JP2017162190A (ja) 2016-03-09 2017-09-14 富士通株式会社 類似文書検索プログラム、類似文書検索装置、及び類似文書検索方法

Also Published As

Publication number Publication date
US20210165962A1 (en) 2021-06-03
US11928431B2 (en) 2024-03-12
JP2020057105A (ja) 2020-04-09
WO2020066545A1 (en) 2020-04-02

Similar Documents

Publication Publication Date Title
CN108984683B (zh) 结构化数据的提取方法、系统、设备及存储介质
CN107220235B (zh) 基于人工智能的语音识别纠错方法、装置及存储介质
CN108460011B (zh) 一种实体概念标注方法及系统
CN109165384A (zh) 一种命名实体识别方法及装置
WO2021139247A1 (zh) 医学领域知识图谱的构建方法、装置、设备及存储介质
JP2022130635A (ja) 会議支援システム、会議支援装置、会議支援方法及びプログラム
CN117501283A (zh) 文本到问答模型系统
CN114840662A (zh) 事件信息抽取方法、装置及电子设备
CN110110218A (zh) 一种身份关联方法及终端
CN111161861A (zh) 用于医院后勤运维的短文本数据处理方法、装置
CN114141384A (zh) 用于检索医学数据的方法、设备和介质
CN112151019A (zh) 文本处理方法、装置及计算设备
CN110309355A (zh) 内容标签的生成方法、装置、设备及存储介质
CN112559711A (zh) 一种同义文本提示方法、装置及电子设备
JP7147439B2 (ja) 言語処理方法、言語処理プログラム及び言語処理装置
CN109799917A (zh) 文字输入方法和装置
Lane et al. A computational model for interactive transcription
JP7549977B2 (ja) テキストマイニング装置およびテキストマイニング方法
CN114138928A (zh) 文本内容提取的方法、系统、装置、电子设备及介质
Vu et al. Lct-malta’s submission to repeval 2017 shared task
JP2018156552A (ja) 計算機システム及び文章データの検索方法
JP2021089473A (ja) 文書処理プログラム、文書処理装置、及び文書処理方法
KR20200113693A (ko) 문장의 중의성을 해결하고 생략된 문법 요소를 함께 표시하는 사용자 맞춤형 번역 방법 및 그 장치
JP2019194759A (ja) 対話システム補強装置及びコンピュータプログラム
CN114841162B (zh) 文本处理方法、装置、设备及介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210712

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220801

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220823

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220905

R151 Written notification of patent or utility model registration

Ref document number: 7147439

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151