JP2022122029A - データ処理装置、データ処理方法及びデータ処理プログラム - Google Patents

データ処理装置、データ処理方法及びデータ処理プログラム Download PDF

Info

Publication number
JP2022122029A
JP2022122029A JP2021019078A JP2021019078A JP2022122029A JP 2022122029 A JP2022122029 A JP 2022122029A JP 2021019078 A JP2021019078 A JP 2021019078A JP 2021019078 A JP2021019078 A JP 2021019078A JP 2022122029 A JP2022122029 A JP 2022122029A
Authority
JP
Japan
Prior art keywords
data
event data
event
relationship
relational
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021019078A
Other languages
English (en)
Inventor
智弘 山崎
Toshihiro Yamazaki
快行 爰島
Yasuyuki Kokojima
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2021019078A priority Critical patent/JP2022122029A/ja
Priority to US17/462,470 priority patent/US11886936B2/en
Publication of JP2022122029A publication Critical patent/JP2022122029A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/542Event management; Broadcasting; Multicasting; Notifications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/214Database migration support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Abstract

【課題】出来事の間の推移関係を考慮してデータを拡張することができるデータ処理装置、データ処理方法及びデータ処理プログラムを提供すること。【解決手段】データ処理装置は、抽出部と、関係データ生成部とを有する。抽出部は、入力された第1の文書データから、第1の出来事データと、第2の出来事データと、第3の出来事データとを抽出する。関係データ生成部は、第1の出来事データと第2の出来事データとの間に推移性があることを示す第1の関係データが抽出され、第2の出来事データと第3の出来事データとの間に推移性があることを示す第2の関係データが抽出されたとき、第1の出来事データと第3の出来事データに関係があることを示す第3の関係データを生成する。【選択図】図1

Description

実施形態は、データ処理装置、データ処理方法及びデータ処理プログラムに関する。
文書に書かれている出来事の数をNとすると、N個の出来事から重複を許容して2個を抽出する場合の組み合わせはO(N)だけ存在する。しかしながら、出来事の間にある関係の数は実際には少ないことが知られている。このように出来事同士の関係は正例に対して負例が非常に多い不均衡データである。したがって、出来事同士の関係の機械学習はうまくいかないことが多い。
画像認識の分野では、アンダーサンプリングによって負例を減らすこと、オーバーサンプリングによって正例を増やすこと等が行われている。一方で、自然言語処理の分野においてデータを拡張するための手法として、文中の単語を同義語で置き換えたり、文中に単語をランダムに追加したり、文中の一部の単語をランダムに削除したり、文中の単語の並びをランダムに入れ換えたりしてデータを拡張することが提案されている。
Jason Wei et al. "EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks", Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, pages 6382-6388, Hong Kong, China, November 3-7, 2019.
文書の利用例として、文書に書かれている出来事から文書に書かれているトラブルの原因等を自動分析することが挙げられる。トラブルは、複数の出来事が連なった結果として生じることがある。このような複数の出来事が連なった結果として生じるトラブルの原因等を分析するためには、出来事の間の時間的な順序関係及び因果関係といった出来事の間の推移性が把握される必要がある。文書に書かれている出来事の表現に対し、単語を同義語で置き換える、文中にランダムに単語を追加する、文中の一部の単語をランダムに削除する、文中の単語の並びをランダムに入れ換えるといったことでデータが拡張されるだけでは、出来事の間に生じ得る推移関係が十分に活用されているとは言えない。
実施形態は、出来事の間の推移関係を考慮してデータを拡張することができるデータ処理装置、データ処理方法及びデータ処理プログラムを提供する。
データ処理装置は、抽出部と、関係データ生成部とを有する。抽出部は、入力された第1の文書データから、第1の出来事データと、第2の出来事データと、第3の出来事データとを抽出する。関係データ生成部は、第1の出来事データと第2の出来事データとの間に推移性があることを示す第1の関係データが抽出され、第2の出来事データと第3の出来事データとの間に推移性があることを示す第2の関係データが抽出されたとき、第1の出来事データと第3の出来事データに関係があることを示す第3の関係データを生成する。
本実施形態によれば、出来事の間の推移関係を考慮してデータを拡張することができるデータ処理装置、データ処理方法及びデータ処理プログラムを提供できる。
図1は、第1の実施形態に係るデータ処理装置の一例の構成を示す図である。 図2は、データ処理装置のハードウェア構成の一例を示す図である。 図3は、第1の実施形態のデータ処理装置によるデータ処理方法としての関係データの生成の動作を示すフローチャートである。 図4は、文書データの一例を示す図である。 図5は、出来事データの一例を示す図である。 図6は、図5の出来事データから生成される関係データの例を示す図である。 図7は、第2の実施形態に係るデータ処理装置の一例の構成を示す図である。 図8は、第2の実施形態のデータ処理装置によるデータ処理方法としての関係データの生成の動作を示すフローチャートである。 図9は、出来事データの一例を示す図である。 図10は、図9の出来事データから生成される関係データの例を示す図である。 図11は、類似性の算出結果の一例を示す図である。
以下、図面を参照して実施形態を説明する。
[第1の実施形態]
第1の実施形態を説明する。図1は、第1の実施形態に係るデータ処理装置の一例の構成を示す図である。データ処理装置1は、入力部11と、抽出部12と、関係データ生成部13とを有する。
入力部11は、文書データの入力を受け付ける。実施形態における文書データは、複数の出来事が記載された文書のデータである。実施形態における出来事は、例えば「何が何をどうしたか」を表す複数の単語の組み合わせで構成される。実施形態においては、出来事の間には、推移関係がある。推移関係は、第1項の出来事と第2項の出来事との間の関係Rが推移性を有している関係を言う。出来事の間の推移関係とは、「XならばY」及び「YならばZ」が成立するときに、「XならばZ」が成立する関係であって、例えば出来事の間の順序関係、出来事の間の因果関係、出来事の間の同一関係、出来事の間の包含関係等を含み得る。例えば、トラブルに関わる出来事が時系列順で記載された文書は、出来事の順序間に推移関係がある。
抽出部12は、入力された文書データから出来事データを抽出する。抽出部12は、例えば形態素解析により、入力された文書データに含まれる文章を形態素の単位に分解し、分解された形態素に基づいて出来事データを抽出する。また、抽出部12は、抽出した出来事データの間の推移関係を表す関係データを抽出する。
関係データ生成部13は、抽出部12によって抽出された関係データに基づき、入力された文書データには含まれていない、出来事の間の新たな関係を表す関係データを生成する。
図2は、データ処理装置1のハードウェア構成の一例を示す図である。データ処理装置1は、例えばプロセッサ101と、メモリ102と、入力装置103と、表示装置104と、通信装置105と、ストレージ106とをハードウェアとして有している。プロセッサ101と、メモリ102と、入力装置103と、表示装置104と、通信装置105と、ストレージ106とは、バス107に接続されている。データ処理装置1は、パーソナルコンピュータ(PC)、スマートフォン、タブレット端末といった端末装置であってよい。
プロセッサ101は、データ処理装置1の全体的な動作を制御するプロセッサである。プロセッサ101は、例えばストレージ106に記憶されているプログラムを実行することによって、入力部11と、抽出部12と、関係データ生成部13として動作する。プロセッサ101は、例えばCPUである。プロセッサ101は、MPU、GPU、ASIC、FPGA等であってもよい。プロセッサ101は、単一のCPU等であってもよいし、複数のCPU等であってもよい。
メモリ102は、ROM及びRAMを含む。ROMは、不揮発性のメモリである。ROMは、データ処理装置1の起動プログラム等を記憶している。RAMは、揮発性のメモリである。RAMは、例えばプロセッサ101における処理の際の作業メモリとして用いられる。
入力装置103は、タッチパネル、キーボード、マウス等の入力装置である。入力装置103の操作がされた場合、操作内容に応じた信号がバス107を介してプロセッサ101に入力される。プロセッサ101は、この信号に応じて各種の処理を行う。入力装置103は、例えば文書データの入力に用いられ得る。
表示装置104は、液晶ディスプレイ、有機ELディスプレイ等の表示装置である。表示装置104は、各種の画像を表示する。
通信装置105は、データ処理装置1が外部の機器と通信するための通信装置である。通信装置105は、有線通信のための通信装置であってもよいし、無線通信のための通信装置であってもよい。
ストレージ106は、例えばハードディスクドライブ、ソリッドステートドライブといったストレージである。ストレージ106は、データ処理プログラム1061等のプロセッサ101によって実行される各種のプログラムを記憶している。また、ストレージ106は、文書データを形態素解析するための形態素辞書1062を記憶している。また、ストレージ106は、過去に生成された関係データ1063を記憶している。さらに、ストレージ106は、学習モデル1064を記憶している。学習モデル1064は、関係データ1063を用いて学習を実施し、文書に書かれている出来事から文書に書かれているトラブルの原因等を自動分析するように構築されたモデルである。形態素辞書1062、関係データ1063及び学習モデル1064は、必ずしもストレージ106に記憶されている必要はない。例えば、形態素辞書1062、関係データ1063及び学習モデル1064は、データ処理装置1の外部のサーバに記憶されていてもよい。この場合、データ処理装置1は、通信装置105を用いてサーバにアクセスすることで必要な情報を取得する。
バス107は、プロセッサ101と、メモリ102と、入力装置103と、表示装置104と、通信装置105と、ストレージ106との間のデータのやり取りのためのデータ転送路である。
次に第1の実施形態におけるデータ処理装置1の動作を、具体例を交えながら説明する。図3は、データ処理装置1によるデータ処理方法としての関係データの生成の動作を示すフローチャートである。図3の処理は、プロセッサ101によって実行される。
ステップS1において、プロセッサ101は、文書データを取得する。文書データは、ユーザによって入力され得る。ユーザは、例えば入力装置103を操作して文書データを入力する。例えば、図4に示す文書データが入力されたとする。
ステップS2において、プロセッサ101は、文書データから出来事データを抽出する。プロセッサ101は、例えば形態素解析と係り受け解析によって出来事データを抽出する。例えば、プロセッサ101は、形態素解析によって文章を形態素に分解し、係り受け解析によって文節の関係を推定する。そして、文節の並びである出来事データを抽出する。例えば、図4に示す文書データの下線部から、図5に示す4つの出来事データA、B、C、Dが抽出されたとする。
ステップS3において、プロセッサ101は、抽出した出来事データから関係データを生成する。例えば、プロセッサ101は、形態素解析された文書データにおいて、出来事間の推移性を表す単語を抽出する。推移性を表す単語は、日本語であれば、「と」、「ところ」、「とき」、「前」、「後」等の前後の文の時間的な順序関係を表す単語、「そのため」、「ならば」、「ので」等の前後の文の因果関係を表す単語である。また、推移性を表す単語は、英語であれば、「when」、「before」、「after」等の前後の文の時間的な順序関係を表す単語、「If」、「Because」等の前後の文の因果関係を表す単語である。これらの推移性を表す単語を抽出できた場合、プロセッサ101は、抽出した推移性を表す単語の前後の出来事データから関係データを生成する。
図4の例では、プロセッサ101は、図4の下線で示す「と」、「そのため」、「ところ」を、推移性を表す単語として抽出できたとする。このことは、「と」の前後の出来事データである出来事データAと出来事データB、「そのため」の前後の出来事データBと出来事データC、「ところ」の前後の出来事データである出来事データCと出来事データDとの間には推移関係があることを意味している。
図6は、図5の出来事データから生成される関係データの例である。図6に示すように、関係データは、第1項、第2項、ホップ数、関係の強さのデータを含む。第1項は、推移関係を有する2つの出来事データのうちの第1項の出来事データである。例えば、推移性が時間的な順序関係であれば第1項の出来事データは、時間的に前の出来事データであり、推移性が因果関係であれば第1項の出来事データは、原因の出来事データである。第2項は、推移関係を有する2つの出来事データのうちの第2項の出来事データである。例えば、推移性が時間的な順序関係であれば第2項の出来事データは、時間的に後の出来事データであり、推移性が因果関係であれば第2項の出来事データは、結果の出来事データである。ホップ数は、文書データ上での、第1項の出来事データを基準とした第2項の出来事データまでの出来事データ単位の距離を表す。例えば、第1項の出来事データと第2項の出来事データとの間に他の出来事データが存在していないときのホップ数は1である。一方、第1項の出来事データと第2項の出来事データとの間に1つの他の出来事データが存在しているときのホップ数は2である。関係の強さは、第1項の出来事データと第2項の出来事データとの関係性の強さを表す。関係の強さは、例えば0から1の範囲の値を有する。文書データから直接的に生成される関係データにおける関係の強さは、例えばホップ数に応じて決められてよい。例えば、関係の強さは、ホップ数が1に近いほどに1に近くなるように算出されてよい。
ここで、例では出来事の間の推移性を表す単語を文章から抽出することによって推移性を有する2つの出来事データが特定される。これに対し、出来事の間の推移性を表す単語を特定することなく、出来事の間の時間的な順序関係又は因果関係が特定され得る場合であっても、プロセッサ101は、それらの出来事から関係データを生成してよい。つまり、文書からの関係データの生成は、特定の手法には限定されない。
ステップS4において、プロセッサ101は、生成した関係データを例えばストレージ106に記憶させる。ストレージ106に記憶された関係データは、学習モデル1064における機械学習に用いられ得る。
ステップS5において、プロセッサ101は、関係データを参照して、推移関係R(X,Y)と推移関係R(Y,Z)の両方を満たしている出来事データX、Y、Zが存在しているか否かを判定する。ここで、R(X,Y)は、第1項の出来事データXと第2項の出来事データYとの間に推移関係Rが存在していることを表している。また、R(Y,Z)は、第1項の出来事データYと第2項の出来事データZとの間に推移関係Rが存在していることを表している。図5の例の場合、X、Y、Zは、出来事データA、B、C、Dの何れかである。例えば、プロセッサ101は、第1項に出現している出来事データと第2項に出現している出来事データとを比較し、第1項と第2項の両方に出現している出来事データがあるか否かを判定する。図6の例では、出来事データBと出来事データCが第1項と第2項の両方に出現している。この場合、推移関係R(X,Y)と推移関係R(Y,Z)の両方を満たしている出来事データX、Y、Zが存在していることになる。ステップS5において、推移関係R(X,Y)と推移関係R(Y,Z)の両方を満たしている出来事データX、Y、Zが存在していると判定されたときには、処理はステップS6に移行する。ステップS5において、推移関係R(X,Y)と推移関係R(Y,Z)の両方を満たしている出来事データX、Y、Zが存在していないと判定されたときには、図3の処理は終了する。
ステップS6において、プロセッサ101は、第1項と第2項に共通して出現している出来事データに基づいて新たな関係データを生成する。例えば、プロセッサ101は、第1項と第2項に共通して出現している出来事データが第2項に出現しているときの第1項の出来事データを第1項とし、第1項と第2項に共通して出現している出来事データが第1項に出現しているときの第2項の出来事データを第2項とする関係データを生成する。さらにプロセッサ101は、ホップ数及び関係の強さを算出する。
ステップS6の処理を図6の例を用いて具体的に説明する。前述したように、図6の例では、出来事データBと出来事データCが第1項と第2項の両方に出現している。
まず、プロセッサ101は、出来事データBを用いて新たな関係データを生成する。プロセッサ101は、まず、出来事データBが第2項に出現しているときの第1項の集合を求める。図6の例では、出来事データBが第2項に出現しているときの第1項の集合は{A}である。また、プロセッサ101は、出来事データBが第1項に出現しているときの第2項の集合を求める。図6の例では、出来事データBが第1項に出現しているときの第2項の集合は{C}である。次に、プロセッサ101は、これらの第1項の集合と第2の集合の直積を求める。図6の例では、直積集合は{(A,C)}である。この直積集合の要素のそれぞれが新たな関係データにおける第1項の出来事データと第2項の出来事データに相当する。
同様にプロセッサ101は、出来事データCを用いて新たな関係データを生成する。つまり、プロセッサ101は、出来事データCが第2項に出現しているときの第1項の集合と出来事データCが第1項に出現しているときの第2項の集合を求め、これらの集合の直積集合を計算する。図6の例では、直積集合は、{(B,D)}である。この直積集合の要素のそれぞれが新たな関係データにおける第1項の出来事データと第2項の出来事データに相当する。
直積集合を求めた後、プロセッサ101は、新たな関係データにおけるホップ数を計算する。例えば、第1項が出来事データAであり、第2項が出来事データCである関係データにおけるホップ数は2である。同様に、第1項が出来事データBであり、第2項が出来事データDである関係データにおけるホップ数は2である。
さらに、プロセッサ101は、新たな関係データにおける関係の強さを計算する。関係の強さは、例えば関係元となった2つの関係データにおける関係の強さの積や最小値等で決められてもよい。図6の例では、第1項が出来事データAであり、第2項が出来事データCである関係データにおける関係の強さは1である。同様に、第1項が出来事データBであり、第2項が出来事データDである関係データにおける関係の強さは1である。なお、新たな関係データにおける関係の強さγは、関係元となった2つの関係データにおける関係の強さα、β又は関係元となった関係の強さα及びβから算出された関係の強さに適当な減衰度を乗じることで算出されてもよい。減衰度は、例えばホップ数によって決められてよい。このように、新たな関係データにおける関係の強さF3は、関係元となった2つの関係データにおける関係の強さF1、F2に対して所定の関数fによる演算を施すことによって計算されてよい。
ここで、図3の説明に戻る。ステップS7において、プロセッサ101は、ホップ数が閾値以下である新たな関係データがあるか否かを判定する。例えば新たな関係データがホップ数m(mは自然数)の関係データとホップ数n(nは自然数)の関係データとから生成されるとしたとき、閾値はMAX(m,n)+1であり得る。ステップS7において、ホップ数が閾値以下である新たな関係データがないと判定されたとき、図3の処理は終了する。この場合、新たな関係データは例えばストレージ106に記憶されない。このようなホップ数の制限が設けられている理由は、余りにも大きなホップ数を有する出来事同士の間には真に推移関係があるかが疑わしいためである。なお、ホップ数の制限に代えて、前述の減衰度によって関係の強さが閾値を下回ったときには、対応する関係データがストレージ106に記憶されないように構成されてもよい。ステップS7において、ホップ数が閾値以下である新たな関係データがあると判定されたとき、処理はステップS8に移行する。
ステップS8において、プロセッサ101は、新たに生成した関係データを例えばストレージ106に記憶させる。その後、処理はステップS5に戻る。この場合、新たに生成した関係データも含めて同様の処理が繰り返される。図6の例では、R(A,C)及びR(B,D)の関係データが新たに追加される。このため、再度のステップS5-S6の処理により、第1項が出来事データAであり、第2項が出来事データDである新たな関係データが生成される。この新たな関係データのホップ数は3である。したがって、この新たな関係データも例えばストレージ106に記憶される。
以上説明したように第1の実施形態では、文書データから抽出される出来事データX、Y、Zについて、出来事データXと出来事データYとの間に推移性がある関係データが抽出され、かつ、出来事データYが出来事データZに対して推移性があることを示す関係データが抽出されるときに、出来事データXが出来事データZに対して関係を有していることを示す新たな関係データが生成される。
文書データにおいて抽出される出来事同士の推移関係が考慮されて新たな関係が生成されるので、出来事同士の関係として成立し得る関係データが生成されやすい。つまり、第1の実施形態で新たに生成される関係データは、正例になりやすい。このような関係データが機械学習に用いられることにより、正例と負例の不均衡が抑えられ、出来事同士の関係が正しく学習され得る。
ここで、実施形態では出来事データXと出来事データYとの間に推移性があることを示す関係データが抽出され、かつ、出来事データYが出来事データZに対して推移性があることを示す関係データが抽出されるときには自動的に出来事データXが出来事データZに対して関係を有していることを示す新たな関係データが生成されるとされている。この場合、特にホップ数が大きくなると出来事データXが出来事データZとの間に真に推移性があるかは疑わしくなる。これに対し、実施形態では出来事データXと出来事データYとの間に推移性があることを示す関係データが抽出され、かつ、出来事データYが出来事データZに対して推移性があることを示す関係データが抽出された場合であって、さらに出来事データXと出来事データYとの間の類似性が高いときだけ、出来事データXが出来事データZに対して関係を有していることを示す新たな関係データが生成されてもよい。このような処理により、より負例が生成される可能性が低減される。なお、類似性については、第2の実施形態において詳しく説明する。
[第2の実施形態]
第2の実施形態を説明する。第1の実施形態は、同一の文書データ内で抽出された出来事データに基づいて新たな関係データが生成される。ここで、出来事の表現が異なるだけでほぼ同一の推移関係を表している文書データも存在し得る。
図7は、第2の実施形態に係るデータ処理装置の一例の構成を示す図である。データ処理装置1は、入力部11と、抽出部12と、関係データ生成部13と、類似性算出部14とを有する。第1の実施形態と同様に、プロセッサ101は、例えばストレージ106に記憶されているプログラムを実行することによって、入力部11と、抽出部12と、関係データ生成部13と、類似性算出部14として動作する。ここで、第2の実施形態において第1の実施形態と同様の構成及び動作については適宜に説明を省略又は簡略化する。
入力部11と抽出部12とは第1の実施形態と同様である。第2の実施形態における関係データ生成部13は、第1の実施形態と同様に1つの文書データ1から抽出される出来事データを用いて新たな関係データを生成する。さらに、第2の実施形態における関係データ生成部13は、別の文書データ2から抽出される文書データ1と類似の表現の出来事データを用いて新たな関係データを生成する。
類似性算出部14は、出来事データ同士の類似性を算出する。類似性は、例えば0から1の値を有する。例えば、類似性の値が高いほどに、対応する出来事データが類似していることを意味する。類似性算出部14は、例えば出来事データを数値化、すなわちベクトル化し、ベクトルで表現された出来事データ同士のコサイン類似度を出来事データ同士の類似性として算出する。
ベクトル化は、例えばTF-IDF(Term Frequency-Inverse Document Frequency)値を利用することで行われ得る。類似性算出部14は、抽出部12で求められたそれぞれの形態素の集合が出現している出来事の頻度をDF値として数える。このDF値の逆数がIDF値である。また、類似性算出部14は、ストレージ106に記憶されている関係データ毎のそれぞれの形態素の出現頻度をTF値として数える。そして、類似性算出部14は、それぞれの形態素についてTF値とIDF値との積をTF-IDF値として求める。出来事データに含まれるTF-IDF値の集合により、出来事データがベクトルによって表現され得る。
また、ベクトル化は、BERT(Bidirectional Encoder Representations from Transformers)等の事前学習済み深層学習モデルを用いて行われてもよい。この場合、それぞれの出来事データに含まれる形態素がBERTモデルに入力されることで出来事データがベクトルによって表現され得る。このように、出来事データのベクトル化は、類似性算出部14において類似性を算出できれば任意の手法に基づいて行われてよい。
次に第2の実施形態におけるデータ処理装置1の動作を、具体例を交えながら説明する。図8は、データ処理装置1によるデータ処理方法としての関係データの生成の動作を示すフローチャートである。図8の処理は、プロセッサ101によって実行される。ここで、図8の処理に先立って文書データ1としての図4に示した文書データについて実施形態の処理が行われているものとする。したがって、ストレージ106には、図5で示した関係データ及びこの関係データに基づいて新たに生成された関係データがすでに記憶されている。
ステップS101において、プロセッサ101は、別の文書データである文書データ2を取得する。文書データ2は、ユーザによって入力され得る。ユーザは、例えば入力装置103を操作して文書データ2を入力する。
ステップS102において、プロセッサ101は、文書データ2から出来事データを抽出する。プロセッサ101は、例えば形態素解析によって出来事データを抽出する。例えば、文書データ2から、図9に示す4つの出来事データA´、B´、E、Fが抽出されたとする。
ステップS103において、プロセッサ101は、抽出した出来事データから関係データを生成する。例えば、文書データ2から図10に示す関係データが生成されたとする。
ステップS104において、プロセッサ101は、文書データ1から生成された関係データと文書データ2から生成された関係データの類似性を算出する。例えば、図11に示すように、出来事データAと出来事データA´、出来事データBと出来事データB´はそれぞれ高い類似性を有していたとする。
ステップS105において、プロセッサ101は、類似性の高い関係データがあるか否かを判定する。プロセッサ101は、文書データ1から生成された第1項の出来事データと文書データ2から生成された第1項の出来事データ、文書データ1から生成された第2項の出来事データと文書データ2から生成された第2項の出来事データをそれぞれ比較して少なくとも一方の類似性が閾値、例えば0.80以上である関係データがあるときに類似性の高い関係データがあると判定する。ステップS105において、類似性の高い関係データがあると判定されたときには、処理はステップS106に移行する。ステップS105において、類似性の高い関係データがないと判定されたときには、図8の処理は終了する。
ステップS106において、プロセッサ101は、類似性の高い関係データに含まれる第1項と第2の出来事データに基づいて新たな関係データを生成する。例えば、プロセッサ101は、類似性の高い第1項の出来事データ同士を同じ出来事データとみなし、また、類似性の高い第2項の出来事データ同士を同じ出来事データとみなして第1の実施形態と同様に新たな関係データを生成する。例えば、出来事データAと出来事データA´、出来事データBと出来事データB´が類似しているとする。このとき、第1項に出現している出来事データと第2項の出来事データとに共通して出現している出来事データとして、第1の実施形態の例の出来事データBと出来事データCに加えて出来事データB´が新たに存在する。類似性が高い出来事データBと出来事データB´とを同一とみなして出来事データB又はB´が第2項に出現しているときの第1項の集合を求めると、第1項の集合は{A、A´}である。同様に、出来事データB又はB´が第1項に出現しているときの第2項の集合を求めると、第2項の集合は{C}である。したがって、これらの集合の直積集合は、{(A、C)、(A´、C)}である。このため、R(A´,C)というホップ数2の関係データが新たに生成される。ここで、新たな関係データにおける関係の強さは、第1の実施形態と同様に例えば関係元となった2つの関係データにおける関係の強さの積や最小値等で決められてよい。さらに、第2の実施形態においては、新たな関係データにおける関係の強さは、類似性に応じた係数が乗じられることで算出されてもよい。
ステップS107において、プロセッサ101は、新たに生成した関係データを例えばストレージ106に記憶させる。その後、図8の処理は終了する。第1の実施形態と同様に、新たに生成した関係データも含めて同様の処理が繰り返されてもよい。この場合には、第1の実施形態と同様に、採用される関係データには、ホップ数の制限が設けられることが好ましい。
以上説明したように第2の実施形態では、別の文書データから抽出される表現が異なるだけで類似の関係を表す関係データが考慮されて新たな関係データが生成される。これにより、正例をより増やすことができる。
また、ある文書には「水が漏れたので酸が発生し、そのせいで錆が発生した」と記載されていて、別の文書では「水が漏れたので錆が発生した」と記載されていたといったように出来事が記載される際の粒度が異なっているようなことがよくある。第2の実施形態では、これらの粒度の異なる2つの文書データのどちらからでも原因=水が漏れた、結果=錆が発生した、という関係データが生成され得る。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
11 入力部、12 抽出部、13 関係データ生成部、14 類似性算出部、101 プロセッサ、102 メモリ、103 入力装置、104 表示装置、105 通信装置、106 ストレージ、107 バス。

Claims (9)

  1. 入力された第1の文書データから、第1の出来事データと、第2の出来事データと、第3の出来事データとを抽出する抽出部と、
    前記第1の出来事データと前記第2の出来事データとの間に推移性があることを示す第1の関係データが抽出され、前記第2の出来事データと前記第3の出来事データとの間に推移性があることを示す第2の関係データが抽出されたとき、前記第1の出来事データと前記第3の出来事データに関係があることを示す第3の関係データを生成する関係データ生成部と、
    を具備するデータ処理装置。
  2. 前記関係データ生成部は、前記第1の出来事データと前記第3の出来事データとの間の関係の強さを示す第3の強さデータをさらに前記第3の関係データに含める、
    請求項1に記載のデータ処理装置。
  3. 前記関係データ生成部は、
    前記第1の出来事データと前記第2の出来事データとの間の関係の強さを示す第1の強さデータと、前記第2の出来事データと前記第3の出来事データとの間の関係の強さを示す第2の強さデータとに基づいて前記第3の強さデータを生成する、
    請求項2に記載のデータ処理装置。
  4. 出来事の間の類似性を算出する類似性算出部をさらに具備し、
    前記関係データ生成部は、前記第1の出来事データと前記第2の出来事データとの類似性が閾値以上であるときに、前記第3の関係データを生成する、
    請求項1乃至3の何れか1項に記載のデータ処理装置。
  5. 前記抽出部は、入力された第2の文書データから、第4の出来事データと第5の出来事データとをさらに抽出し、
    前記関係データ生成部は、前記第4の出来事データと前記第5の出来事データとの間に推移性があることを示す第4の関係データが抽出され、かつ、前記第2の出来事データと前記第4の出来事データとの類似性が閾値以上であるときに、前記第1の出来事データと前記第5の出来事データとの間に関係があることを示す第5の関係データを生成する、
    請求項4に記載のデータ処理装置。
  6. 前記抽出部は、入力された第2の文書データから、第6の出来事データと第7の出来事データをさらに抽出し、
    前記関係データ生成部は、
    前記第6の出来事データと前記第7の出来事データとの間に推移性があることを示す第6の関係データが抽出され、かつ、前記第1の出来事データと前記第6の出来事データとの類似性が閾値以上であるときに、前記第1の出来事データと前記第7の出来事データとの間に関係があることを示す第7の関係データと前記第6の出来事データと前記第2の出来事データとの間に関係があることを示す第8の関係データの一方又は両方を生成する、
    請求項4又は5に記載のデータ処理装置。
  7. 前記関係データ生成部は、
    前記第1の出来事データと前記第3の出来事データとの間の関係の距離を表すホップ数を算出し、
    前記ホップ数が所定値を超えるときには、前記第3の関係データを採用しない、
    請求項1乃至6の何れか1項に記載のデータ処理装置。
  8. 抽出部において、入力された第1の文書データから、第1の出来事データと、第2の出来事データと、第3の出来事データとを抽出する抽出部と、
    関係データ生成部において、前記第1の出来事データと前記第2の出来事データとの間に推移性があることを示す第1の関係データが抽出され、前記第2の出来事データと前記第3の出来事データとの間に推移性があることを示す第2の関係データが抽出されたとき、前記第1の出来事データと前記第3の出来事データに関係があることを示す第3の関係データを生成することと、
    を具備するデータ処理方法。
  9. 抽出部において、入力された第1の文書データから、第1の出来事データと、第2の出来事データと、第3の出来事データとを抽出する抽出部と、
    関係データ生成部において、前記第1の出来事データと前記第2の出来事データとの間に推移性があることを示す第1の関係データが抽出され、前記第2の出来事データと前記第3の出来事データとの間に推移性があることを示す第2の関係データが抽出されたとき、前記第1の出来事データと前記第3の出来事データに関係があることを示す第3の関係データを生成することと、
    をプロセッサに実行させるためのデータ処理プログラム。
JP2021019078A 2021-02-09 2021-02-09 データ処理装置、データ処理方法及びデータ処理プログラム Pending JP2022122029A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021019078A JP2022122029A (ja) 2021-02-09 2021-02-09 データ処理装置、データ処理方法及びデータ処理プログラム
US17/462,470 US11886936B2 (en) 2021-02-09 2021-08-31 Data processing apparatus, data processing method, and storage medium storing therein data processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021019078A JP2022122029A (ja) 2021-02-09 2021-02-09 データ処理装置、データ処理方法及びデータ処理プログラム

Publications (1)

Publication Number Publication Date
JP2022122029A true JP2022122029A (ja) 2022-08-22

Family

ID=82703809

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021019078A Pending JP2022122029A (ja) 2021-02-09 2021-02-09 データ処理装置、データ処理方法及びデータ処理プログラム

Country Status (2)

Country Link
US (1) US11886936B2 (ja)
JP (1) JP2022122029A (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060009966A1 (en) * 2004-07-12 2006-01-12 International Business Machines Corporation Method and system for extracting information from unstructured text using symbolic machine learning
JP2008226168A (ja) * 2007-03-15 2008-09-25 Omron Corp 因果推論装置、その制御プログラムおよび制御方法
JP2009289020A (ja) * 2008-05-29 2009-12-10 Omron Corp Ft図作成プログラム、ft図作成装置、記録媒体及びft図作成方法
JP2017037544A (ja) * 2015-08-12 2017-02-16 国立研究開発法人情報通信研究機構 未来シナリオ生成装置及び方法、並びにコンピュータプログラム
WO2017104657A1 (ja) * 2015-12-14 2017-06-22 日本電気株式会社 情報処理装置、情報処理方法、及び、記録媒体
JP2018055142A (ja) * 2016-09-26 2018-04-05 国立研究開発法人情報通信研究機構 シナリオパッセージ分類器、シナリオ分類器、及びそのためのコンピュータプログラム
JP2020160867A (ja) * 2019-03-27 2020-10-01 三菱ロジスネクスト株式会社 Ft図生成装置、トラブルシューティング用フロー図生成装置およびプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010026900A1 (ja) * 2008-09-03 2010-03-11 日本電気株式会社 関係性発見装置、関係性発見方法および記録媒体
EP2915068A4 (en) * 2012-11-02 2016-08-03 Fido Labs Inc METHOD AND SYSTEM FOR NATURAL LANGUAGE PROCESSING
US20140372102A1 (en) * 2013-06-18 2014-12-18 Xerox Corporation Combining temporal processing and textual entailment to detect temporally anchored events
JP6602243B2 (ja) * 2016-03-16 2019-11-06 株式会社東芝 学習装置、方法、及びプログラム
US11132541B2 (en) * 2017-09-29 2021-09-28 The Mitre Corporation Systems and method for generating event timelines using human language technology
JP6965206B2 (ja) 2018-05-09 2021-11-10 株式会社東芝 クラスタリング装置、クラスタリング方法およびプログラム
JP7362424B2 (ja) 2019-10-29 2023-10-17 株式会社東芝 情報処理装置、情報処理方法、および情報処理システム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060009966A1 (en) * 2004-07-12 2006-01-12 International Business Machines Corporation Method and system for extracting information from unstructured text using symbolic machine learning
JP2008226168A (ja) * 2007-03-15 2008-09-25 Omron Corp 因果推論装置、その制御プログラムおよび制御方法
JP2009289020A (ja) * 2008-05-29 2009-12-10 Omron Corp Ft図作成プログラム、ft図作成装置、記録媒体及びft図作成方法
JP2017037544A (ja) * 2015-08-12 2017-02-16 国立研究開発法人情報通信研究機構 未来シナリオ生成装置及び方法、並びにコンピュータプログラム
WO2017104657A1 (ja) * 2015-12-14 2017-06-22 日本電気株式会社 情報処理装置、情報処理方法、及び、記録媒体
JP2018055142A (ja) * 2016-09-26 2018-04-05 国立研究開発法人情報通信研究機構 シナリオパッセージ分類器、シナリオ分類器、及びそのためのコンピュータプログラム
JP2020160867A (ja) * 2019-03-27 2020-10-01 三菱ロジスネクスト株式会社 Ft図生成装置、トラブルシューティング用フロー図生成装置およびプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
内藤 稔、外2名: "エンティティ間の類似関係取得のためのWikipedia事象モデル構築手法に関する考察", 第4回データ工学と情報マネジメントに関するフォーラム論文集 (第10回日本データベース学会年次大会), JPN6023047138, 30 August 2012 (2012-08-30), JP, pages 1 - 6, ISSN: 0005200914 *
旭 直人、外3名: "比較文集約に基づくエンティティ刊の順序関係推定による補完エンティティの発見", 情報処理学会論文誌, vol. 第52巻,第12号, JPN6015041637, 15 December 2011 (2011-12-15), JP, pages 3527 - 3541, ISSN: 0005200915 *

Also Published As

Publication number Publication date
US11886936B2 (en) 2024-01-30
US20220253346A1 (en) 2022-08-11

Similar Documents

Publication Publication Date Title
US10706084B2 (en) Method and device for parsing question in knowledge base
US9727637B2 (en) Retrieving text from a corpus of documents in an information handling system
US9740685B2 (en) Generation of natural language processing model for an information domain
US9318027B2 (en) Caching natural language questions and results in a question and answer system
US10339453B2 (en) Automatically generating test/training questions and answers through pattern based analysis and natural language processing techniques on the given corpus for quick domain adaptation
US20140163951A1 (en) Hybrid adaptation of named entity recognition
US10275454B2 (en) Identifying salient terms for passage justification in a question answering system
US20120262461A1 (en) System and Method for the Normalization of Text
US9342561B2 (en) Creating and using titles in untitled documents to answer questions
US20190317986A1 (en) Annotated text data expanding method, annotated text data expanding computer-readable storage medium, annotated text data expanding device, and text classification model training method
Slocum How one might automatically identify and adapt to a sublanguage: An initial exploration
JP5331023B2 (ja) 重要語抽出装置、重要語抽出方法及び重要語抽出プログラム
JP2009217689A (ja) 情報処理装置、情報処理方法、及びプログラム
Korbak et al. Energy-based models for code generation under compilability constraints
US9146918B2 (en) Compressing data for natural language processing
JP2022122029A (ja) データ処理装置、データ処理方法及びデータ処理プログラム
KR102519955B1 (ko) 토픽 키워드의 추출 장치 및 방법
JP5106431B2 (ja) 機械翻訳装置、プログラム及び方法
JP4478042B2 (ja) 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置
Arcan et al. Otto-ontology translation system
Mammadov et al. Part-of-speech tagging for azerbaijani language
US20200004784A1 (en) Index generation method, data retrieval method, apparatus of index generation
JP2020046909A (ja) 学習装置、抽出装置及び学習方法
Anagnostopoulou et al. Putting Humans in the Image Captioning Loop
JP2024049674A (ja) 情報処理装置、情報処理方法、及びプログラム

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20230105

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231016

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231121

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20240119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240318