JP2023074259A - 文書処理プログラム、文書処理装置、及び文書処理方法 - Google Patents
文書処理プログラム、文書処理装置、及び文書処理方法 Download PDFInfo
- Publication number
- JP2023074259A JP2023074259A JP2021187120A JP2021187120A JP2023074259A JP 2023074259 A JP2023074259 A JP 2023074259A JP 2021187120 A JP2021187120 A JP 2021187120A JP 2021187120 A JP2021187120 A JP 2021187120A JP 2023074259 A JP2023074259 A JP 2023074259A
- Authority
- JP
- Japan
- Prior art keywords
- case
- cases
- search
- unit
- viewpoint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 37
- 238000003672 processing method Methods 0.000 title abstract description 4
- 230000014509 gene expression Effects 0.000 claims abstract description 149
- 238000004458 analytical method Methods 0.000 claims abstract description 45
- 230000006870 function Effects 0.000 claims description 19
- 238000000034 method Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 7
- 150000001875 compounds Chemical class 0.000 description 15
- 238000010586 diagram Methods 0.000 description 15
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 230000015654 memory Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 239000003607 modifier Substances 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】アノテーション仕様に反映すべき観点に応じて、適切なテキストを提示し、妥当性の高いアノテーション仕様を容易に作成できるようにした文書処理プログラム、文書処理装置及び文書処理方法を提供する。【解決手段】文書処理装置30は、入力された文を解析して、文に含まれる予め定義された固有表現分類それぞれに対応する対象表現及び対象表現それぞれの文法的役割を示す表現種別を含む解析結果を生成する文解析部31と、解析結果に含まれる表現種別について、アノテーション仕様に反映すべき観点に対応する事例の検索ルールを、表現種別に対する観点に基づいて決定する検索ルール決定部32と、複数の事例を含む事例集合から、観点ごとに検索ルールに該当する事例を検索する事例検索部33と、事例集合から検索された事例を出力する出力部36と、を含む。【選択図】図2
Description
本発明は、アノテーション仕様の作成に好適な文書処理プログラム、文書処理装置、及び文書処理方法に関する。
AI(Artificial Intelligence)(人工知能)における機械学習では、実用的な精度で使うために適切な内容の大量の学習データが必要となる。学習データの作成は、通常、人手によるアノテーションの作業が必要となる。アノテーションでは、学習の対象とするデータに対して、データの内容を識別するためのメタデータが付与される。学習対象とするデータがテキストデータ(文章)の場合、例えば、テキストから部位と事象の表現を抽出するためのメタデータを付与する。「油圧ユニットから油漏れ」のテキストの場合、部位が「油圧ユニット」で、事象が「油漏れ」である旨のメタデータが付与される。
アノテーションは、複数の作業者によって行われるため、アノテーション結果にばらつきが生じないように、アノテーション仕様が定められている。また、単独の作業者によりアノテーションが行われる場合でも、時間の経過とともに、アノテーション結果にばらつきが生じる場合があり、アノテーション仕様を定めることは有益である。作業者は、アノテーション仕様に従ってアノテーションを実施する。従って、アノテーション仕様の質が、学習データの質に影響する。アノテーション仕様の質が低下する要因の一つに、仕様の曖昧性がある。曖昧性があると、アノテーション結果にばらつきが生じ、学習データの質が低下する。
以下、テキストデータに対して、アノテーションを行うことを想定する。特にテキストから固有表現抽出をする場合のアノテーションを想定する。
曖昧性の少ないアノテーション仕様を作成するためには、アノテーション対象とするテキストを曖昧性の発生要因となる観点で検索し、該当するテキストの有無を確認しながら行うのが望ましい。
しかし、アノテーション仕様を作成する際に、曖昧性の発生要因となる観点を網羅的に考慮することは難しい。また、曖昧性の発生要因となる観点がわかっている場合においても、アノテーション対象のテキストから、該当する事例を見つけるのも、手間と時間がかかる。さらに、該当する事例の多寡の確認も難しい。
従来では、既存の学習データに対して各種のルールを適用することにより、学習データを拡張する発明が開示されている(例えば、特許文献1参照)。そこでは、学習データの拡張に、内部的に保持するルールやデータを適用する手法を用いている。
しかしながら、従来の手法では、内部的に保持するルールの適用により拡張された学習データが、実際にアノテーション対象のテキストに含まれているかは定かでないし、含まれていたとしても、アノテーション対象テキストに占める割合は不明である。
アノテーション仕様を作成する際には、アノテーション対象のテキストに実際に含まれている表現、特に大きな割合を占める表現に基づき決定するのが望ましい。含まれていない表現に関してアノテーション仕様を決めても時間の無駄である。
特に、語彙に関しては、アノテーション対象テキストに実際に含まれている表現に基づき、アノテーション仕様を決めないと、アノテーション仕様に起因する仕様の曖昧性の解消に繋がらない。
このように、妥当性の高いアノテーション仕様を作成するためには、実際のアノテーション対象のテキストの表現に起因するアノテーション仕様の曖昧性を少なくすることが必要であるが、アノテーション対象テキストを様々な観点で確認し、アノテーション仕様に反映するには、手間や時間などコストがかっていた。
単に、アノテーション対象テキストとは無関係に決められた規則等で、学習データの例文を拡張するのみでは、アノテーション仕様の曖昧性を解消することはできない。
本発明が解決しようとする課題は、アノテーション仕様に反映すべき観点に基づく適切なテキストを提示し、妥当性の高いアノテーション仕様を容易に作成できるようにした文書処理プログラム、文書処理装置、及び文書処理方法を提供することである。
実施形態によれば、文書処理プログラムは、コンピュータを、入力された文を解析して、前記文に含まれる予め定義された固有表現分類のそれぞれに対応する対象表現、及び前記対象表現それぞれの文法的役割を示す表現種別を含む解析結果を生成する文解析部と、前記解析結果に含まれる前記表現種別について、アノテーション仕様に反映すべき観点に対応する事例の検索ルールを、前記表現種別に対する観点に基づいて決定する検索ルール決定部と、複数の事例を含む事例集合から、前記観点ごとに前記検索ルールに該当する事例を検索する事例検索部と、前記事例集合から検索された事例を出力する出力部として機能させる。
以下、実施形態について図面を参照して説明する。
図1は、本実施形態における文書処理装置10を用いるシステムの構成を示すブロック図である。図1に示すシステムにおいて、文書処理装置10は、インターネット等のネットワーク12を通じて、サーバ14や各種の電子機器と通信して、各種データを送受信することができる。
本実施形態における文書処理装置10は、例えばパーソナルコンピュータ等のコンピュータによって実現される。図1に示すように、文書処理装置10は、プロセッサ20、メモリ21、記憶装置24、入力ユニット25、表示ユニット26、及び通信ユニット29を有する。
プロセッサ20は、記憶装置24からメモリ21に読み出された各種プログラム(ソフトウェア)を実行することにより各種の機能を実現する。例えば、プロセッサ20は、メモリ21に記憶されたOS(Operating System)やアプリケーションプログラムなどの各種プログラム(ソフトウェア)を実行して、各種機能を実現する。例えば、プロセッサ20は、文書処理プログラム21aを実行して、アノテーション対象テキストをもとに、アノテーション仕様を作成する際の曖昧性を把握することができる情報を出力するための文書処理機能を実現する。すなわち、文書処理機能では、アノテーション仕様に含まれている例文を入力し、この例文をもとにアノテーション仕様に反映すべき観点に応じた、アノテーション仕様の作成の参考となる適切なテキスト(事例)を提示する。これにより、アノテーション仕様を作成する労力を軽減し、効率的にアノテーション仕様を検討できるようにする。
メモリ21は、プロセッサ20により実行されるプログラムやデータを記憶する。
記憶装置24は、OS(Operating System)やアプリケーションプログラムなどの各種プログラム(ソフトウェア)やプログラムの実行に必要なデータなどを、不揮発性の記憶媒体において記憶する。
記憶装置24に記憶されるデータは、例えば入力文データ24a、解析結果データ24b、検索ルールデータ24c、表現種別観点データ24d、決定ルールデータ24e、事例集合データ24f、事例検索結果データ24g、アノテーション情報データ24h、頻度データ24j、検索結果データ24k、参照履歴データ24mを含む。各データの詳細については後述する。
入力ユニット25は、プロセッサ20の制御のもとで、ユーザにより操作される入力デバイス(例えば、キーボード、マウス、タブレット等)からの入力を制御する。
表示ユニット26は、プロセッサ20の制御のもとで、LCD(Liquid Crystal Display)等のディスプレイにおける表示を制御する。
通信ユニット29は、ネットワーク12を通じて、サーバ14や電子機器との通信を制御する。
なお、文書処理装置10は、ハードウェア構成、又はハードウェア資源とソフトウェア(プログラム)との組合せ構成のいずれでも実施可能である。ソフトウェアは、予めネットワーク12又は非一時的なコンピュータ読み取り可能な記憶媒体からコンピュータにインストールされ、当該コンピュータのプロセッサ20に実行されることにより、各装置の機能を当該コンピュータに実行させる。
なお、本実施形態では、文書処理装置10において、文書処理プログラム21aに基づく文書処理機能を実行して、アノテーション仕様の作成に好適な情報を出力するとしているが、サーバ14において文書処理機能を実行させるようにしても良い。
この場合、サーバ14は、文書処理プログラム21aと同様の文書処理機能を実現させる文書処理プログラム14aをプロセッサにより実行して文書処理機能を実現する。文書処理装置10は、サーバ14に対して文書処理機能による処理の実行を要求し、その処理結果とする情報を受信して出力(表示ユニット26における表示)する。
サーバ14における処理対象とするデータは、文書処理装置10から提供しても良いし、ネットワーク12を介して接続されたWebサイト(テキストデータベース)等から取得されるようにしても良い。
図2は、本実施形態における文書処理装置10において、プロセッサ20が文書処理プログラム21aを実行することにより実現される文書処理機能30の構成を示すブロック図である。文書処理プログラム21aは、文書処理装置10を、文解析部31、検索ルール決定部32、事例検索部33、アノテーション情報生成部34、頻度算出部35、出力部36、参照履歴登録部37、検索ルール記憶部41、事例集合記憶部42、参照履歴記憶部43として機能させることができる。
文解析部31は、入力された入力文データ24a(例文51)に対して、例えば形態素解析、構文解析、意味解析等の解析を実行して、解析結果データ24bを出力する。例えば、文解析部31は、入力文データ24a(例文51)が示すテキストに含まれる部位と、事象のそれぞれに対応する対象表現、及び対象表現それぞれの文法的役割を示す表現種別を含む解析結果を生成して、解析結果データ24bを出力する(図4(B)参照)。
入力文データ24aは、例えば、アノテーション仕様に含まれている例文のテキストデータである。入力文データ24aには、例えば、例文51を示すテキストと、テキストから抽出すべき対象表現と、この対象表現の意味クラス(部位、事象)の情報が含まれており(図4(A)参照)、文解析部31による解析により判別される。ここで、「対象表現」とは、入力となったアノテーション仕様のサンプルテキストにおいて、アノテーションされている表現を意味する。
解析結果データ24bは、例えば、入力文データ24a(例文51)に含まれる、少なくとも意味クラスが示す部位と事象のそれぞれに対応する対象表現と、それぞれの対象表現の表現種別を示すデータが含まれる(図4(B)参照)。
検索ルール決定部32は、文解析部31による文解析の解析結果に基づき、アノテーション仕様に反映すべき観点に対応する事例を検索するための検索ルールを決定する。すなわち、検索ルール決定部32は、事例集合記憶部42に記憶された複数の事例(テキスト)を含む事例集合(事例集合データ24f)から事例を検索するための検索ルールを、予め用意された複数の検索ルールを含む検索ルールデータ24cから決定し、この決定した検索ルールを示す決定ルールデータ24eを生成する。検索ルール決定部32は、文解析部31による解析により得られた例文51に含まれる対象表現に対応する表現種別のそれぞれについて、関係する観点を示す表現種別観点データ24d(図6(B)参照)を参照し、表現種別観点データ24dが示す観点毎の検索ルールを決定する。対象表現毎の観点に対応して決定した検索ルールを決定ルールデータ24eとする。
検索ルール記憶部41は、アノテーション仕様に反映すべき複数の観点のそれぞれに対応する検索ルールが定義された検索ルールデータ24cが記憶されている(図5参照)。
事例検索部33は、検索ルール決定部32によって決定された検索ルールを使用して、事例集合記憶部42に記憶された事例集合(事例集合データ24f)から、決定ルールデータ24eが示す検索ルールに該当する事例を検索して、事例検索結果データ24gとして記憶させる(図7(C)、図8(C)参照)。
事例集合記憶部42に記憶された事例集合(事例集合データ24f)は、アノテーション対象のテキストが含まれている。
また、事例検索部33は、参照履歴記憶部43に記憶された参照履歴をもとに、事例集合から検索される事例を制限する。参照履歴記憶部43に記憶された参照履歴には、事例集合記憶部42に記憶された事例集合のうち、事例検索部33による検索結果として出力対象としない事例を示す情報を含む。
アノテーション情報生成部34は、事例検索部33によって検索された事例(事例検索結果データ24g)に対して、観点に応じて、アノテーション情報(アノテーション情報データ24h)を生成する。アノテーション情報には、例えば事例検索部33により検索された事例と、事例に含まれる部位の表現の候補と、事象の表現の候補を示す情報を含む。また、アノテーション情報生成部34は、事例検索部33により事例集合(事例集合データ24f)から検索された事例について、事例に含まれる対象表現(表現種別)に対応する観点に応じた手法を用いて、対象表現(部位、事象)を変更した情報を含むアノテーション情報を生成することができる(図10~図12参照)。アノテーション情報は、検索結果として出力され、検索された事例をアノテーション仕様に反映する際の参考にすることができる。
頻度算出部35は、事例検索部33によって検索される事例の頻度を、検索に用いた検索ルールに対応する観点毎に算出して、頻度データ24jを出力する。
出力部36は、事例検索部33により検索される事例(事例検索結果データ24g)、アノテーション情報生成部34により生成されるアノテーション情報(アノテーション情報データ24h)、頻度算出部35により算出された頻度(頻度データ24j)等の全て、あるいは一部を含む検索結果(検索結果データ24k)を出力する。出力部36は、出力対象とするデータについて、適切にソートやフィルタリングをして出力する。出力部36は、検索結果の出力形態として、例えば、記憶装置24への予め決められたフォーマットによるデータファイルによる記録、表示ユニット26における表示、通信ユニット29を介した外部機器への送信などを含む。
参照履歴登録部37は、事例集合に含まれる事例のうち出力対象外とする事例を示す参照履歴データ24mを、ユーザによる入力ユニット25に対する操作に応じて、参照履歴記憶部43に記憶させる。参照履歴記憶部43に記憶される参照履歴データ24mには、文書処理機能30により過去に出力された検索結果52に含まれた事例であって、アノテーション仕様に反映済みとしてユーザによって指定された事例を示す参照履歴53を含む。また、参照履歴データ24mには、アノテーション仕様に反映不要として、ユーザの指定によって指定された事例を含む。事例検索部33は、参照履歴登録部37により参照履歴記憶部43に記憶された参照履歴データ24mが示す事例を、事例集合から検索された事例から除くように処理する。
次に、本実施形態における文書処理装置10の動作について、図3に示すフローチャートを参照しながら説明する。
以下では、部位と事象の2つの意味クラスに関する固有表現抽出のアノテーションを想定した、アノテーション仕様の作成に好適な例文の出力を例にして説明する。なお、本実施例では、部位と事象の2種類の意味クラスを想定しているが、意味クラスの種類や数はこれに限らず、任意の種類と任意の数の意味クラスで利用できる。
文書処理装置10のプロセッサ20は、文書処理プログラム21aを実行することにより文書処理機能30を起動する。
まず、プロセッサ20(文解析部31)は、例えば、ユーザによる入力デバイスに対する操作によって、入力ユニット25を通じて、入力文データ24a(例文51)が入力される(ステップA1)。ここでは、例えば、アノテーション仕様に含まれている例文51を解析の対象とする。
また、プロセッサ20は、入力された入力文データ24a(例文51)に対して文解析を実行して、例文51に含まれる対象表現に対応する表現種別を取得する(ステップA2)。文解析には、テキストの文字列に加えて、アノテートされている表現(対象表現)を用いる。
図4(A)は、入力文データ24a(例文51)が示す入力文の一例を示している。図4(A)に示す入力文「ハンドルが動かない」に対して文解析することにより、対象表現「ハンドル」、対象表現「動かない」のそれぞれについて、文法的役割を示す表現種別を判別する。
図4(B)は、例文51の解析結果とする各対象表現に対する表現種別の一例を示す図である。
例えば、対象表現「ハンドル」の表現種別「名詞句」、対象表現「動かない」の表現種別「用言」が判別されたことを示している。
次に、プロセッサ20(検索ルール決定部32)は、文解析の解析結果に基づいて、アノテーション仕様に反映すべき観点に対応する事例の検索ルールを決定する(ステップA3)。検索ルール記憶部41には、アノテーション仕様に反映すべき複数の観点のそれぞれに対応する検索ルールが定義された検索ルールデータ24cが記憶されており、この中から例文51に対する解析結果に応じた検索ルールを選択する。
図5は、検索ルール記憶部41に記憶された検索ルール(検索ルールデータ24c)の一例を示す図である。
図5に示すように、検索ルールデータ24cでは、アノテーション仕様に反映すべき複数の観点として、例えば「語彙共通」「語彙が一部共通」「語順を変えたもの」…などが設定され、それぞれの観点に対応する検索ルールが定義されている。例えば、観点「語彙共通」に対しては、「対象表現を含む事例」の検索ルールが設定されている。
まず、プロセッサ20は、検索ルールデータ24cから例文51の解析結果に応じた検索ルールを選択するため、文解析部31による解析により得られた例文51に含まれる対象表現に対応する表現種別のそれぞれについて、関係する観点を示す表現種別観点データ24dを生成する。なお、表現種別に関係する観点は、文解析によって解析される複数の表現種別のそれぞれに応じて特定される。
図6は、検索ルールの決定を説明するための図である。
図6(A)は、図4(A)に示す例文51に対する解析結果(図4(B))を示し、図6(B)は、図6(A)に示す解析結果に対応する表現種別観点データ24dの一例を示している。図6(B)に示すように、表現種別観点データ24dには、図6(A)に示す解析結果の対象表現に対する表現種別のそれぞれに対応する観点が設定されている。
例えば、対象表現「ハンドル」に対する表現種別「名詞句」には、「名詞句」に関係する複数の観点「語彙共通」「語彙が一部共通」「複合語の言い換え」「複合語」…「数量」が設定されている。同様にして、対象表現「動かない」の表現種別「用言」、および全ての表現種別について、関係する観点が設定されている。
プロセッサ20は、表現種別観点データ24dが示す観点毎の検索ルールを検索ルールデータ24c(図5)から選択し、事例集合から事例を検索するための具体的な検索ルールを決定し、対象表現毎の観点に対応して決定した検索ルールを決定ルールデータ24eとする。
例えば、表現種別観点データ24dが示す表現種別「名詞句」に関係する観点「語彙共通」については、図5に示す検索ルール「対象表現を含む事例」が選択され、この検索ルール「対象表現を含む事例」をもとに、「対象表現」を「ハンドル」に変更した具体的な検索ルール「ハンドルを含む事例」が決定される。
図6(C)には、例文51に含まれる複数の対象表現のそれぞれに対応する、観点毎の具体的な検索ルールの一例を示している。
プロセッサ20は、図6(C)に示すように、複数の対象表現のそれぞれについて、表示種別に対応する観点に応じて検索ルールを検索ルール記憶部41(検索ルールデータ24c)から選択し、具体的な検索ルールを決定して、決定ルールデータ24eを生成する。
次に、プロセッサ20は、複数の対象表現のそれぞれについて決定された具体的な決定ルールと、参照履歴記憶部43に予め記憶された参照履歴データ24mに基づいて、事例集合記憶部42に記憶された事例集合(事例集合データ24f)から検索ルールに対応する事例を検索する(ステップA4)。
図7は、対象表現「ハンドル」「ハンドル,動かない」についての事例集合の検索結果の一例を示す図である。
プロセッサ20は、図7(B)に示す、対象表現「ハンドル」「ハンドル,動かない」の観点ごとの具体的な検索ルールを用いて、図7(A)に示す事例集合から検索ルールに該当する事例を検索する。
図7(C)は、対象表現「ハンドル」「ハンドル,動かない」の観点毎の検索結果を示している。
図7(C1)は、対象表現「ハンドル」の観点「語彙共通」の検索ルール「ハンドルを含む事例」による検索結果の一例を示しており、例えば事例「ハンドルが壊れた」「ハンドルが動かなくなり、操作不能」「ハンドルが折損」が検索されたことを示している。
図7(C1)に示すように、観点「語彙共通」の検索ルールによって検索された複数の「ハンドル」を含む事例は、対象表現「ハンドル」に対応する事象が複数あるテキストに対して、適切なアノテーションができるようにするための、アノテーション仕様の作成の参考にすることができる。
図7(C2)は、対象表現「ハンドル,動かない」の観点「語順を変えたもの」の検索ルール「ハンドル,動かないの出現順番を変えた事例」による検索結果の一例を示しており、例えば事例「車が動かない,ハンドルが効かない」が検索されたことを示している。
図7(C2)に示すように、観点「語順を変えたもの」の検索ルールによって検索された事例は、対象表現に該当する単語が、入力となった例文とは異なる順番で出現するテキストに対して、適切なアノテーションができるようにするための、アノテーション仕様の作成の参考にすることができる。
図7(C3)は、対象表現「ハンドル」の観点「複合語」の検索ルール「ハンドルを含む複合語を含む事例」による検索結果の一例を示している。観点「複合語」については「前」「後」「前後」の場合があり、それぞれについて、例えば事例「ドアハンドルが動かない」、「ハンドルレバーが動かない」、「前輪ハンドルレバーが動かない」が検索されたことを示している。
図7(C3)に示すように、観点「複合語」の検索ルールによって検索された事例は、複合語を含むテキストに対して、複合語全体を一つの表現とするか、「前」「後」「前後」をそれぞれに含む/含まない等を判断し、適切なアノテーションができるようにするための、アノテーション仕様の作成の参考にすることができる。
図7(C4)は、対象表現「ハンドル」の観点「接辞」の検索ルール「ハンドルに、接頭辞と接尾辞を付与した事例」による検索結果の一例を示している。観点「接辞」については「接頭」「接尾」の場合があり、それぞれについて、例えば事例(接頭)「当該ハンドルが壊れた」「各ハンドルが壊れた」、事例(接尾)「ハンドル等が損傷」が検索されたことを示している。
図7(C4)に示すように、観点「接辞」の検索ルールによって検索された事例は、接辞を含むテキストに対して、「接頭」あるいは「接尾」を含む接辞全体を一つの表現とするか、「接頭」「接尾」をそれぞれに含む/含まない等を判断し、適切なアノテーションができるようにするための、アノテーション仕様の作成の参考にすることができる。
図7(C5)は、対象表現「ハンドル」の観点「修飾」の検索ルール「ハンドルに対する修飾語句を伴った表現を含む事例」による検索結果の一例を示している。例えば事例「右側のハンドルが動かない」、事例「修理されたハンドルが動かない」が検索されたことを示している。
図7(C5)に示すように、観点「修飾」の検索ルールによって検索された事例は、対象表現に修飾語句が付されたテキストに対して、修飾部を含む/含まない等を判断し、適切なアノテーションができるようにするための、アノテーション仕様の作成の参考にすることができる。
図7(C6)は、対象表現「ハンドル」の観点「文字種の異なり」の検索ルール「ハンドルの文字種を変えた表現を含む事例」による検索結果の一例を示している。観点「文字種の異なり」については「全角ひらがな」「半角カタカナ」などの場合があり、例えば「はんどる」あるいは半角カタカナの「ハンドル」を含む事例が検索されたことを示している。
図7(C6)に示すように、観点「文字種の異なり」の検索ルールによって検索された事例は、同じ意味をもつ文字種が異なる表現について、適切なアノテーションができるようにするための、アノテーション仕様の作成の参考にすることができる。
同様にして、プロセッサ20は、対象表現「ハンドル」「ハンドル,動かない」の観点ごとの具体的な検索ルールを用いて、事例集合から検索ルールに該当する事例を検索する。詳細な説明については省略する。
図8は、対象表現「動かない」についての事例集合の検索結果の一例を示す図である。
プロセッサ20は、図8(B)に示す、対象表現「動かない」の観点ごとの具体的な検索ルールを用いて、図8(A)に示す事例集合から検索ルールに該当する事例を検索する。
図8(C)は、対象表現「動かない」の観点毎の検索結果を示している。
図8(C1)は、対象表現「動かない」の観点「語彙共通」の検索ルール「動かないを含む事例」による検索結果の一例を示しており、例えば事例「車が動かない」「車両が動かない」「ワイパーが動かない」「メーターが動かない」が検索されたことを示している。
図8(C2)は、対象表現「動かない」の観点「修飾」の検索ルール「動かないに対する修飾語句を伴った表現を含む事例」による検索結果の一例を示している。観点「修飾」について、例えば事例「ハンドルが全く動かない」、事例「時々ハンドルが動かない」が検索されたことを示している。
図8(C3)は、対象表現「動かない」の観点「用言の変形」の検索ルール「動かないの末尾を変形した表現を含む事例」による検索結果の一例を示している。観点「用言の変形」について、例えば事例「ハンドルが動く」、「ハンドルが動かないようだ」、「ハンドルが動かせない」、「ハンドルが動いていない」、「ハンドルが動かなかった」等が検索されたことを示している。
図8(C4)は、対象表現「動かない」の観点「文字種の異なり」の検索ルール「動かないの文字種を変えた表現を含む事例」による検索結果の一例を示している。観点「文字種の異なり」については「全角ひらがな」などの場合があり、例えば事例「ハンドルがうごかない」が検索されたことを示している。
同様にして、プロセッサ20は、対象表現「動かない」の観点ごとの具体的な検索ルールを用いて、事例集合から検索ルールに該当する事例を検索する。詳細な説明については省略する。
こうして、対象表現「動かない」についても観点ごとの具体的な検索ルールを用いて、事例集合から検索ルールに該当する事例を検索することで、前述した対象表現「ハンドル」に対応する観点ごとに検索された事例と同様に、観点ごとのアノテーション仕様の作成の参考にすることができる。
なお、事例検索部33は、検索ルールを使用して、事例集合記憶部42に記憶された事例集合から、参照履歴記憶部43に記憶された参照履歴データ24mをもとに、事例集合から検索される事例を制限する。
参照履歴記憶部43には、予めアノテーション仕様に反映済みとしてユーザによって指定された事例、あるいはアノテーション仕様に反映不要として、ユーザの指定によって指定された事例を示す参照履歴データ24mが記憶されている。
こうして、事例集合から検索される事例を事例検索部33により制限することで、次の処理において実行される、アノテーション仕様の作成に不要なアノテーション情報の作成を回避することができる。
次に、プロセッサ20(アノテーション情報生成部34)は、事例検索部33によって検索された事例(事例検索結果データ24g)に対して、各対象表現の観点に応じて定まるルールに基づいて、アノテーション情報(アノテーション情報データ24h)を生成する(ステップA5)。アノテーション情報には、例えば事例検索部33により検索された事例と、事例に含まれる部位の表現と、事象の表現とを示す情報とを含む。プロセッサ20は、事例を検索した検索ルールの観点に応じた方法によって、部位と事象の候補とする対象表現を推定する。
事例集合記憶部42に記憶された事例集合(事例集合データ24f)は、事例毎に、事例(テキスト)と、検索ルールの観点の情報を含む。プロセッサ20は、事例および検索ルールの観点の情報をもとにして、アノテーション情報の「部位」「事象」の候補とする対象表現を推定する。
例えば、観点「語彙共通」の場合には、例文51(入力文データ24a)の対象表現と共通する、事例に含まれる対象表現を、例文51の対象表現の意味クラス(「部位」あるいは「事象」)と対応させる。また、事例に含まれる他の自立語を例文51の対象表現と異なる意味クラス(「事象」あるいは「部位」)と対応させる。
図9は、検索された事例に対して生成されるアノテーション情報の一例を示す図である。図9(A)は、対象表現「ハンドル」の観点「語彙共通」の検索ルールにより検索された事例の一例を示し、図9(B)は、図9(A)に示す事例に対するアノテーション情報を示している。
例えば、図9(A)に示す検索された事例「ハンドルが壊れた」に対するアノテーション情報には、図9(B)に示すように、事例検索部33により検索された事例「ハンドルが壊れた」と、事例に含まれる対象表現に対する部位「ハンドル」と、事象の候補「壊れた」とを示す情報とを含む。
また、図9(A)に示す事例「ハンドルが動かなくなり、操作不能」については、図9(B)に示すように、部位「ハンドル」と、複数の事象の候補「動かなく」「操作不能」が推定される。
このように、事例に複数の事象を含む場合であっても、各事象の対象表現を推定してアノテーション情報を得ることができるので、アノテーション仕様の作成時の検討を容易にすることができる。
また、プロセッサ20(アノテーション情報生成部34)は、事例検索部33により事例集合から検索された事例について、観点に基づいて、対象表現(「部位」「事象」)を変更した情報を含むアノテーション情報を生成することができる。
図10、図11、図12は、対象表現を変更した情報を含むアノテーション情報の一例を示す図である。
図10(A)は、対象表現「動かない」に対する観点「用言の変形」の検索ルールにより検索された事例の一例を示している。
この場合、図10(B)に示すように、観点「用言の変形」に応じて、事象に対応する対象表現の候補を複数提示している。例えば、事例「ハンドルが動かなかった」のうち、事象に相当する対象表現を「動かなかった」と「動かな」の2通りの候補を提示している。
この処理は、例えば、用言を変形した結果の「動かなかった」という表現を形態素解析し、活用語尾を含めた表現と、活用語尾を含めない表現の2通りを出力する手法を用いることにより、実施できる。
このように、観点「用言の変形」の場合、表現対象の単語に活用(語形変化)があるため、表現対象に変形があることを示す観点の検索ルールによって検索された事例について、活用により変化する部分を含む/含まない表現対象を推定したアノテーション情報を生成することができる。
図11(A)は、対象表現「動かない」に対する観点「語彙共通」の検索ルールにより検索された事例の一例を示している。
この場合、図11(B)に示すように、部位に相当する対象表現は、それぞれの事例から推定され、例えば「車」「車両」「ワイパー」「メーター」などが存在している。この場合、既存のオントロジーがあれば、「ハンドル」に対する上位概念か否かの情報も付加して出すことができる。
図12(A)は、対象表現「ハンドル」に対する観点「複合語」の検索ルールにより検索された事例の一例を示している。図12(A)に示すように、観点「複合語」の「前」「後」「前後」のそれぞれに対応する事例が検索されている。
この場合、図12(B)に示すように、複合語を構成する全ての形態素の全体を一つの対象表現とするように、観点「複合語」の「前」「後」「前後」のそれぞれに応じて部位に相当する対象表現を推定するとともに、検索の際に用いた対象表現の前後の形態素を個別の対象表現として推定する。例えば観点「複合語」の「前」については、「ハンドル」の「前」にある「ドア」を含めた「ドアハンドル」を対象表現として推定するとともに、前にある「ドア」と「ハンドル」を個別の対象表現として推定している。
このように、観点「複合語」の場合、表現対象の単語に複数の形態素を含むため、複合語全体あるいは複合語に含まれる形態素毎に表現対象を推定したアノテーション情報を生成することができる。
こうして、事例集合から検索された事例に対して、複数の異なるアノテーション情報を生成して、アノテーション仕様の作成時に参照できる情報のバリエーションを増やすことが可能となる。
次に、プロセッサ20(頻度算出部35)は、各対象表現の観点毎に、検索ルールを用いて検索された事例の頻度(事例数)を算出して、頻度データ24jとして記憶させる(ステップA6)。
次に、プロセッサ20(出力部36)は、アノテーション情報生成部34により生成されるアノテーション情報(アノテーション情報データ24h)、及び頻度算出部35により算出された頻度(頻度データ24j)を検索結果として出力する。
このようにして、本実施形態における文書処理装置10は、アノテーション対象のテキストを含む事例集合から、アノテーション仕様に反映すべき観点に応じて、適切な事例(テキスト)が検索され、アノテーション情報として提示されるので、この事例を参照することで、アノテーション仕様の検討の負担が軽減されると共に、妥当性の高いアノテーション仕様の作成を容易に作成できる。
また、頻度データ24jを参照することでアノテーション仕様に追加すべきか否かを判断することができるので、優先して検討すべき観点が効率的に把握できるという効果がある。
また、アノテーション仕様における曖昧性が、実際のアノテーション対象の事例に基づき、具体的に把握できるので、アノテーション仕様を作成する労力が低減されるという効果がある。
なお、前述した説明では、日本語のテキストに対するアノテーションを想定した場合について説明しているが、英語などの他の言語によるテキストに対するアノテーションを想定したアノテーション仕様作成に利用することも可能である。
また、本実施形態では、固有表現抽出の具体例として、部位、事象という意味クラスを用いて説明したが、これに限らず、任意の意味クラスに対するアノテーション仕様の作成に利用することができる。また、意味クラスの数も2つに限らず1以上の任意の数の意味クラスに対して、アノテーション仕様の作成に利用することができる。
また、実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD-ROM、DVDなど)、光磁気ディスク(MO)、半導体メモリなどの記憶媒体に格納して頒布することもできる。
また、記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であっても良い。
また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワークソフト等のMW(ミドルウェア)等が上記実施形態を実現するための各処理の一部を実行しても良い。
さらに、実施形態における記憶媒体は、コンピュータと独立した媒体に限らず、LANやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。
また、記憶媒体は1つに限らず、複数の媒体から上記の各実施形態における処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であっても良い。
なお、実施形態におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、実施形態における各処理を実行するものであって、パーソナルコンピュータ等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であっても良い。
また、実施形態におけるコンピュータとは、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。
なお、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
10…文書処理装置、12…ネットワーク、14…サーバ、20…プロセッサ、21…メモリ、21a…文書処理プログラム、24…記憶装置、24a…入力文データ、24b…解析結果データ、24c…検索ルールデータ、24d…表現種別観点データ、24e…決定ルールデータ、24f…事例集合データ、24g…事例検索結果データ、24h…アノテーション情報データ、24j…頻度データ、24k…検索結果データ、24m…参照履歴データ、25…入力ユニット、26…表示ユニット、29…通信ユニット、31…文解析部、32…検索ルール決定部、33…事例検索部、34…アノテーション情報生成部、35…頻度算出部、36…出力部、37…参照履歴登録部、41…検索ルール記憶部、42…事例集合記憶部、43…参照履歴記憶部。
Claims (8)
- コンピュータを、
入力された文を解析して、前記文に含まれる予め定義された固有表現分類それぞれに対応する対象表現、及び前記対象表現それぞれの文法的役割を示す表現種別を含む解析結果を生成する文解析部と、
前記解析結果に含まれる前記表現種別について、アノテーション仕様に反映すべき観点に対応する事例の検索ルールを、前記表現種別に対する観点に基づいて決定する検索ルール決定部と、
複数の事例を含む事例集合から、前記観点ごとに前記検索ルールに該当する事例を検索する事例検索部と、
前記事例集合から検索された事例を出力する出力部として機能させるための文書処理プログラム。 - 前記固有表現分類は、部位と事象であることを特徴とする請求項1記載の文書処理プログラム。
- コンピュータを、
前記事例検索部により検索された事例の頻度を前記観点ごとに算出する頻度算出部としてさらに機能させ、
前記出力部に、前記事例と共に前記頻度を出力させるように機能させる、請求項1または2に記載の文書処理プログラム。 - コンピュータを、
前記事例検索部により検索された事例と、前記事例に含まれる対象表現に対する部位と、この部位に対する事象とを示す情報を含むアノテーション情報を生成するアノテーション情報生成部としてさらに機能させ、
前記出力部に、前記アノテーション情報を出力させるように機能させる、請求項1乃至請求項3の何れかに記載の文書処理プログラム。 - コンピュータを、
前記事例集合に含まれる事例のうち出力対象外とする事例を示すデータを記憶させる登録部としてさらに機能させ、
前記事例検索部に、前記登録部によって記録されたデータが示す事例を、前記事例集合から検索された事例から除くように機能させる、請求項1乃至請求項4の何れかに記載の文書処理プログラム。 - コンピュータを、
前記アノテーション情報生成部に、前記事例検索部により検索された事例について、前記観点に基づいて、前記対象表現を変更した情報を含むアノテーション情報を生成させるように機能させる、請求項4記載の文書処理プログラム。 - 入力された文を解析して、前記文に含まれる予め定義された固有表現分類それぞれに対応する対象表現、及び前記対象表現それぞれの文法的役割を示す表現種別を含む解析結果を生成する文解析部と、
前記解析結果に含まれる前記表現種別について、アノテーション仕様に反映すべき観点に対応する事例の検索ルールを、前記表現種別に対する観点に基づいて決定する検索ルール決定部と、
複数の事例を含む事例集合から、前記観点ごとに前記検索ルールに該当する事例を検索する事例検索部と、
前記事例集合から検索された事例を出力する出力部と
を有する文書処理装置。 - 入力された文を解析して、前記文に含まれる予め定義された固有表現分類それぞれに対応する対象表現、及び前記対象表現それぞれの文法的役割を示す表現種別を含む解析結果を生成する文解析工程、
前記解析結果に含まれる前記表現種別について、アノテーション仕様に反映すべき観点に対応する事例の検索ルールを、前記表現種別に対する観点に基づいて決定する検索ルール決定工程と、
複数の事例を含む事例集合から、前記観点ごとに前記検索ルールに該当する事例を検索する事例検索工程と、
前記事例集合から検索された事例を出力する出力工程と
を有する文書処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021187120A JP2023074259A (ja) | 2021-11-17 | 2021-11-17 | 文書処理プログラム、文書処理装置、及び文書処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021187120A JP2023074259A (ja) | 2021-11-17 | 2021-11-17 | 文書処理プログラム、文書処理装置、及び文書処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023074259A true JP2023074259A (ja) | 2023-05-29 |
Family
ID=86537690
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021187120A Pending JP2023074259A (ja) | 2021-11-17 | 2021-11-17 | 文書処理プログラム、文書処理装置、及び文書処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023074259A (ja) |
-
2021
- 2021-11-17 JP JP2021187120A patent/JP2023074259A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chauhan et al. | A comprehensive analysis of adverb types for mining user sentiments on amazon product reviews | |
US11170181B2 (en) | Document preparation with argumentation support from a deep question answering system | |
JP5697202B2 (ja) | 用語の対応を見出す方法、プログラム及びシステム | |
US20100262621A1 (en) | In-context exact (ice) matching | |
US11023654B2 (en) | Analyzing document content and generating an appendix | |
CA3207902A1 (en) | Auditing citations in a textual document | |
Heilmann et al. | Shorter than a text, longer than a sentence: Source text length for ecologically valid translation experiments | |
JP2015060458A (ja) | 機械翻訳装置、方法、及びプログラム | |
Eldin et al. | An enhanced opinion retrieval approach on Arabic text for customer requirements expansion | |
JP2012113459A (ja) | 用例翻訳システム、用例翻訳方法及び用例翻訳プログラム | |
Gupta et al. | Improving translation memory matching and retrieval using paraphrases | |
JP4361299B2 (ja) | 評価表現抽出装置、プログラム、及び記憶媒体 | |
Torjmen et al. | Morphological aanalyzer for the Tunisian dialect | |
JP2023074259A (ja) | 文書処理プログラム、文書処理装置、及び文書処理方法 | |
Lapeña et al. | Improving traceability links recovery in process models through an ontological expansion of requirements | |
Schacht et al. | Promptie-information extraction with prompt-engineering and large language models | |
JP5025603B2 (ja) | 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法 | |
Murauer et al. | Generating cross-domain text classification corpora from social media comments | |
Han et al. | A Method for Extracting Lexicon for Sentiment Analysis Based on Morphological Sentence Patterns | |
Dori et al. | SMART: System model acquisition from requirements text | |
Wali et al. | Using sentence similarity measure for plagiarism detection of Arabic documents | |
JP6907703B2 (ja) | 解析装置、解析方法、および解析プログラム | |
US11947926B2 (en) | Discourse-level text optimization based on artificial intelligence planning | |
JP7312841B2 (ja) | 法律分析装置、及び法律分析方法 | |
Eger | Designing and comparing G2P-type lemmatizers for a morphology-rich language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20230111 |