JP2020098594A - 情報処理方法、自然言語処理方法及び情報処理装置 - Google Patents

情報処理方法、自然言語処理方法及び情報処理装置 Download PDF

Info

Publication number
JP2020098594A
JP2020098594A JP2019222030A JP2019222030A JP2020098594A JP 2020098594 A JP2020098594 A JP 2020098594A JP 2019222030 A JP2019222030 A JP 2019222030A JP 2019222030 A JP2019222030 A JP 2019222030A JP 2020098594 A JP2020098594 A JP 2020098594A
Authority
JP
Japan
Prior art keywords
named entity
document
processing method
information processing
labeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019222030A
Other languages
English (en)
Inventor
マ・ジュヌ
Jun Ma
遥 孟
Yao Meng
遥 孟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2020098594A publication Critical patent/JP2020098594A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ドキュメントから名前付きエンティティを抽出し、ラベリングする情報処理方法、自然言語処理方法及び情報処理装置を提供する。【解決手段】情報処理方法は、所定ドキュメントのドキュメント類型に関する構造的特徴及びコンテキスト情報に基づいて、所定ドキュメントにおける名前付きエンティティを抽出する。ドキュメント類型は、法律文書、新聞報道又は文芸評論を含み、ネーミングツールを用いて、所定ドキュメントにおける名前付きエンティティをラベリングする。名前付きエンティティは、人名、地名、機構名、時間、日付、映画・テレビドラマのタイトル、本のタイトル又は歌・曲のタイトルを含み、抽出された抽出結果に基づいて、ネーミングツールのラベリング結果を改善する。【選択図】図1

Description

本発明は、情報処理分野に関し、特に、名前付きエンティティを認識又はラベリング(ラベル付け)するための情報処理方法、名前付きエンティティを用いてモデルを認識し、目標ドキュメントを処理する自然言語処理方法、及びこのような情報処理方法及び/又は自然言語処理方法を実現し得る情報処理装置に関する。
名前付きエンティティ認識とは、ドキュメントから特定類型の事物名称又は符号を認識するプロセスを指す。多くの分野におけるドキュメント(例えば、法律文書、新聞報道、文芸評論など)に人名、地名などのような名前付きエンティティが頻繁に出現し、また、これらのドキュメントから名前付きエンティティを後続の処理のために認識又はラベリングするニーズも存在する。
しかし、名前付きエンティティを構成する語彙が多種多様であるため、列挙又は帰納の方式で全ての名前付きエンティティを所定の集合に含めることが難しい。また、名前付きエンティティの長さも固定したものでないため、その認識に更なる困難を持たせることがある。
よって、名前付きエンティティを有効に認識又はラベリングし得る方法が望ましい。
従来の名前付きエンティティの処理の正確性を改善するニーズに応えるために、本発明の目的の1つは、より正確な名前付きエンティティの認識又はラベリングを実現することができる、名前付きエンティティを認識又はラベリングする情報処理方法、名前付きエンティティを用いてモデルを認識し、目標ドキュメントを処理する自然言語処理方法、及びこのような情報処理方法及び/又は自然言語処理方法を実現し得る情報処理装置を提供することにある。
本発明の第一側面によれば、情報処理方法が提供され、それは、類型ドキュメント(所定ドキュメント)のドキュメント類型に関する構造的特徴及びコンテキスト情報に基づいて、類型ドキュメント中の名前付きエンティティを抽出し、そのうち、ドキュメント類型は、法律文書、新聞報道又は文芸評論を含み;ネーミング(命名)ツールを用いて、類型ドキュメント中の名前付きエンティティをラベリングし、そのうち、名前付きエンティティは、人名、地名、機構名、時間、日付、映画・テレビドラマのタイトル、本のタイトル、又は歌・曲のタイトルを含み;及び、抽出された結果に基づいて、ネーミングツールのラベリング結果を改善することを含む。
本発明の第二側面によれば、自然言語処理方法が提供され、それは、本発明の第一側面に記載の情報処理方法により得られた名前付きエンティティを用いてモデルを認識し、目標ドキュメント中の名前付きエンティティを認識し;所定の名前付きエンティティにより、認識された目標ドキュメント中の名前付きエンティティを置換し;単語分割ツールを用いて、置換後の目標ドキュメントに対して単語分割を行い;単語分割後の目標ドキュメント中で、所定の名前付きエンティティを置換前の対応する名前付きエンティティに回復することを含む。
本発明の第三側面によれば、情報処理装置が提供され、それは、処理器を含み、前記処理器は、類型ドキュメントのドキュメント類型に関する構造的特徴及びコンテキスト情報に基づいて、類型ドキュメント中の名前付きエンティティを抽出し、そのうち、ドキュメント類型は、法律文書、新聞報道又は文芸評論を含み;ネーミングツールを用いて、類型ドキュメント中の名前付きエンティティをラベリングし、そのうち、名前付きエンティティは、人名、地名、機構名、時間、日付、映画・テレビドラマのタイトル、本のタイトル、又は歌・曲のタイトルを含み;及び、抽出された結果に基づいて、ネーミングツールのラベリング結果を改善するように構成される。
本発明の第四側面によれば、コンピュータに、上述のような情報処理方法又は自然言語処理方法を実行させるためのプログラムが提供される。
本発明の第五側面によれば、対応する記憶媒体がさらに提供され、その中には、マシン可読指令コードが記憶されており、前記指令コードは、マシンにより読み取られて実行されるときに、マシン(例えば、コンピュータ)に、上述のような情報処理方法又は自然言語処理方法を実行指せることができる。
本発明の各側面によれば、少なくとも次のような効果を得ることができ、即ち、本発明による情報処理方法、自然言語処理方法、情報処理装置、プログラム及び記憶媒体を用いることで、類型ドキュメント中の名前付きエンティティを正確に認識し、後続のドキュメントに対する各種の処理(例えば、単語分割処理、情報検索など)の精度を向上させることができる。
本発明の実施例における情報処理方法のフローチャートである。 本発明の実施例における情報処理方法の好ましい一例のフローチャートである。 本発明の実施例における自然言語処理方法のフローチャートである。 図3に示す自然言語処理方法を用いて処理を行う一例の説明図である。 本発明の実施例における情報処理装置の例示的な構成を示すブロック図である。 本発明の実施例における情報処理装置の好ましい一例の構造を示すブロック図である。 本発明の実施例における自然言語処理装置の例示的な構成を示すブロック図である。 本発明の実施例における情報処理方法、装置及び自然言語処理方法、装置を実現し得るハードウェア構成を示す図である。
以下、添付した図面を参照しながら、本発明を実施するための好適な形態を詳細に説明する。なお、このような実施形態は、例示に過ぎず、本発明を限定するものでない。
本発明の第一側面によれば、情報処理方法が提供される。図1は、本発明の実施例における情報処理方法の例示的なフローチャートである。
図1に示すように、情報処理方法100は、以下のようなステップを含んでも良い。
名前付きエンティティ抽出ステップS101:類型ドキュメント(所定ドキュメント)のドキュメント類型に関する構造的特徴及びコンテキスト情報に基づいて、類型ドキュメント中の名前付きエンティティを抽出し、そのうち、ドキュメント類型は、法律文書、新聞報道又は文芸評論を含み;
名前付きエンティティラベリングステップS103:ネーミング(命名)ツールを用いて、類型ドキュメント中の名前付きエンティティをラベリング(ラベル付け)し、そのうち、名前付きエンティティは、人名、地名、機構名、時間、日付、映画・テレビドラマのタイトル、本のタイトル、又は歌・曲のタイトルを含み;
結果改善ステップS105:抽出された結果に基づいて、ネーミングツールのラベリング結果を改善する。
発明者が次のようなことを発見した。即ち、法律文書、新聞報道、文芸評論などのような類型のドキュメントには、一般的に、その類型に関する構造的特徴及び典型的なコンテキストがあり、即ち、その中に、しばしば、人名、地名、機構名、時間、日付、映画・テレビドラマのタイトル、本のタイトル、歌・曲のタイトルなどの、通常、正確に認識し難い名前付きエンティティが出現する。よって、本実施例の情報処理方法では、一方で、類型ドキュメントの構造的特徴及びコンテキスト情報を用いて、これらの名前付きエンティティを抽出し、他方で、ネーミングツールを用いて、名前付きエンティティに対してラベル付けを行う。その後、両方の処理結果を結合(combine)することにより、名前付きエンティティに対しての認識又はラベリングの結果を改善することができる。よって、本発明は、名前付きエンティティの認識又はラベリングの正確性の向上に有利である。
以下、主に法律文書をドキュメント類型の例とし、人名を名前付きエンティティの例とすることで、各実施例の具体的な説明を行う。しかし、当業者が理解すべきは、本発明の各実施例は、同様に、各種の類型ドキュメント中の各種の名前付きエンティティに適用することもできるということであり、ここでは、その詳しい説明を省略する。
法律文書を類型ドキュメントの例とすると、まず、情報処理方法100における名前付きエンティティ抽出ステップS101では、該類型ドキュメントの利用可能な構造的特徴及びコンテキスト情報は、内容分布、段落配置(レイアウト)、様式指定語句、固定パターン記述などを含んでも良い。
より具体的には、例えば、判決書(例えば、中国の判決書)のような法律文書の典型的な構造は、序文、本文、結論という3つの部分を含み、各部分が規定の内容及び様式を有する。判決書の序文を例とすると、それは、順に、(1)タイトル、(2)案件番号、(3)当事者など及びその情報、(4)訴因及び審理経過という4つの部分を含む。最上方が第(1)部分“タイトル”であり、それは、2行からなり、それぞれ、裁判所の名称及び文書の種類(例えば、“民事判決書”など)であり、タイトルの右下が第(2)部分“案件番号”である。案件番号の下方が第(3)部分“当事者など及びその情報”であり、一般的に、原告(個人又は法人)情報、原告代理人情報、被告(個人又は法人)情報、被告代理人情報などをこの順に含む。その次は、第(4)部分“訴因及び審理経過”である。
上述の序文の第(3)部分では、厳格に規定する様式指定語句及び段落配置があり、特定の位置及びコンテキストに原告、被告などとしての名前付きエンティティが含まれる。原告が個人である場合、序文の第(3)部分の原告情報には、順に、その氏名、性別、年齢、民族、出身地、勤め先、職業、住所などが含まれ、原告が法人である場合、原告情報には、順に法人の全称(完全な名称)(即ち、機構名)及び所在地が含まれ、且つ、もう1つの行が設けられ、その中には、法人代表の氏名及び職務が記載される。被告情報の部分及び原告情報の部分は、類似した構造を有し、原告又は被告代理人情報の部分も、対応する規範構造を有する。
よって、名前付きエンティティ抽出ステップS101では、処理対象としてのドキュメントが例えば上述の判決書であるときに、該ドキュメントの構造的特徴に基づいて、判決書の序文の第(3)部分における“原告情報”又は“被告情報”の部分から、原告又は被告の氏名(又は機構名)を抽出することができる。また、該ドキュメントのコンテキスト情報をさらに考慮して、例えば、“当事者(原告/被告など)+氏名+性別”(例えば、“被告+張大山+男”)のような固定パターン記述から、当事者と性別との間の文字(“張大山”)を人名として抽出することもできる。
また、名前付きエンティティ抽出ステップS101では、さらに、法律文書のもう1つの構造的特徴、即ち、原告又は被告のような名前付きエンティティがドキュメント中で重複して出現する回数を考慮しても良い。例えば、上述の判決書の序文の第(3)部分における“原告情報”、“被告情報”の部分以外に、序文の第(4)部分“訴因及び審理経過”及びその後の本文中の“事実”、“理由”、“経過”などの各部分にも、原告及び被告の氏名又は機構名が重複して出現する可能性がある。よって、判決書の序文における“原告情報”又は“被告情報”の部分から抽出した原告及び被告の氏名又は機構名を候選名前付きエンティティとし、抽出した候選人名又は機構名がドキュメント全体に出現する回数を統計し、そして、出現する回数が所定閾値(例えば、4回)を超えた候選氏名又は機構名のみをステップS101で最終的に抽出される名前付きエンティティとすることができる。なお、所定閾値の具体的な値について、処理対象としての類型ドキュメントの具体的な類型による統計データに基づいて適切に選択しても良いから、ここでは、その詳しい説明を省略する。
続いて、名前付きエンティティラベリングステップS103では、ネーミングツールを用いて、処理待ちの類型ドキュメント中の名前付きエンティティをラベリングし、そのうち、名前付きエンティティは、上述のような人名、地名、機構名、時間、日付、映画・テレビドラマのタイトル、本のタイトル、又は歌・曲のタイトルなどを含んでも良い。
一例として、名前付きエンティティラベリングステップS103で採用されるネーミングツールが、従来の自然言語処理ツールパッケージにより提供されても良い。例えば、既存のOpenSourceツール、例えば、Stanford CoreNLP(自然言語処理ツールの1つであり、スタンフォード大学がオープンソース(GPL3)で公開している)などを採用して、上述のステップS103中の名前付きエンティティに対してのラベリング(ラベル付け)を行うことができる。
続いて、結果改善ステップS105では、名前付きエンティティ抽出ステップS101で抽出された抽出結果に基づいて、名前付きエンティティラベリングステップS103によるネーミングツールのラベリング結果を改善することができる。
一例として、結果改善ステップS105では、次のような条件を満たす名前付きエンティティを選択してネーミングツールのラベリング結果を更新することができ、即ち、名前付きエンティティが抽出結果及びネーミングツールのラベリング結果の両者に出現すること(第一条件)、及び/又は、名前付きエンティティが抽出結果又はネーミングツールのラベリング結果に出現する頻度が所定頻度を超えること(第二条件)である。ここで、上述の第一条件及び第二条件を同時に又はそれぞれ使用することで、異なる方式で最終改善後のラベリング結果を得ることができる。なお、所定頻度の具体的な値について、処理待ちの類型ドキュメントの具体的な類型による統計データに基づいて適切に選択しても良いので、ここでは、その詳しい説明を省略する。
本実施例における情報処理方法により、例えば、上述の例示的なフローチャート100におけるステップS101-S105により、類型ドキュメント中の名前付きエンティティに対して正確なラベリングを行うことができ、このようなラベリング結果は、各種の後続処理に有効に利用するである。
続いて、図2を参照しながら、本発明の実施例における情報処理方法の好適な実施例のフローチャートを説明する。該好適な実施例では、図1のフローチャート100により得られた名前付きエンティティの正確なラベリング結果を利用している。
図2は、本発明の実施例における情報処理方法の好適な実施例の例示的なフローチャートを示す。図2に示すように、この好適な実施例に係る情報処理方法200と、図1の情報処理方法100との相違点は、情報処理方法200が、ステップS101-S105にそれぞれ対応する名前付きエンティティ抽出ステップS201、名前付きエンティティラベリングステップS203、結果改善ステップS205の他に、モデル訓練ステップS207をさらに含むことにある。モデル訓練ステップS207では、改善後のラベリング結果を訓練データとして用いることで、名前付きエンティティ認識モデルを訓練する。また、上述の相違点以外に、この好適な実施例における情報処理方法200の他のステップS201-S205は、図1の情報処理方法100の対応するステップS101-S105と同様である。よって、以下、図1の情報処理方法100についての記述をもとに、この好適な実施例における情報処理方法200を説明する。
図1の例示的なフローチャートについての説明に述べたように、本発明の実施例における情報処理方法により、結果改善ステップで類型ドキュメント中の名前付きエンティティの正確なラベリング結果を得ることができ、このようなラベリング結果は、各種の後続処理に有利である。よって、図2に示す情報処理方法200では、結果改善ステップS205の後のモデル訓練ステップS207において、結果改善ステップS205で2種類の名前付きエンティティの認識又はラベリング処理の結果を結合して得られたラベリング結果を訓練コーパスとして用いることで、名前付きエンティティ認識モデルを訓練することができる。それ相応に、この好適な実施例における情報処理方法では、簡単且つ有効な方式で提供される正確にラベリングされた訓練コーパスを用いて訓練を行うことで、訓練により得られる名前付きエンティティ認識モデルのパフォーマンス(例えば、認識の正確性など)を改善することができる。
一例として、モデル訓練ステップS207で訓練される名前付きエンティティ認識モデルは、条件付き確率場(Conditional random field、CRF)に基づくシーケンスラベリングモデル(Sequence labeling model)を含んでも良い。例えば、該名前付きエンティティ認識モデルは、条件付き確率場に基づくシーケンスラベリングモデルを用いて、訓練により得られる、文字に基づく人名認識モデル(PNRM)である。
なお、上述の条件付き確率場に基づくシーケンスラベリングモデルは、この好適な実施例における名前付きエンティティ認識モデルの一例に過ぎず、本発明は、これに限られない。当業者が理解すべきは、この分野における既知の任意の適切なモデルを名前付きエンティティ認識モデルとして採用しても良く、例えば、Bi-LSTMモデル、BiLSTM-CRFモデルなどであっても良いが、ここでは、その詳細な説明を省略する。
上述のように、この好適な実施例における情報処理方法により、例えば、上述の例示的なフローチャート200中のステップS201-S207により、良好なパフォーマンスを有する名前付きエンティティ認識モデルを得ることができ、このような名前付きエンティティ認識モデルは、各種の後続処理に有効に適用することができる。
本発明の第二側面によれば、自然言語処理方法が提供され、それは、本発明の第一側面による情報処理方法の好ましい実施例(例えば、図2の例示的なフローチャート200)で得られた名前付きエンティティ認識モデルを有効に利用することができる。以下、図3を参照しながら、本発明の実施例による自然言語処理方法の一例のフローチャートを説明する。
図3は、本発明の実施例における自然言語処理方法の1つの例示的なフローチャートである。図3に示すように、自然言語処理方法300は、以下のようなステップを含んでも良い。
名前付きエンティティ認識ステップS301:本発明の第一側面における情報処理方法の好ましい実施例(例えば、図2の例示的なフローチャート200)で得られた名前付きエンティティ認識モデルを用いて、目標ドキュメント中の名前付きエンティティを認識し;
名前付きエンティティ置換ステップS303:所定の名前付きエンティティにより、認識された目標ドキュメント中の名前付きエンティティを置換し;
ドキュメント単語分割ステップS305:単語分割ツールを用いて、置換後の目標ドキュメントに対して単語分割を行い;
名前付きエンティティ回復ステップS307:単語分割後の目標ドキュメントにおいて、所定の名前付きエンティティを置換前の対応する名前付きエンティティに回復する。
図2の例示的なフローチャートの説明に述べたように、本発明の第一側面による情報処理方法の好ましい実施例を用いることで、良好なパフォーマンスを有する名前付きエンティティ認識モデルを得ることができ、このような名前付きエンティティ認識モデルは、各種の後続処理に有効に適用することができる。よって、図3に示す本実施例による自然言語処理300では、ドキュメント単語分割処理の前に、予め得られた上述の名前付きエンティティ認識モデルにより、先にドキュメント中の一般的に正確な単語分割を行うことが困難である名前付きエンティティを認識及び置換することで、後続のドキュメント単語分割の正確性を向上させることができる。
以下、図4に基づいて自然言語処理方法300の一例の処理を説明する。図4は、図3に示す自然言語処理方法300により処理を行う一例の説明図であり、そのうち、法律文書としての目標ドキュメント401における1つの処理待ち語句“被告人李富不服提出上訴”(中国語(その意味は、「判決に不服がある被告人の李富が控訴をする」))402について、従来の直接単語分割の方法及び本発明の実施例における自然言語処理方法により、異なる単語分割結果を得ることができる。
より具体的には、図4の左側に示すように、従来技術(例えば、従来の自然言語処理ツールパッケージにおける単語分割ツール)を採用して処理待ち語句“被告人李富不服提出上訴”に対して直接単語分割を行う場合、誤った単語分割結果“被告人 李富不服 提出 上訴”を得てしまい、そのうち、名前付きエンティティとしての人名“李富”を正確に抽出することができず、“李富不服”を“被告人”の後の1つの単語として抽出してしまうため、単語分割結果は、単語分割結果403Bに示すようである。
従来技術を用いてこのような誤った単語分割結果をもたらす原因は、例えば、人名の名前付きエンティティが多種多様であり、例えば、形容詞(張“英俊”(「英俊」は、形容詞である))、名詞(蔡“金豹”(「金豹」は、名詞である))、動詞(趙“留京”(「留京」は、動詞である))などからなることにある。人名が集合(例えば、辞典のようなもの)の外の範囲に属し、列挙又は帰納の方式で全ての人名を所定の人名の集合に含めることができない。例えば、“張英俊”が人名であることを事前に知ったとしても、“李英俊”又は“王英俊”が人名であるかどうかを確定することができない。また、人名の長さも固定したものでなく、人名には、通常、2つ以上の文字が含まれる。例えば、「李強」、「張英俊」、「欧陽娜娜」、「呼格吉勒図」、「吐尼薩汗・麦麦明」などである。よって、既存の中国語単語分割モデルにより、このような、頻繁に出現する人名を含むテキストを処理するときに、単語分割の精度は、頻繁に出現する人名の影響で大幅に下げることがある。
これに対して、本実施例に係る自然言語処理方法300を用いれば、ドキュメント単語分割処理の前に、予め得られた、パフォーマンスが良好な名前付きエンティティ認識モデルを用いて、先にドキュメント中の一般的に単語分割を正確に行い難い名前付きエンティティを認識及び置換することで、後続のドキュメント単語分割の正確性を改善することができる。
より具体的には、本実施例による自然言語処理方法300を用いて、目標ドキュメントとしての処理待ち語句402を処理するときに、まず、名前付きエンティティ認識ステップS301を実行し、そのうち、上述の良好なパフォーマンスを有する名前付きエンティティ認識モデルにより、処理待ち語句402中の名前付きエンティティ“李富”を認識し、認識結果は、認識結果403Aに示すようである。
その後、名前付きエンティティ置換ステップS303を実行し、そのうち、認識結果403Aに対して所定の名前付きエンティティの置換を行う。ここで、置換用の所定の名前付きエンティティは、後続のドキュメント単語分割処理に、誤った名前付きエンティティを生成させにくいものであっても良い。好ましくは、所定の名前付きエンティティは、ドキュメント単語分割ステップS305で採用される単語分割ツールを訓練するためのコーパスベースから選択しても良い。例えば、本例では、良く用いられる各種の単語分割ツールの訓練コーパスベースに一般的に含まれる有名人の名前(即ち、“周傑倫”)を用いて置換を行うことで、置換後の処理待ち語句404Aを取得する。
オプションとして、認識した人名を関連分野に係るドキュメント中の高頻度に出現する人名に置換しても良い。単語分割ツールにより、一般的に、関連分野において高頻度に出現する人名に対して高正確率の単語分割効果を達成することができるので、置換後の語句は、単語分割ツールにより正確に区切ることができる。例えば、目標ドキュメントの類型が娯楽ニューズの場合、芸能人の名前で上述の置換を行っても良く、目標ドキュメントの類型が政治ニューズの場合、政治家の名前で上述の置換を行っても良く、その他について、これに基づいて類推することができるため、ここでは、網羅的な列挙を省略する。
続いて、ドキュメント単語分割ステップS305を実行し、そのうち、単語分割ツールを用いて置換後の目標ドキュメントの処理待ち語句404Aに対して単語分割を行い、単語分割結果405Aを取得する。名前付きエンティティが、単語分割ツールが誤判断し難い例えば有名人の名前に置換されたので、従来の単語分割処理に用いる同じ単語分割ツールを採用しても良く、正確な単語分割結果406Aを得ることができる。
一例として、ドキュメント単語分割ステップS305で採用される単語分割ツールは、従来の自然言語処理ツールパッケージにより提供されても良い。例えば、Stanford CoreNLPにおいて提供される単語分割ツールを用いても良い。オプションとして、HIT LTP(Harbin Institute of Technology/Language Technology Platform)におけるjieba(“結巴”中国語単語分割)などのツールを使用してテキスト単語分割を行うことができる。もちろん、当業者は、従来の任意の単語分割ツールを用いて、ドキュメント単語分割ステップS305の処理を行っても良いが、ここでは、その詳細な説明を省略する。
最後に、回復ステップS307を実行し、そのうち、単語分割結果405A中の置換後の所定の名前付きエンティティ(“周傑倫”)を置換前の対応する名前付きエンティティ(“李富”)に回復することで、最終的な正確単語分割結果406A、即ち、“被告人 李富 不服 提出 上訴”を得ることができる。
上述のように、本発明の実施例における自然言語処理方法を利用することで、目標ドキュメント中の一般的に単語分割が正確に行われることが困難である名前付きエンティティの、単語分割処理への干渉を“排除”し、正確な単語分割結果を得ることができる。また、パフォーマンスが良好な名前付きエンティティモデルを用いて、事前に、名前付きエンティティによる可能な干渉を排除し得るので、従来の一般的な単語分割ツールを直接採用して単語分割処理を行っても良く、即ち、特別に訓練された、所定の分野又は類型のドキュメント専用の単語分割ツールを必要としない。
以上、図1乃至図4に基づいて、本発明の第一側面及び第二側面による情報処理方法及び自然言語処理方法の具体的な実施例及びその有益な効果を説明した。また、本発明によれば、対応する情報処理装置及び自然言語処理装置がさらに提供される。以下、図5乃至図7をもとに、これらの装置について説明する。
図5は、本発明の実施例に係る情報処理装置の例示的な構造を示すブロック図である。図5に示すように、情報処理装置500は、以下のようなものを含んでも良い。
名前付きエンティティ抽出ユニット501:類型ドキュメントのドキュメント類型に関する構造的特徴及びコンテキスト情報に基づいて、類型ドキュメント中の名前付きエンティティを抽出し、そのうち、ドキュメント類型は、法律文書、新聞報道又は文芸評論を含み;
名前付きエンティティラベリングユニット502:ネーミングツールを用いて、類型ドキュメント中の名前付きエンティティをラベリングし、そのうち、名前付きエンティティは、人名、地名、機構名、時間、日付、映画・テレビドラマのタイトル、本のタイトル、又は歌・曲のタイトルを含み;
結果改善ユニット503:抽出された結果に基づいて、ネーミングツールのラベリング結果を改善する。
上述の情報処理装置及びその各ユニットについて、例えば、以上の図1をもとに記述した本発明の第一側面における情報処理方法及びその各ステップの操作及び/又は処理を参照することができるため、ここでは、重複説明を割愛する。
図6は、本発明の実施例による情報処理装置の好ましい実施例の例示的な構造を示すブロック図である。図6に示すように、情報処理装置600と図5の情報処理装置500との相違点は、情報処理装置600が、ユニット501-503にそれぞれ対応する名前付きエンティティ抽出ユニット601、名前付きエンティティラベリングユニット602、結果改善ユニット603以外に、モデル訓練ユニット604をさらに含むことにある。モデル訓練ユニット604は、結果改善ユニット603により得られた改善後のラベリング結果を訓練データとして、名前付きエンティティ認識モデルを訓練する。この相違点以外に、情報処理装置600における他のユニット601-603は、図5の情報処理装置500の対応するユニット501-503と同様であるため、ここでは、その詳しい説明を省略する。
上述の情報処理装置及びその各ユニットについて、例えば、以上の図2に基づいて説明した本発明の好適な実施例に係る情報処理方法及びその各ステップの操作及び/又は処理を参照することができるから、ここでは、重複説明が省略される。
図7は、本発明の実施例における自然言語処理装置の例示的な構造を示すブロック図である。図7に示すように、自然言語処理装置700は、以下のようなものを含む。
名前付きエンティティ認識ユニット701:例えば、図2の例示的なフローチャート200の情報処理方法(又は、例えば、図6の情報処理装置600)により得られた名前付きエンティティ認識モデルを用いて、目標ドキュメント中の名前付きエンティティを認識し;
名前付きエンティティ置換ユニット702:所定の名前付きエンティティにより、認識された目標ドキュメント中の名前付きエンティティを置換し;
ドキュメント単語分割ユニット703:単語分割ツールを用いて、置換後の目標ドキュメントに対して単語分割を行い;
名前付きエンティティ回復ユニット704:単語分割後の目標ドキュメントにおいて、所定の名前付きエンティティを置換前の対応する名前付きエンティティに回復する。
上述の自然言語処理装置及びその各ユニットについて、例えば、以上の図3乃至図4をもとに記述した本発明の第二側面における自然言語処理方法及びその各ステップの操作及び/又は処理を参照することができるため、ここでは、重複説明を割愛する。
以上、本発明による情報処理方法、装置及び自然言語処理方法、装置の各実施例及びその有益な効果を説明した。以下、図8を参照しながら、これらの方法及び装置を実現し得る例示的なハードウェア構成を説明する。
図8は、本発明の実施例に係る情報処理方法、装置及び自然言語処理方法、装置を実現し得るハードウェア構成の一例の構成図である。
図8では、中央処理装置(CPU)801は、ROM 802に記憶されているプログラム、又は、記憶部808からRAM 803にロードされているプログラムに基づいて、各種の処理を行う。RAM 803には、必要に応じて、CPU 801が各種の処理を実行するときに必要なデータを記憶しても良い。なお、CPU 801、ROM 802及びRAM 803は、バス804を経由して接続される。また、入力/出力インターフェース805も、バス804に接続される。
次のような部品は、入力/出力インターフェース805に接続され、即ち、入力部806(キーボード、マウスなどを含む)、出力部807(表示器、例えば、CRT、LCDなど、及びスピーカーなどを含む)、記憶部808(ハードディスクなどを含む)、及び通信部809(ネットワーク・インターフェース・カード、例えば、LANカード、モデムなどを含む)というような部品である。通信部809は、ネットワーク、例えば、インターネットを経由して通信処理を行う。なお、必要に応じて、ドライブ810を入力/出力インターフェース805に接続させても良い。取り外し可能な媒体811、例えば、磁気ディスク、光ディスク、光磁気ディスク、半導体記憶器などは、必要に応じて、ドライブ810にセットされ、その中から読み出されたコンピュータプログラムが必要に応じて記憶部808にインスタールされるようにさせることができる。
ソフトウェアにより上述の一連の処理を実現する場合、ネットワーク、例えば、インターネット、又は記憶媒体、例えば、取り外し可能な媒体811から、ソフトウェアを構成するプログラムをインストールすることができる。
なお、当業者が理解すべきは、このような記憶媒体は、図8に示すような取り外し可能な媒体811に限定されない。取り外し可能な媒体811は、例えば、磁気ディスク(フロッピーディスク(登録商標)を含む)、ディスク(CD-ROM及びDVDを含む)、光磁気ディスク(MD(登録商標)を含む)、及び半導体記憶器を含む。或いは、記憶媒体は、ROM 802、記憶部808中のハードディスクなどであっても良い。
また、本発明の実施例などによる装置、方法などは、ソフトウェアにより実現されても良く、ハードェアにより実現されてもよく、ハードェア及びソフトウェアの組み合わせにより実現されても良い。本発明は、このようなコンピュータ可読プログラムにも関し、即ち、前記プログラムは、ロジック部品により実行されるときに、前記ロジック部品に、上述の装置又は構成要素を実現させることができ、又は、前記ロジック部品に、上述の方法又はそのステップを実現させることができる。さらに、本発明は、上述のプログラムを記憶した記憶媒体、例えば、ハードディスク、磁気ディスク、光ディスク、DVD、フレッシュメモリなどにも関する。
また、以上の実施例などに関し、さらに以下のように付記を開示する。
(付記1)
情報処理方法であって、
類型ドキュメント(所定ドキュメント)のドキュメント類型に関する構造的特徴及びコンテキスト情報に基づいて、類型ドキュメント中の名前付きエンティティを抽出し、そのうち、ドキュメント類型は、法律文書、新聞報道又は文芸評論を含み;
ネーミングツールを用いて、類型ドキュメント中の名前付きエンティティをラベリングし、そのうち、名前付きエンティティは、人名、地名、機構名、時間、日付、映画・テレビドラマのタイトル、本のタイトル、又は歌・曲のタイトルを含み;及び
抽出された結果に基づいて、ネーミングツールのラベリング結果を改善することを含む、方法。
(付記2)
付記1に記載の情報処理方法であって、
ネーミングツールのラベリング結果を改善することは、
以下の条件を満足する名前付きエンティティを選択してネーミングツールのラベリング結果を更新することを含み、即ち、
名前付きエンティティが抽出された結果及びネーミングツールのラベリング結果の両者に出現すること(第一条件);及び/又は
名前付きエンティティが抽出された結果又はネーミングツールのラベリング結果に出現する頻度が所定頻度を超えること(第二条件)である、方法。
(付記3)
付記1に記載の情報処理方法であって、
ネーミングツールは、従来の自然言語処理ツールパッケージにより提供される、方法。
(付記4)
付記1乃至3のうちの任意の1項に記載の情報処理方法であって、さらに、
改善後のラベリング結果を訓練データとして、名前付きエンティティ認識モデルを訓練することを含む、方法。
(付記5)
付記4に記載の情報処理方法であって、
名前付きエンティティ認識モデルは、条件付き確率場に基づくシーケンスラベリングモデルを含む、方法。
(付記6)
自然言語処理方法であって、
付記4又は5に記載の情報処理方法を用いて得られた名前付きエンティティ認識モデルにより、目標ドキュメント中の名前付きエンティティを認識し;
所定の名前付きエンティティにより、認識された目標ドキュメント中の名前付きエンティティを置換し;
単語分割ツールを用いて、置換後の目標ドキュメントに対して単語分割を行い;及び
単語分割後の目標ドキュメントにおいて、所定の名前付きエンティティを置換前の対応する名前付きエンティティに回復することを含む、方法。
(付記7)
付記6に記載の自然言語処理方法であって、
単語分割ツールは、従来の自然言語処理ツールパッケージにより提供される、方法。
(付記8)
付記6又は7に記載の自然言語処理方法であって、
所定の名前付きエンティティは、単語分割ツールを訓練するためのコーパスベースから選択される、方法。
(付記9)
情報処理装置であって、
処理器を含み、それは、
類型ドキュメントのドキュメント類型に関する構造的特徴及びコンテキスト情報に基づいて、類型ドキュメント中の名前付きエンティティを抽出し、そのうち、ドキュメント類型は、法律文書、新聞報道又は文芸評論を含み;
ネーミングツールを用いて、類型ドキュメント中の名前付きエンティティをラベリングし、そのうち、名前付きエンティティは、人名、地名、機構名、時間、日付、映画・テレビドラマのタイトル、本のタイトル、又は歌・曲のタイトルを含み;及び
抽出された結果に基づいて、ネーミングツールのラベリング結果を改善するように構成される、装置。
(付記10)
付記9に記載の情報処理装置であって、
処理器は、以下の条件を満たす名前付きエンティティを選択して、ネーミングツールのラベリング結果を更新するように構成され、即ち、
名前付きエンティティが抽出された結果及びネーミングツールのラベリング結果の両者に出現する第一条件;及び/又は
名前付きエンティティが抽出された結果又はネーミングツールのラベリング結果に出現する頻度が所定頻度を超える第二条件である、装置。
(付記11)
付記9に記載の情報処理装置であって、
ネーミングツールは、従来の自然言語処理ツールパッケージにより提供される、装置。
(付記12)
付記9乃至11のうちの任意の1項に記載の情報処理装置であって、
処理器は、さらに、
改善後のラベリング結果を訓練データとして、名前付きエンティティ認識モデルを訓練するように構成される、装置。
(付記13)
付記12に記載の情報処理装置であって、
名前付きエンティティ認識モデルは、条件付き確率場に基づくシーケンスラベリングモデルを含む、装置。
以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は、本発明の技術的範囲に属する。

Claims (10)

  1. 情報処理方法であって、
    所定ドキュメントのドキュメント類型に関する構造的特徴及びコンテキスト情報に基づいて、前記所定ドキュメントにおける名前付きエンティティを抽出し、前記ドキュメント類型は、法律文書、新聞報道、又は文芸評論を含み;
    ネーミングツールを用いて、前記所定ドキュメントにおける名前付きエンティティをラベリングし、前記名前付きエンティティは、人名、地名、機構名、時間、日付、映画・テレビドラマのタイトル、本のタイトル、又は歌・曲のタイトルを含み;及び
    抽出された抽出結果に基づいて、前記ネーミングツールのラベリング結果を改善することを含む、方法。
  2. 請求項1に記載の情報処理方法であって、
    前記ラベリング結果を改善することは、
    名前付きエンティティが前記抽出結果及び前記ラベリング結果の両者に出現する条件;及び/又は
    名前付きエンティティが前記抽出結果又は前記ラベリング結果に出現する頻度が所定頻度を超える条件
    を満足する名前付きエンティティを選択して、前記ラベリング結果を更新することを含む、方法。
  3. 請求項1に記載の情報処理方法であって、
    前記ネーミングツールが従来の自然言語処理ツールパッケージにより提供される、方法。
  4. 請求項1乃至3のうちの任意の1項に記載の情報処理方法であって、
    改善後のラベリング結果を訓練データとして、名前付きエンティティ認識モデルを訓練することをさらに含む、方法。
  5. 請求項4に記載の情報処理方法であって、
    前記名前付きエンティティ認識モデルは、条件付き確率場に基づくシーケンスラベリングモデルを含む、方法。
  6. 自然言語処理方法であって、
    請求項4又は5に記載の情報処理方法により得られた名前付きエンティティ認識モデルを用いて、目標ドキュメントにおける名前付きエンティティを認識し;
    所定の名前付きエンティティにより、認識された目標ドキュメントにおける前記名前付きエンティティを置換し;
    単語分割ツールを用いて、置換後の目標ドキュメントに対して単語分割を行い;
    単語分割後の目標ドキュメントにおいて、前記所定の名前付きエンティティを置換前の対応する前記名前付きエンティティに回復することを含む、方法。
  7. 請求項6に記載の自然言語処理方法であって、
    前記単語分割ツールが、所定の自然言語処理ツールパッケージにより提供される、方法。
  8. 請求項6又は7に記載の自然言語処理方法であって、
    前記所定の名前付きエンティティが、単語分割ツールを訓練するためのコーパスベースから選択される、方法。
  9. 処理器を含む情報処理装置であって、
    前記処理器は、
    所定ドキュメントのドキュメント類型に関する構造的特徴及びコンテキスト情報に基づいて、前記所定ドキュメントにおける名前付きエンティティを抽出し、前記ドキュメント類型は、法律文書、新聞報道又は文芸評論を含み;
    ネーミングツールを用いて、前記所定ドキュメントにおける名前付きエンティティをラベリングし、前記名前付きエンティティは、人名、地名、機構名、時間、日付、映画・テレビドラマのタイトル、本のタイトル、又は歌・曲のタイトルを含み;及び
    抽出された抽出結果に基づいて、前記ネーミングツールのラベリング結果を改善するように構成される、装置。
  10. 請求項9に記載の情報処理装置であって、
    前記処理器は、さらに、改善後のラベリング結果を訓練データとして、名前付きエンティティ認識モデルを訓練するように構成される、装置。
JP2019222030A 2018-12-18 2019-12-09 情報処理方法、自然言語処理方法及び情報処理装置 Pending JP2020098594A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811550123.7 2018-12-18
CN201811550123.7A CN111339773A (zh) 2018-12-18 2018-12-18 信息处理方法、自然语言处理方法以及信息处理设备

Publications (1)

Publication Number Publication Date
JP2020098594A true JP2020098594A (ja) 2020-06-25

Family

ID=71106912

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019222030A Pending JP2020098594A (ja) 2018-12-18 2019-12-09 情報処理方法、自然言語処理方法及び情報処理装置

Country Status (2)

Country Link
JP (1) JP2020098594A (ja)
CN (1) CN111339773A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112365372A (zh) * 2020-10-09 2021-02-12 银江股份有限公司 一种面向裁判文书的质量检测及评估方法及系统
CN112784605A (zh) * 2021-02-09 2021-05-11 柳州智视科技有限公司 一种基于句子的实体名识别的方法
CN115034318A (zh) * 2022-06-17 2022-09-09 中国平安人寿保险股份有限公司 标题判别模型的生成方法和装置、设备、介质
KR20230066757A (ko) * 2021-11-08 2023-05-16 (주)사람인 핑거프린트와 머신러닝을 활용한 기업별 문서의 데이터 추출 시스템 및 방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507716B (zh) * 2020-11-30 2023-07-21 北京百度网讯科技有限公司 医学命名实体识别方法、装置、电子设备和存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9361293B2 (en) * 2013-09-18 2016-06-07 International Business Machines Corporation Using renaming directives to bootstrap industry-specific knowledge and lexical resources
CN104933023B (zh) * 2015-05-12 2017-09-01 深圳市华傲数据技术有限公司 中文地址分词标注方法
CN105550227B (zh) * 2015-12-07 2020-05-22 中国建设银行股份有限公司 一种命名实体识别方法及装置
CN108073573A (zh) * 2016-11-16 2018-05-25 北京搜狗科技发展有限公司 一种机器翻译方法、装置和机器翻译系统训练方法、装置
CN106776538A (zh) * 2016-11-23 2017-05-31 国网福建省电力有限公司 企业非标准格式文档的信息提取方法
CN108197163B (zh) * 2017-12-14 2021-08-10 上海银江智慧智能化技术有限公司 一种基于裁判文书的结构化处理方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112365372A (zh) * 2020-10-09 2021-02-12 银江股份有限公司 一种面向裁判文书的质量检测及评估方法及系统
CN112365372B (zh) * 2020-10-09 2024-01-12 银江技术股份有限公司 一种面向裁判文书的质量检测及评估方法及系统
CN112784605A (zh) * 2021-02-09 2021-05-11 柳州智视科技有限公司 一种基于句子的实体名识别的方法
KR20230066757A (ko) * 2021-11-08 2023-05-16 (주)사람인 핑거프린트와 머신러닝을 활용한 기업별 문서의 데이터 추출 시스템 및 방법
KR102601932B1 (ko) 2021-11-08 2023-11-14 (주)사람인 핑거프린트와 머신러닝을 활용한 기업별 문서의 데이터 추출 시스템 및 방법
CN115034318A (zh) * 2022-06-17 2022-09-09 中国平安人寿保险股份有限公司 标题判别模型的生成方法和装置、设备、介质
CN115034318B (zh) * 2022-06-17 2024-05-17 中国平安人寿保险股份有限公司 标题判别模型的生成方法和装置、设备、介质

Also Published As

Publication number Publication date
CN111339773A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
JP2020098594A (ja) 情報処理方法、自然言語処理方法及び情報処理装置
El-Beltagy et al. Combining lexical features and a supervised learning approach for Arabic sentiment analysis
Richman et al. Mining wiki resources for multilingual named entity recognition
Boudin et al. Keyphrase extraction for n-best reranking in multi-sentence compression
Laboreiro et al. Tokenizing micro-blogging messages using a text classification approach
JP5113750B2 (ja) 定義の抽出
Ikeda et al. Learning to shift the polarity of words for sentiment classification
Rehbein et al. The kiezdeutsch korpus (kidko) release 1.0
CN106874362B (zh) 多语言自动文摘方法
Mukund et al. A vector space model for subjectivity classification in Urdu aided by co-training
Burney et al. Urdu text summarizer using sentence weight algorithm for word processors
CN103678288A (zh) 一种专名自动翻译的方法
Surdeanu et al. Named entity recognition from spontaneous open-domain speech.
Ashna et al. Lexicon based sentiment analysis system for malayalam language
CN110929518A (zh) 一种使用重叠拆分规则的文本序列标注算法
CN103714053B (zh) 一种面向机器翻译的日语动词识别方法
Fatima et al. New graph-based text summarization method
Naz et al. Urdu part of speech tagging using transformation based error driven learning
CN107861937B (zh) 对译语料库的更新方法、更新装置以及记录介质
Dias Cardoso et al. Language identification for social media: short messages and transliteration
Yu et al. Identification of Code‐Switched Sentences and Words Using Language Modeling Approaches
CN107168950B (zh) 一种基于双语语义映射的事件短语学习方法及装置
US20100145677A1 (en) System and Method for Making a User Dependent Language Model
Chen et al. Unigram language model for Chinese word segmentation
Aldarmaki et al. Robust part-of-speech tagging of Arabic text