JP2014529787A

JP2014529787A - 固有表現の認識方法及び装置

Info

Publication number: JP2014529787A
Application number: JP2014525305A
Authority: JP
Inventors: ヂチャオリウ; シャオミンユ; ヤンジアンウ; ジアンウヤン
Original assignee: Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Current assignee: Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Priority date: 2011-12-13
Filing date: 2012-12-13
Publication date: 2014-11-13
Also published as: CN103164426B; EP2752776A4; EP2752776A1; US20140172774A1; WO2013086998A1; CN103164426A

Abstract

本出願は、固有表現を認識するための認識モデル生成方法及び装置、並びに、固有表現の認識方法及び装置を開示している。前記固有表現の認識方法において、学習テキストの第１の特徴情報セットを取得し、第１の認識モデルに基づいて学習テキストの第１の特徴情報セットを認識することにより第２の特徴情報セット（この第２の特徴情報セットは、前記第１の認識モデルに基づいて前記第１の特徴情報セットを認識することにより得られたＭ個の固有表現を含み、ここで、Ｍは０以上の整数である）を取得し、誤り駆動モデルに基づいて前記第２の特徴情報セットにおける前記Ｍ個の固有表現に対して誤り訂正を行い、Ｋ個（Ｋは０以上、Ｍ以下の整数である）の固有表現を取得する。【選択図】図５

Description

本出願は、人工知能分野に関し、特に固有表現の認識方法及び装置に関する。

コンピュータネットワークの規模が日々拡大し続けることに伴い、大量の情報が電子ファイルの形式で人々の前に現れた。コンピュータは数多くの情報から有用な情報を抽出することができるように望まれている。情報抽出の主なタスクの１つは固有表現の認識（Named Entity Recognized：NER）である。

固有表現とは、命名された、唯一に同定された、特定の意味を有する最小の情報単位である専有名称と数量フレーズであり、主として７種類の固有表現、即ち、人名、地名、組織名、日付、時間、金額及びパーセンテージを含む。固有表現の認識の主なタスクは、テキストにおける固有表現を認識して分類することである。

この７種類の固有表現において、人名、地名及び組織名などの固有表現は開放性及び発展性などの特徴を有し、かつ形成規則が大きなランダム性を有するため、それらを認識する際に、多くの間違いや漏れが生じるから、現在のほとんどの固有表現の認識に対する検討はこの３つの固有表現の認識技術に焦点を当てている。

条件付き確率場（conditional random fields）による固有表現の認識（固有表現の抽出）は、現在よく使用される固有表現の認識方法（固有表現の抽出方法）である。この方法において、固有表現の認識過程を2層に分ける。底層の条件付き確率場モデルは観測値だけを条件として簡単な固有表現の認識に使用される。その後、認識された結果を高層認識モデルに伝送する。こうすると、高層モデルの入力変数は観測値のみならず、底層モデルの簡単な認識結果も含めているから、高層条件付き確率場モデルによる複雑な固有表現の認識のための基盤を固めている。

ところが、本出願の実施例における技術案を実現する工程において、本出願人らは、従来技術には下記の欠点があったことを発見した。

従来技術において、条件付き確率場の２層モデルに基づいて固有表現を認識するだけであり、認識された固有表現が正しいか否かを考慮しなかったので、認識が十分に正確ではなかった技術問題が存在している。

従来より、条件付き確率場の２層モデルに基づいて固有表現を認識するだけであり、認識された固有表現が正しいか否かを考慮しなかったので、認識が十分に正確ではなかった技術問題を解決するために、本発明は固有表現の認識方法及び装置を提供している。

本発明は本出願における実施例により、下記の技術案を提供する。

一方、本発明は本出願における実施例により、下記の技術案を提供する。即ち、
固有表現を認識するための認識モデル生成方法であって、
学習テキストの第１の特徴情報セットを取得するステップと、
学習テキストの第１の特徴情報セットを学習して第１の認識モデルを取得するステップと、
前記第１の認識モデルに基づいて前記第１の特徴情報セットを認識することにより第２の特徴情報セットを取得するステップと、
前記第２の特徴情報セットを学習して誤り駆動モデルを取得するステップとを備えており、
前記第２の特徴情報セットは、前記第１の認識モデルに基づいて前記第１の特徴情報セットを認識することにより得られたＭ個（Ｍは０以上の整数である）の固有表現を含む。

さらに、前記第１の特徴情報セットを取得するステップにおいては、
学習テキストの第３の特徴情報セットを取得し、
学習テキストの第３の特徴情報セットを学習して第３の認識モデルを取得し、
前記第３の認識モデルに基づいて前記第３の特徴情報セットを認識することにより第１の特徴情報セットを取得し、
前記第１の特徴情報セットは、前記第３の認識モデルに基づいて前記第３の特徴情報セットを認識することにより得られたＮ個（Ｎは０以上、Ｍ以下の整数である）の固有表現を含む。

さらに、前記学習テキストの第３の特徴情報セットを取得するステップにおいては、
前記学習テキストを取得し、
前記学習テキストを少なくとも１つの学習フレーズに分割し、
前記少なくとも１つの学習フレーズをマークするためのマークセットを取得し、
前記マークセットに基づいて前記少なくとも１つの学習フレーズをマークして第３の特徴情報セットを取得する。

さらに、前記第３の特徴情報セットは、具体的に、
前記少なくとも１つの認識待ちフレームにおける単語境界情報、文脈情報、品詞情報、文字情報及び句読点情報を含む。

他方、本発明は本出願における別の実施例により下記の技術案を提供する。即ち、固有表現の認識方法であって、
学習テキストの第１の特徴情報セットを取得するステップと、
第１の認識モデルに基づいて学習テキストの第１の特徴情報セットを認識することにより第２の特徴情報セットを取得するステップと、
誤り駆動モデルに基づいて前記第２の特徴情報セットにおける前記Ｍ個の固有表現に対して誤り訂正を行い、Ｋ個（Ｋは０以上Ｍ以下の整数である）の固有表現を取得するステップとを備えており、
前記第２の特徴情報セットは、前記第１の認識モデルに基づいて前記第１の特徴情報セットを認識することにより得られたＭ個（Ｍは０以上の整数である）の固有表現を含む。

さらに、前記学習テキストの第１の特徴情報セットを取得するステップにおいては、
認識待ちテキストの第３の特徴情報セットを取得し、
第３の認識モデルに基づいて前記第３の特徴情報セットを認識することにより第１の特徴情報セットを取得し、
前記第１の特徴情報セットは、前記第３の認識モデルに基づいて前記第３の特徴情報セットを認識することにより得られたＮ個（Ｎは０以上、Ｍ以下の整数である）の固有表現を含む。

さらに、前記誤り駆動モデルに基づいて前記第３の特徴情報セットにおける前記Ｍ個の固有表現に対して誤り訂正を行い、Ｋ個の固有表現を取得した後に、さらに、
前記Ｋ個の固有表現の種類情報、位置情報、品詞情報を取得する。

さらに、前記認識待ちテキストの第３の特徴情報セットを取得するステップにおいては、
前記認識待ちテキストを取得し、
前記認識待ちテキストを少なくとも１つの認識待ちフレーズに分割し、
前記少なくとも１つの認識待ちフレーズをマークするためのマークセットを取得し、
前記マークセットに基づいて前記少なくとも１つの認識待ちフレーズをマークして第３の特徴情報セットを取得する。

さらに、前記第１の特徴情報セットは、具体的に、前記少なくとも１つの認識待ちフレームにおける単語境界情報、文脈情報、品詞情報、文字情報及び句読点情報を含む。

また、本発明は本出願における別の実施例により下記の技術案を提供する。即ち、固有表現を認識するための認識モデル生成装置であって、
ユーザが学習テキストの第１の特徴情報セットを取得するための第１の特徴情報セット取得モジュールと、
学習テキストの第１の特徴情報セットを学習して第１の認識モデルを取得する第１の識別モデル取得モジュールと、
前記第１の認識モデルに基づいて前記第１の特徴情報セットを認識することにより第２の特徴情報セットを取得する第２の特徴情報セット取得モジュールと、
前記第２の特徴情報セットを学習して誤り駆動モデルを取得する誤り駆動モデル取得モジュールとを備えており、
前記第２の特徴情報セットは、前記第１の認識モデルに基づいて前記第１の特徴情報セットを認識することにより得られたＭ個（Ｍは０以上の整数である）の固有表現を含む。

さらに、前記第１の特徴情報セット取得モジュールは、
学習テキストの第３の特徴情報セットを取得する第３の特徴情報セット取得手段と、
学習テキストの第３の特徴情報セットを学習して第３の認識モデルを取得する第３の認識モデル取得手段と、
前記第３の認識モデルに基づいて前記第３の特徴情報セットを認識することにより第１の特徴情報セットを取得する第１の特徴情報セット取得手段とを備えており、
前記第１の特徴情報セットは、前記第３の認識モデルに基づいて第３の特徴情報セットを認識することにより得られたＮ個（Ｎは０以上、Ｍ以下の整数である）の固有表現を含む。

さらに、前記第３の特徴情報セット取得手段は、
前記学習テキストを取得する学習テキスト取得手段と、
前記学習テキストを少なくとも１つの学習フレーズに分割する分割手段と、
前記少なくとも１つの学習フレーズをマークするためのマークセットを取得するマークセット取得手段と、
前記マークセットに基づいて前記少なくとも１つの学習フレーズをマークして第３の特徴情報セットを取得するマーク手段とを備える。

一方、本発明は本出願における別の実施例により下記の技術案を提供する。即ち、
固有表現の認識装置であって、
学習テキストの第１の特徴情報セットを取得する第１の特徴情報セット取得モジュールと、
第１の認識モデルに基づいて学習テキストの第１の特徴情報セットを認識することにより第２の特徴情報セットを取得する第２の特徴情報セット取得モジュールと、
誤り駆動モデルに基づいて前記第２の特徴情報セットにおける前記Ｍ個の固有表現に対して誤り訂正を行い、Ｋ個（Ｋは０以上、Ｍ以下の整数である）の固有表現を取得する誤り訂正モジュールとを備えており、
前記第２の特徴情報セットは、前記第１の認識モデルに基づいて前記第１の特徴情報セットを認識することにより得られたＭ個（Ｍは０以上の整数である）の固有表現を含む。

さらに、前記第１の特徴情報セット取得モジュールは、主として、
学習テキストの第３の特徴情報セットを取得する第３の特徴情報セット取得手段と、
第３の認識モデルに基づいて前記第３の特徴情報セットを認識することにより第１の特徴情報セットを取得する第１の特徴情報セット取得手段とを備えており、
前記第１の特徴情報セットは、前記第３の認識モデルに基づいて前記第３の特徴情報セットを認識することにより得られたＮ個（Ｎは０以上、Ｍ以下の整数である）の固有表現を含む。

前記誤り駆動モデルに基づいて前記第３の特徴情報セットにおける前記Ｍ個の固有表現に対して誤り訂正を行い、Ｋ個の固有表現を取得した後に、前記Ｋ個の固有表現の種類情報、位置情報、品詞情報を取得するＫ個の固有表現情報手段をさらに備える

さらに、前記第３の特徴情報セット取得手段は、
前記認識待ちテキストを取得する認識待ちテキスト取得手段と、
前記認識待ちテキストを少なくとも１つの認識待ちフレーズに分割する分割手段と、
前記少なくとも１つの認識待ちフレーズをマークするためのマークセットを取得するマークセット取得手段と、
前記マークセットに基づいて前記少なくとも１つの認識待ちフレーズをマークして第３の特徴情報セットを取得するマーク手段とを備える。

前記技術案のうちの１つ又は複数の技術案は下記の技術的特徴または利点を有する。

条件付き確率場モデルによる固有表現の認識を行ったうえで、条件付き確率場モデルに認識された固有表現を誤り駆動モデルにより誤り訂正を行う技術案を採用しているため、固有表現の認識正確性を高め、簡単な固有表現の認識正確率が９７．３５％となり、複雑な固有表現の認識正確率が８７．６％となる技術的効果を達成している。

図１は、本願実施例一における固有表現を認識する認識モデル生成方法のフロチャートである。図２は、本願実施例一における学習テキストの第１の特徴情報セットを取得するフロチャートである。図３は、本願実施例一における学習テキストの第３の特徴情報セットを取得するフロチャートである。図４は、本願実施例一、二における学習テキスト及び認識待ちテキストの第１の特徴情報セットの標準モードである。図５は、本願実施例二における固有表現の認識方法のフロチャートである。図６は、本願実施例二における認識待ちテキストの第１の特徴情報セットを取得するフロチャートである。図７は、本願実施例二における認識待ちテキストの第１の特徴情報セットを取得するフロチャートである。図８は、本願実施例三における固有表現を認識する認識モデル生成装置のブロック図である。図９は、本願実施例四における固有表現の認識装置のブロック図である。

当業者に本出願を更に明瞭に理解させるために、以下で、図面に沿いながら具体的な実施例により本願の技術案について詳細に説明する。

図１〜図４を参照して、本願実施例一は下記のステップを含む固有表現を認識するための認識モデル生成方法を提供する。
Ｓ１０１：学習テキストの第１の特徴情報セットを取得し、
さらに、前記第１の特徴情報セットの取得は、図２に示すように、具体的に、
Ｓ２０１：学習テキストの第３の特徴情報セットを取得し、
さらに、前記学習テキストの第３の特徴情報セットの取得は、図３に示すように、具体的に、
Ｓ３０１：前記学習テキストを取得し、
Ｓ３０２：前記学習テキストを少なくとも１つの学習フレーズに分割し、
Ｓ３０３：前記少なくとも１つの学習フレーズをマークするためのマークセットを取得し、
Ｓ３０４：前記マークセットに基づいて前記少なくとも１つの学習フレーズをマークして第３の特徴情報セットを取得する。

さらに、前記第３の特徴情報セットは、具体的に、前記少なくとも１つの学習フレームにおける単語境界情報、文脈情報、品詞情報、文字情報及び句読点情報を含む。

具体的な実施工程において、図４に示すように、学習テキストは
[外１]
であると仮定されると、一定の規則に基づいて、この学習テキストを学習フレーズに分割する。
空白行４０４は、各々の学習フレーズの間の分割線を示す。
その後、ユーザが前記少なくとも１つの学習フレーズをマークするマークセットを取得することができる。本願実施例一において、マークセットは、
Ｃ＝｛ＢＲ，ＩＲ，ＢＴ，ＩＴ，ＢＳ，ＩＳ，ＢＺ，ＩＺ｝である。
ここで、ＢＲは人名の１番目の文字をマークし、ＩＲは人名の残りの文字をマークし、ＢＴは機構名の１番目の文字をマークし、ＩＴは機構名の残りの文字をマークし、ＢＳは地名の１番目の文字をマークし、ＩＳは機構名の残りの文字をマークし、ＢＺは他の固有表現の１番目の文字をマークし、ＩＺは他の固有表現の残りの文字をマークする。

しかし、具体的な実施工程において、マークセットはＣ＝｛ＢＲ，ＩＲ，ＢＴ，ＩＴ，ＢＳ，ＩＳ，ＢＺ，ＩＺ｝の形態に限らず、当業者が設置するマークにより達成し得る技術的効果は本出願が達成すべき技術的効果と同じものであれば、いずれも本願の発明構想の概念範囲内に該当する。

その後、学習テキストは、マークされることにより、図３に示す条件付き確率場の学習が必要な第３の特徴情報セットの形態に処理される。ここで、
４０１は、１つの文字の特徴情報を指す。
４０２は、文字のマークセットである。
４０３は、複数の文字の特徴情報を指す。

具体的な実施工程において、条件付き確率場の学習が必要な第３の特徴情報セットは、図４に示す形態に限らず、具体的な情況に応じて、幾つかのパラメータを増加するか、低減することができるが、当業者が選択する第１の特徴情報セットは本出願が達成すべき技術的効果と同じであれば、いずれも本願の発明構想の概念範囲内に該当する。

Ｓ２０２：学習テキストの第３の特徴情報セットを学習して第３の認識モデルを取得する。
具体的な実施工程において、学習テキストの第３の特徴情報セットを学習する際に、第３の特徴テンプレートに基づいて行われる。

Ｓ２０３：前記第３の認識モデルに基づいて前記第３の特徴情報セットを認識することにより第１の特徴情報セットを取得し、前記第１の特徴情報セットは、前記第３の認識モデルに基づいて前記第３の特徴情報セットを認識することにより得られたＮ個（Ｎは０以上、Ｍ以下の整数である）の固有表現を含む。

Ｓ１０２：学習テキストの第１の特徴情報セットを学習して第１の認識モデルを取得する。
具体的な実施工程において、学習テキストの第１の特徴情報セットを学習する際に、第１の特徴テンプレートに基づいて行われる。

Ｓ１０３：前記第１の認識モデルに基づいて前記第１の特徴情報セットを認識することにより第２の特徴情報セットを取得し、前記第２の特徴情報セットは、前記第１の認識モデルに基づいて前記第１の特徴情報セットを認識することにより得られたＭ個（Ｍは０以上の整数である）の固有表現を含む。

Ｓ１０４：前記第２の特徴情報セットを学習して誤り駆動モデルを取得する。
具体的な実施工程において、第２の特徴情報セットを学習する際に、第２の特徴テンプレートに基づいて行われる。
ここで、取得された誤り駆動モデルは、主として第２の特徴情報セットにおいて得られたＭ個の固有表現の識別が誤ったか否かを認識する。

具体的な実施工程において、第１の特徴テンプレート、第２の特徴テンプレート及び第３の特徴テンプレートは、複数の特徴テンプレートの中で複数回の最適化を行い、認識効果が最も良い特徴テンプレートを選択することができる。ここで、具体的な最適化方式は、第１の特徴テンプレートに基づいて第１の特徴情報セットを認識して簡単な認識モデルを得た後に、当該モデルを認識して第１の特徴テンプレートを調整し、それに、第１の特徴情報セットを認識し、その後、再認識を行うことによって、最適な第１の特徴テンプレートを選択することである。第２の特徴テンプレート、第３の特徴テンプレートの選択工程は第１の特徴テンプレートの選択工程と類似している。また、第１の特徴テンプレート、第２の特徴テンプレート、第３の特徴テンプレートを選択し、その後、第１の特徴情報セットを認識して簡単な認識モデル、複雑な認識モデル及び誤り駆動モデルを取得し、最後に全体的に認識を行うことにより最適な特徴テンプレートを選択しても良い。しかし、具体的な実施工程において、第１の特徴テンプレート、第２の特徴テンプレート、第３の特徴テンプレートの選択方式は前記方式に限らず、当業者が選択する第１の特徴テンプレート、第２の特徴テンプレート、第３の特徴テンプレートが達成し得る技術的効果は本出願の達成すべき技術的効果と同じであれば、いずれも本願の発明構想の概念範囲内に該当する。

図５を参照して、本願実施例二は、下記のステップを含む固有表現の認識方法を提供する。
Ｓ５０１：認識待ちテキストの第１の特徴情報セットを取得し、
さらに、前記認識待ちテキストの第１の特徴情報セットの取得は、図６に示すように、具体的に、
Ｓ６０１：認識待ちテキストの第３の特徴情報セットを取得し、
さらに、前記認識待ちテキストの第３の特徴情報セットの取得は、図７に示すように、具体的に、
Ｓ７０１：前記認識待ちテキストを取得し、
Ｓ７０２：前記認識待ちテキストを少なくとも１つの認識待ちフレーズに分割し、
Ｓ７０３：前記少なくとも１つの認識待ちフレーズをマークするマークセットを取得し、
Ｓ７０４：前記マークセットに基づいて前記少なくとも１つの認識待ちフレーズをマークして第３の特徴情報セットを取得する。

具体的な実施工程において、認識待ちテキストの第３の特徴情報セットの取得工程は、学習テキストの第１の特徴情報セットの取得工程とほぼ同じであり、認識待ちテキストは
[外１]
であることを例とする場合に、前記認識待ちテキストを図４に示す第３の特徴情報セットの形態に処理する。当然ながら、具体的な実施工程では、学習テキストと認識待ちテキストの第３の特徴情報セットの生成はまったく異なる２つの工程である。そのため、異なる条件要因に基づいて、たとえ同じテキストであったとしても、生成される学習テキストの第３の特徴情報セットと認識待ちテキストの第３の特徴情報セットは必ずしも同じものであるとは限らない。

Ｓ６０２：第３の認識モデルに基づいて前記第３の特徴情報セットを認識することにより第１の特徴情報セットを取得し、前記第１の特徴情報セットは、前記第３の認識モデルに基づいて第３の特徴情報セットを認識することにより得られたＮ個（Ｎは０以上、Ｍ以下の整数である）の固有表現を含む

Ｓ５０２：第１の認識モデルに基づいて学習テキストの第１の特徴情報セットを認識することにより第２の特徴情報セットを取得し、前記第２の特徴情報セットは、前記第１の認識モデルに基づいて前記第１の特徴情報セットを認識することにより得られたＭ個（Ｍは０以上の整数である）の固有表現を含む。

具体的な実施工程において、第２の認識モデルに認識された固有表現は、あらゆる固有表現のうちの比較的簡単で認識しやすい部分である。第２の認識モデルに基づいて前の認識待ちテキストを認識することにより得られた固有表現は
[外２]
、「北京」であると仮定された場合に、まず、この２つの固有表現を第２の特徴情報セットにおいてマークし、そのマーク方式は第１の特徴情報セットのマーク方式と同じであり、いずれもマークセットＣを用いて表記する。当然ながら、他の第１の認識モデルが認識可能なマーク方式を用いても良い。

Ｓ５０３：誤り駆動モデルに基づいて前記第２の特徴情報セットにおける前記Ｍ個の固有表現に対して誤り訂正を行い、Ｋ個（Ｋは０以上Ｍ以下の整数である）の固有表現を取得する。

第１の認識モデルと第２の認識モデルに基づいて認識された固有表現の中で、誤った固有表現が存在する恐れがあるので、誤り駆動モデルに基づいて修正する必要がある。例えば、この前に３つの固有表現である
[外２]
、「北京」、「全国人」が認識され、誤り駆動モデルにより、「全国人」の認識が誤っていると判断され、「全国人大」のはずであるので、修正する必要がある。最後に、３つの固有表現である
[外２]
、「北京」、「全国人大」が得られる。

具体的な実施工程において、認識された固有表現は必ずしもそのまま使用することができるとは言えないので、異なる適用場合の需要に応じるように、固有表現の様々な属性情報、例えば種類情報、位置情報及び品詞情報を抽出する必要がある。当然ながら、具体的な実施工程において、抽出された属性情報が固有表現の種類情報、位置情報及び品詞情報に限らず、当業者によって抽出された属性情報が達成し得る技術的効果は本出願の達成すべき技術的効果と同じものであれば、いずれも本出願の発明構想の概念範囲内に該当する。

図８を参照して、本願実施例三は、固有表現を認識するための認識モデル生成装置を提供し、図８に示すように、
ユーザが学習テキストの第１の特徴情報セットを取得する第１の特徴情報セット取得モジュール８０１と、
学習テキストの第１の特徴情報を学習して第１の認識モデルを取得する第１の認識モデル取得モジュール８０２と、
前記第１の認識モデルに基づいて前記第１の特徴情報セットを認識することにより第２の特徴情報セットを取得する第２の特徴情報セット取得モジュール８０３と、
前記第２の特徴情報セットを学習して誤り駆動モデルを取得する誤り駆動モデル取得モジュール８０４とを備えており、
前記第２の特徴情報セットは、前記第１の認識モデルに基づいて前記第１の特徴情報セットを認識することにより得られたＭ個（Ｍは０以上の整数である）の固有表現を含む。

ここで、さらに、前記第１の特徴情報セット取得モジュール８０１は、
学習テキストの第３の特徴情報セットを取得する第３の特徴情報セット取得手段と、
学習テキストの第３の特徴情報セットを学習して第３の認識モデルを取得する第３の認識モデル取得手段と、
前記第３の認識モデルに基づいて前記第３の特徴情報セットを認識することにより第１の特徴情報セットを取得する第１の特徴情報セット取得手段とを備えており、
前記第１の特徴情報セットは、前記第３の認識モデルに基づいて第３の特徴情報セットを認識することにより得られたＮ個（Ｎは０以上、Ｍ以下の整数である）の固有表現を含む。

ここで、さらに、前記第３の特徴情報セット取得手段は、
前記学習テキストを取得するための学習テキスト取得手段と、
前記学習テキストを少なくとも１つの学習フレーズに分割するための分割手段と、
前記少なくとも１つの学習フレーズをマークするマークセットを取得するマークセット取得手段と、
前記マークセットに基づいて前記少なくとも１つの学習フレーズをマークして第３の特徴情報セットを取得するマーク手段とを備える。

本願実施例三における装置は、本願実施例一における方法を実施するために対応する装置であるので、本願実施例一における方法に基づいて、当業者は本願実施例三における装置の具体的な実施方法及び本願実施例三における装置の様々な変化形式について理解することが可能となる。そのため、ここでは、当該装置の動作について改めて詳細に紹介せず、当業者が本願実施例一における方法に基づいて採用される装置であれば、いずれも本願の保護しようとする範囲に該当する。

図９を参照して、本願実施例四は、下記の構造を備える固有表現の認識装置を提供する。即ち、
学習テキストの第１の特徴情報セットを取得する第１の特徴情報セット取得モジュール９０１と、
第１の認識モデルに基づいて学習テキストの第１の特徴情報セットを認識することにより第２の特徴情報セットを取得する第２の特徴情報セット取得モジュール９０２と、
誤り駆動モデルに基づいて前記第２の特徴情報セットにおける前記Ｍ個の固有表現に対して誤り訂正を行い、Ｋ個（Ｋは０以上Ｍ以下の整数である）の固有表現を取得する誤り訂正モジュール９０３とを備えており、
前記第２の特徴情報セットは、前記第１の認識モデルに基づいて前記第１の特徴情報セットを認識することにより得られたＭ個（Ｍは０以上の整数である）の固有表現を含む

ここで、さらに、前記第１の特徴情報セット取得モジュール９０１は、主として、
認識待ちテキストの第３の特徴情報セットを取得するための第３の特徴情報セット取得手段と、
第３の認識モデルに基づいて前記第３の特徴情報セットを認識することにより第１の特徴情報セットを取得する第１の特徴情報セット取得手段とを備えており、
前記第１の特徴情報セットは、前記第３の認識モデルに基づいて前記第３の特徴情報セットを認識することにより得られたＮ個（Ｎは０以上、Ｍ以下の整数である）の固有表現を含む。

ここで、さらに、前記第３の特徴情報セット取得手段は、
前記認識待ちテキストを取得するための認識待ちテキスト取得手段と、
前記認識待ちテキストを少なくとも１つの認識待ちフレーズに分割するための分割手段と、
前記少なくとも１つの認識待ちフレーズをマークするマークセットを取得するマークセット取得手段と、
前記マークセットに基づいて前記少なくとも１つの認識待ちフレーズをマークして第３の特徴情報セットを取得するマーク手段とを備える。

さらに、前記装置は、前記誤り駆動モデルに基づいて前記第３の特徴情報セットにおける前記Ｍ個の固有表現に対して誤り訂正を行い、Ｋ個の固有表現を取得した後、前記Ｋ個の固有表現の種類情報、位置情報、品詞情報を取得するＫ個の固有表現情報手段を備える。

本願実施例四における装置は、本願実施例二における方法を実施するために対応する装置であるので、本願実施例二における方法に基づいて、当業者は本願実施例四における装置の具体的な実施方法及び本願実施例四における装置の様々な変化形式について理解することが可能となる。そのため、ここでは、当該装置の運行について改めて詳細に紹介せず、当業者が本願実施例二における方法に基づいて採用される装置であれば、いずれも本願の保護しようとする範囲に該当する。

前記技術案のうちの１つ又は複数の技術案は、下記の技術的効果又は利点を有する。

条件付き確率場モデルによる固有表現の認識を行ったうえで、条件付き確率場モデルに認識された固有表現を誤り駆動モデルにより誤り訂正を行う技術案を採用しているため、固有表現の認識正確性を高める技術的効果を達成している。

開示された実施形態及びその他の実施形態と当該明細書に描画されている機能的操作はデジタル回路または当該明細書に開示された構造及び構造同等物であるコンピュータソフトウェア、ファームウェア又はハードウェアにより実施するか、或いはこれらのうちの１つ又は複数の組み合わせにより実施することができる。データ処理装置によりその操作を実行又は制御するように、開示された実施形態及びその他の実施形態は１つ又は複数のコンピュータプログラム製品として、即ち、コンピュータ読取可能な媒体にコードされるコンピュータプログラム命令の１つ又は複数のモジュールとして実施することができる。前記コンピュータ読取可能な媒体としては、機器読取可能な記憶デバイス、機器読取可能な記憶基板、メモリデバイス、機器読取可能な伝送信号に影響し得る合成物質又はこれらのうちの１つ又は複数からなる組み合わせが挙げられる。術語「データ処理装置」は、データを処理するためのあらゆる装置、デバイス及び機器、例えばプログラム可能なプロセッサ、コンピュータ、複数のプロセッサ又はコンピュータを含む。ハードウェアを除き、前記装置は、検討されるコンピュータプログラムの実行環境を作成するコード、例えばプロセッサファームウェア、プロトコルスタック、データベース管理システム及び操作システム又はこれらのうちの１つ又は複数からなる組み合わせを構成するコードをさらに含む。伝送信号は人工的に生成された信号であり、例えば機器により生成された電気、光又は電磁信号が挙げられ、情報をコードして適当な受信機装置に伝送するために生成されたものである。

コンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト又はコードとも言われる）は、コンバイル言語又は解釈性言語を含め、任意の形式のプログラム言語で書き込むことができ、かつ独立プログラムとするか、或いはモジュール、コンポーネント、サブルーチン又はコンピュータ環境下での使用に適するほかの手段とする形式を含め、任意の形式で配置されている。コンピュータプログラムはファイルシステム中のファイルに対応する必要がない。プログラムは、他のプログラム又はデータ（例えば、マーク言語文書に記憶されている１つ又は複数のスクリプト）を格納するファイルの一部、検討されるプログラムに用いられる単一のファイル、又は複数の協同ファイル（例えば、１つ又は複数のモジュール、サブルーチン又はコードを記憶するファイル）に記憶されている。コンピュータプログラムは１つのコンピュータ、或いは、１つの地点に位置するか又は複数の地点に分布しかつ通信ネットワークを経由して互いに接続されている複数のコンピュータにより実行可能である。

当該明細書に描画されている処理及びロジックプロセスは、１つ又は複数のコンピュータを実行して入力データを操作すると共に出力を生成して機能を実行する１つ又は複数のプログラム可能なプロセッサにより実行される。前記処理及びロジックプロセスは、さらに、例えばＦＰＧＡ（フィールド・プログラマブル・ゲート・アレイ）及びＡＳＩＣ（特定用途向け集積回路）のような特別な機能を有するロジック回路により実行され、かつ装置は前記特別な機能を有するロジック回路として実現することもできる。

例示として、コンピュータプログラムの実行に適するプロセッサは、通用及び特別な用途を有するマイクロプロセッサ、及び任意の類型のデジタルコンピュータのいずれか１つ又は複数のプロセッサを含む。通常に、プロセッサは読み取り専用のメモリまたはランダムアクセスメモリ或いはこの両者から指令及びデータを受信する。コンピュータの基本的な素子は、指令を実行するプロセッサと、記憶指令及びデータを格納する１つ以上のメモリデバイスである。通常に、コンピュータはさらにデータを記憶するための１つ以上の大容量記憶デバイス、例えば磁気、磁気−光ディスク又は光ディスクを、前記１つ以上の大容量記憶デバイスに操作可能に結合してその中からデータを受信するか、或いはこれにデータを送信する。コンピュータプログラムの指令及びデータを記憶するコンピュータ読取可能な媒体は、あらゆる形式の不揮発性メモリ、媒体及びメモリデバイスを含み、例えば半導体メモリデバイスと、ＥＰＲＯＭ、ＥＥＰＲＯＭ及びフラッシュデバイス：磁気ディスク、例えば内部ハードディスク又は移動可能なディスク：磁気−光ディスク、及びＣＤ−ＲＯＭ及びＤＶＤ−ＲＯＭディスクを含む。前記プロセッサ及びメモリは特別な用途を有するロジック回路を追加とするか、或いはその中に結合することができる。

ユーザとのインタラクションを提供するために、開示された実施例はコンピュータ上で実施することができる。前記コンピュータは、ユーザに情報を表示するＣＲＴ（陰極線管）又はＬＣＤ（液晶表示器）モニターのような表示デバイス及びキーボードとマウス又はトラックボールのような指示デバイスを有する。ユーザはこれを利用してコンピュータに入力を提供することができる。他の類型のデバイスを使用してユーザとのインタラクションを提供することもできる。例えば、ユーザに提供されるフィードバックは任意の形式の感応フィードバック、例えば視覚フィードバック、聴覚フィードバック又は触覚フィードバックであってもよく、かつユーザからの入力、例えば音、音声又はタッチ入力は任意の形式で受信することができる。

開示された実施例は、例えばデータサーバであるバックエンドコンポーネント、又はアプリケーションサーバであるミドルコンポーネント、又はクライアントコンピュータであるフロントエンドコンポーネント、又は１つ以上のこのようなバックエンド、ミドル又はフロントエンドコンポーネントの任意の組み合わせを含むコンピュータシステムで実施することができる。前記クライアントコンピュータはグラフィカル・ユーザー・インターフェース又はウェブブラウザを有し、ユーザはこれを経由してここで開示された実施形態とインタラクションを行うことができる。前記システムのコンポーネントは任意の形式、又は例えば通信ネットワークのデジタルデータ通信媒体により互いに接続することができる。通信ネットワークの例示はローカルエリアネットワーク（ＬＡＮ）及びワールドエリアネットワーク（ＷＡＮ）、例えばインタネットを含む。

開示された実施例を実施するためのシステムは、クライアントコンピュータ（クライアント）とサーバコンピュータ（サーバ）を含む。クライアント及びサーバは通常に互いに離間し、かつ典型的に通信ネットワークを介してインタラクションを行う。クライアントとサーバの関係は各々のコンピュータで運行しかつ互いにクラインと、サーバ関係を有するコンピュータプログラムにより発生可能である。

当該明細書は複数の特定の内容を含むが、これらは任意の発明又は要求される範囲の制限を構成せず、特定の実施例の特定の特徴の描画として使用される。本明細書では、単独の実施例の環境下で描画される幾つかの特徴はさらに単独の実施例で組み合わせて実施することができる。逆に、単独の実施例の環境下で描画されている様々な特徴は、分散する形で、或いは任意の適当なサブ組み合わせで複数の実施例において実施することもできる。また、以上で、特徴がある組み合わせで機能し、更には最初にこのように要求されるが、要求される組み合わせの１つ又は複数の特徴がある状況下で前記組み合わせから削除され、かつ要求される組み合わせがサブ組み合わせに指向する変化形式に描画することができる。

これと類似するように、操作は図面で特定の順序で描画されているが、示される特定の順序又は連続の順序でこれらの操作を実行するか、又はあらゆる図示される操作を実行することにより必要な結果を実現することが要求されるものとして理解すべきではない。ある状況下で、マルチタスク及び並行処理は有利である。また、以上で描画されている実施例における様々なシステムコンポーネントの離間は、あらゆる実施例でこのような離間を行うことが要求されると理解すべきではない。かつ、描画されているプログラムコンポーネントとシステムは通常に単独のソフトウェア製品中で１つに集成するか、或いは複数のソフトウェアにパッケージすることができる。

このように、特定の実施例が描画されている。他の実施例は添付される請求項の範囲内に該当する。

本出願の最適な実施例が描画されているが、当業者は一旦基本的な進歩性の概念を知ったら、これらの実施例を別の変更や補正を行うことができる。そのため、添付される請求項は、最適な実施例及び本願の範囲に該当するあらゆる変更や補正を含むものとして解釈されている。

本発明の精神及び範囲から逸脱しないかぎり、当業者は本発明に対して様々な変更や変形を行うことができるのが明らかである。これらの変更や変形は本発明の特許請求の範囲及び均等的な範囲に該当すれば、本発明の範囲内に含まれる。

Claims

学習テキストの第１の特徴情報セットを取得するステップと、
学習テキストの第１の特徴情報セットを学習して第１の認識モデルを取得するステップと、
前記第１の認識モデルに基づいて前記第１の特徴情報セットを認識することにより第２の特徴情報セットを取得するステップと、
前記第２の特徴情報セットを学習して誤り駆動モデルを取得するステップとを備えており、
前記第２の特徴情報セットは、前記第１の認識モデルに基づいて前記第１の特徴情報セットを認識することにより得られたＭ個（Ｍは０以上の整数である）の固有表現を含むことを特徴とする固有表現を認識するための認識モデル生成方法。
前記第１の特徴情報セットを取得するステップにおいては、
学習テキストの第３の特徴情報セットを取得し、
学習テキストの第３の特徴情報セットを学習して第３の認識モデルを取得し、
前記第３の認識モデルに基づいて前記第３の特徴情報セットを認識することにより第１の特徴情報セットを取得し、
前記第１の特徴情報セットは、前記第３の認識モデルに基づいて前記第３の特徴情報セットを認識することにより得られたＮ個（Ｎは０以上、Ｍ以下の整数である）の固有表現を含むことを特徴とする請求項１に記載の方法。
前記学習テキストの第３の特徴情報セットを取得するステップにおいては、
前記学習テキストを取得し、
前記学習テキストを少なくとも１つの学習フレーズに分割し、
前記少なくとも１つの学習フレーズをマークするためのマークセットを取得し、
前記マークセットに基づいて前記少なくとも１つの学習フレーズをマークして第３の特徴情報セットを取得することを特徴とする請求項２に記載の方法。
前記第３の特徴情報セットは、具体的に、前記少なくとも１つの学習フレームにおける単語境界情報、文脈情報、品詞情報、文字情報及び句読点情報を含むことを特徴とする請求項２又は３に記載の方法。
学習テキストの第１の特徴情報セットを取得するステップと、
第１の認識モデルに基づいて学習テキストの第１の特徴情報セットを認識することにより第２の特徴情報セットを取得するステップと、
誤り駆動モデルに基づいて前記第２の特徴情報セットにおける前記Ｍ個の固有表現に対して誤り訂正を行い、Ｋ個（Ｋは０以上Ｍ以下の整数である）の固有表現を取得するステップとを備えており、
前記第２の特徴情報セットは、前記第１の認識モデルに基づいて前記第１の特徴情報セットを認識することにより得られたＭ個（Ｍは０以上の整数である）の固有表現を含むことを特徴とする固有表現の認識方法。
前記学習テキストの第１の特徴情報セットを取得するステップにおいては、
認識待ちテキストの第３の特徴情報セットを取得し、
第３の認識モデルに基づいて前記第３の特徴情報セットを認識することにより第１の特徴情報セットを取得し、
前記第１の特徴情報セットは、前記第３の認識モデルに基づいて前記第３の特徴情報セットを認識することにより得られたＮ個（Ｎは０以上、Ｍ以下の整数である）の固有表現を含むことを特徴とする請求項５に記載の方法。
前記誤り駆動モデルに基づいて前記第３の特徴情報セットにおける前記Ｍ個の固有表現に対して誤り訂正を行い、Ｋ個の固有表現を取得した後に、さらに、
前記Ｋ個の固有表現の種類情報、位置情報、品詞情報を取得することを特徴とする請求項５に記載の方法。
前記認識待ちテキストの第３の特徴情報セットを取得するステップにおいては、
前記認識待ちテキストを取得し、
前記認識待ちテキストを少なくとも１つの認識待ちフレーズに分割し、
前記少なくとも１つの認識待ちフレーズをマークするためのマークセットを取得し、
前記マークセットに基づいて前記少なくとも１つの認識待ちフレーズをマークして第３の特徴情報セットを取得することを特徴とする請求項６に記載の方法。
前記第１の特徴情報セットは、前記少なくとも１つの認識待ちフレームにおける単語境界情報、文脈情報、品詞情報、文字情報及び句読点情報を含むことを特徴とする請求項７又は８に記載の方法。
ユーザが学習テキストの第１の特徴情報セットを取得するための第１の特徴情報セット取得モジュールと、
学習テキストの第１の特徴情報セットを学習して第１の認識モデルを取得する第１の識別モデル取得モジュールと、
前記第１の認識モデルに基づいて前記第１の特徴情報セットを認識することにより第２の特徴情報セットを取得する第２の特徴情報セット取得モジュールと、
前記第２の特徴情報セットを学習して誤り駆動モデルを取得する誤り駆動モデル取得モジュールとを備えており、
前記第２の特徴情報セットは、前記第１の認識モデルに基づいて前記第１の特徴情報セットを認識することにより得られたＭ個（Ｍは０以上の整数である）の固有表現を含むことを特徴とする固有表現を認識するための認識モデル生成装置。
前記第１の特徴情報セット取得モジュールは、
学習テキストの第３の特徴情報セットを取得する第３の特徴情報セット取得手段と、
学習テキストの第３の特徴情報セットを学習して第３の認識モデルを取得する第３の認識モデル取得手段と、
前記第３の認識モデルに基づいて前記第３の特徴情報セットを認識することにより第１の特徴情報セットを取得する第１の特徴情報セット取得手段とを備えており、
前記第１の特徴情報セットは、前記第３の認識モデルに基づいて第３の特徴情報セットを認識することにより得られたＮ個（Ｎは０以上、Ｍ以下の整数である）の固有表現を含むことを特徴とする請求項１０に記載の装置。
前記第３の特徴情報セット取得手段は、
前記学習テキストを取得する学習テキスト取得手段と、
前記学習テキストを少なくとも１つの学習フレーズに分割する分割手段と、
前記少なくとも１つの学習フレーズをマークするためのマークセットを取得するマークセット取得手段と、
前記マークセットに基づいて前記少なくとも１つの学習フレーズをマークして第３の特徴情報セットを取得するマーク手段と、
を備えることを特徴とする請求項１１に記載の装置。
学習テキストの第１の特徴情報セットを取得する第１の特徴情報セット取得モジュールと、
第１の認識モデルに基づいて学習テキストの第１の特徴情報セットを認識することにより第２の特徴情報セットを取得する第２の特徴情報セット取得モジュールと、
誤り駆動モデルに基づいて前記第２の特徴情報セットにおける前記Ｍ個の固有表現に対して誤り訂正を行い、Ｋ個（Ｋは０以上、Ｍ以下の整数である）の固有表現を取得する誤り訂正モジュールとを備えており、
前記第２の特徴情報セットは、前記第１の認識モデルに基づいて前記第１の特徴情報セットを認識することにより得られたＭ個（Ｍは０以上の整数である）の固有表現を含むことを特徴とする固有表現の認識装置。
前記第１の特徴情報セット取得モジュールは、主として、
学習テキストの第３の特徴情報セットを取得する第３の特徴情報セット取得手段と、
第３の認識モデルに基づいて前記第３の特徴情報セットを認識することにより第１の特徴情報セットを取得する第１の特徴情報セット取得手段とを備えており、
前記第１の特徴情報セットは、前記第３の認識モデルに基づいて前記第３の特徴情報セットを認識することにより得られたＮ個（Ｎは０以上、Ｍ以下の整数である）の固有表現を含むことを特徴とする請求項１３に記載の装置。
前記誤り駆動モデルに基づいて前記第３の特徴情報セットにおける前記Ｍ個の固有表現に対して誤り訂正を行い、Ｋ個の固有表現を取得した後に、前記Ｋ個の固有表現の種類情報、位置情報、品詞情報を取得するＫ個の固有表現情報手段をさらに備えることを特徴とする請求項１３に記載の装置。
前記第３の特徴情報セット取得手段は、
前記認識待ちテキストを取得する認識待ちテキスト取得手段と、
前記認識待ちテキストを少なくとも１つの認識待ちフレーズに分割する分割手段と、
前記少なくとも１つの認識待ちフレーズをマークするためのマークセットを取得するマークセット取得手段と、
前記マークセットに基づいて前記少なくとも１つの認識待ちフレーズをマークして第３の特徴情報セットを取得するマーク手段と、
を備えることを特徴とする請求項１４に記載の装置。