JP2014529787A - 固有表現の認識方法及び装置 - Google Patents
固有表現の認識方法及び装置 Download PDFInfo
- Publication number
- JP2014529787A JP2014529787A JP2014525305A JP2014525305A JP2014529787A JP 2014529787 A JP2014529787 A JP 2014529787A JP 2014525305 A JP2014525305 A JP 2014525305A JP 2014525305 A JP2014525305 A JP 2014525305A JP 2014529787 A JP2014529787 A JP 2014529787A
- Authority
- JP
- Japan
- Prior art keywords
- feature information
- information set
- recognition
- learning
- recognizing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3325—Reformulation based on results of preceding query
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本出願は、固有表現を認識するための認識モデル生成方法及び装置、並びに、固有表現の認識方法及び装置を開示している。前記固有表現の認識方法において、学習テキストの第1の特徴情報セットを取得し、第1の認識モデルに基づいて学習テキストの第1の特徴情報セットを認識することにより第2の特徴情報セット(この第2の特徴情報セットは、前記第1の認識モデルに基づいて前記第1の特徴情報セットを認識することにより得られたM個の固有表現を含み、ここで、Mは0以上の整数である)を取得し、誤り駆動モデルに基づいて前記第2の特徴情報セットにおける前記M個の固有表現に対して誤り訂正を行い、K個(Kは0以上、M以下の整数である)の固有表現を取得する。【選択図】図5
Description
本出願は、人工知能分野に関し、特に固有表現の認識方法及び装置に関する。
コンピュータネットワークの規模が日々拡大し続けることに伴い、大量の情報が電子ファイルの形式で人々の前に現れた。コンピュータは数多くの情報から有用な情報を抽出することができるように望まれている。情報抽出の主なタスクの1つは固有表現の認識(Named Entity Recognized:NER)である。
固有表現とは、命名された、唯一に同定された、特定の意味を有する最小の情報単位である専有名称と数量フレーズであり、主として7種類の固有表現、即ち、人名、地名、組織名、日付、時間、金額及びパーセンテージを含む。固有表現の認識の主なタスクは、テキストにおける固有表現を認識して分類することである。
この7種類の固有表現において、人名、地名及び組織名などの固有表現は開放性及び発展性などの特徴を有し、かつ形成規則が大きなランダム性を有するため、それらを認識する際に、多くの間違いや漏れが生じるから、現在のほとんどの固有表現の認識に対する検討はこの3つの固有表現の認識技術に焦点を当てている。
条件付き確率場(conditional random fields)による固有表現の認識(固有表現の抽出)は、現在よく使用される固有表現の認識方法(固有表現の抽出方法)である。この方法において、固有表現の認識過程を2層に分ける。底層の条件付き確率場モデルは観測値だけを条件として簡単な固有表現の認識に使用される。その後、認識された結果を高層認識モデルに伝送する。こうすると、高層モデルの入力変数は観測値のみならず、底層モデルの簡単な認識結果も含めているから、高層条件付き確率場モデルによる複雑な固有表現の認識のための基盤を固めている。
ところが、本出願の実施例における技術案を実現する工程において、本出願人らは、従来技術には下記の欠点があったことを発見した。
従来技術において、条件付き確率場の2層モデルに基づいて固有表現を認識するだけであり、認識された固有表現が正しいか否かを考慮しなかったので、認識が十分に正確ではなかった技術問題が存在している。
従来より、条件付き確率場の2層モデルに基づいて固有表現を認識するだけであり、認識された固有表現が正しいか否かを考慮しなかったので、認識が十分に正確ではなかった技術問題を解決するために、本発明は固有表現の認識方法及び装置を提供している。
本発明は本出願における実施例により、下記の技術案を提供する。
一方、本発明は本出願における実施例により、下記の技術案を提供する。即ち、
固有表現を認識するための認識モデル生成方法であって、
学習テキストの第1の特徴情報セットを取得するステップと、
学習テキストの第1の特徴情報セットを学習して第1の認識モデルを取得するステップと、
前記第1の認識モデルに基づいて前記第1の特徴情報セットを認識することにより第2の特徴情報セットを取得するステップと、
前記第2の特徴情報セットを学習して誤り駆動モデルを取得するステップとを備えており、
前記第2の特徴情報セットは、前記第1の認識モデルに基づいて前記第1の特徴情報セットを認識することにより得られたM個(Mは0以上の整数である)の固有表現を含む。
固有表現を認識するための認識モデル生成方法であって、
学習テキストの第1の特徴情報セットを取得するステップと、
学習テキストの第1の特徴情報セットを学習して第1の認識モデルを取得するステップと、
前記第1の認識モデルに基づいて前記第1の特徴情報セットを認識することにより第2の特徴情報セットを取得するステップと、
前記第2の特徴情報セットを学習して誤り駆動モデルを取得するステップとを備えており、
前記第2の特徴情報セットは、前記第1の認識モデルに基づいて前記第1の特徴情報セットを認識することにより得られたM個(Mは0以上の整数である)の固有表現を含む。
さらに、前記第1の特徴情報セットを取得するステップにおいては、
学習テキストの第3の特徴情報セットを取得し、
学習テキストの第3の特徴情報セットを学習して第3の認識モデルを取得し、
前記第3の認識モデルに基づいて前記第3の特徴情報セットを認識することにより第1の特徴情報セットを取得し、
前記第1の特徴情報セットは、前記第3の認識モデルに基づいて前記第3の特徴情報セットを認識することにより得られたN個(Nは0以上、M以下の整数である)の固有表現を含む。
学習テキストの第3の特徴情報セットを取得し、
学習テキストの第3の特徴情報セットを学習して第3の認識モデルを取得し、
前記第3の認識モデルに基づいて前記第3の特徴情報セットを認識することにより第1の特徴情報セットを取得し、
前記第1の特徴情報セットは、前記第3の認識モデルに基づいて前記第3の特徴情報セットを認識することにより得られたN個(Nは0以上、M以下の整数である)の固有表現を含む。
さらに、前記学習テキストの第3の特徴情報セットを取得するステップにおいては、
前記学習テキストを取得し、
前記学習テキストを少なくとも1つの学習フレーズに分割し、
前記少なくとも1つの学習フレーズをマークするためのマークセットを取得し、
前記マークセットに基づいて前記少なくとも1つの学習フレーズをマークして第3の特徴情報セットを取得する。
前記学習テキストを取得し、
前記学習テキストを少なくとも1つの学習フレーズに分割し、
前記少なくとも1つの学習フレーズをマークするためのマークセットを取得し、
前記マークセットに基づいて前記少なくとも1つの学習フレーズをマークして第3の特徴情報セットを取得する。
さらに、前記第3の特徴情報セットは、具体的に、
前記少なくとも1つの認識待ちフレームにおける単語境界情報、文脈情報、品詞情報、文字情報及び句読点情報を含む。
前記少なくとも1つの認識待ちフレームにおける単語境界情報、文脈情報、品詞情報、文字情報及び句読点情報を含む。
他方、本発明は本出願における別の実施例により下記の技術案を提供する。即ち、固有表現の認識方法であって、
学習テキストの第1の特徴情報セットを取得するステップと、
第1の認識モデルに基づいて学習テキストの第1の特徴情報セットを認識することにより第2の特徴情報セットを取得するステップと、
誤り駆動モデルに基づいて前記第2の特徴情報セットにおける前記M個の固有表現に対して誤り訂正を行い、K個(Kは0以上M以下の整数である)の固有表現を取得するステップとを備えており、
前記第2の特徴情報セットは、前記第1の認識モデルに基づいて前記第1の特徴情報セットを認識することにより得られたM個(Mは0以上の整数である)の固有表現を含む。
学習テキストの第1の特徴情報セットを取得するステップと、
第1の認識モデルに基づいて学習テキストの第1の特徴情報セットを認識することにより第2の特徴情報セットを取得するステップと、
誤り駆動モデルに基づいて前記第2の特徴情報セットにおける前記M個の固有表現に対して誤り訂正を行い、K個(Kは0以上M以下の整数である)の固有表現を取得するステップとを備えており、
前記第2の特徴情報セットは、前記第1の認識モデルに基づいて前記第1の特徴情報セットを認識することにより得られたM個(Mは0以上の整数である)の固有表現を含む。
さらに、前記学習テキストの第1の特徴情報セットを取得するステップにおいては、
認識待ちテキストの第3の特徴情報セットを取得し、
第3の認識モデルに基づいて前記第3の特徴情報セットを認識することにより第1の特徴情報セットを取得し、
前記第1の特徴情報セットは、前記第3の認識モデルに基づいて前記第3の特徴情報セットを認識することにより得られたN個(Nは0以上、M以下の整数である)の固有表現を含む。
認識待ちテキストの第3の特徴情報セットを取得し、
第3の認識モデルに基づいて前記第3の特徴情報セットを認識することにより第1の特徴情報セットを取得し、
前記第1の特徴情報セットは、前記第3の認識モデルに基づいて前記第3の特徴情報セットを認識することにより得られたN個(Nは0以上、M以下の整数である)の固有表現を含む。
さらに、前記誤り駆動モデルに基づいて前記第3の特徴情報セットにおける前記M個の固有表現に対して誤り訂正を行い、K個の固有表現を取得した後に、さらに、
前記K個の固有表現の種類情報、位置情報、品詞情報を取得する。
前記K個の固有表現の種類情報、位置情報、品詞情報を取得する。
さらに、前記認識待ちテキストの第3の特徴情報セットを取得するステップにおいては、
前記認識待ちテキストを取得し、
前記認識待ちテキストを少なくとも1つの認識待ちフレーズに分割し、
前記少なくとも1つの認識待ちフレーズをマークするためのマークセットを取得し、
前記マークセットに基づいて前記少なくとも1つの認識待ちフレーズをマークして第3の特徴情報セットを取得する。
前記認識待ちテキストを取得し、
前記認識待ちテキストを少なくとも1つの認識待ちフレーズに分割し、
前記少なくとも1つの認識待ちフレーズをマークするためのマークセットを取得し、
前記マークセットに基づいて前記少なくとも1つの認識待ちフレーズをマークして第3の特徴情報セットを取得する。
さらに、前記第1の特徴情報セットは、具体的に、前記少なくとも1つの認識待ちフレームにおける単語境界情報、文脈情報、品詞情報、文字情報及び句読点情報を含む。
また、本発明は本出願における別の実施例により下記の技術案を提供する。即ち、固有表現を認識するための認識モデル生成装置であって、
ユーザが学習テキストの第1の特徴情報セットを取得するための第1の特徴情報セット取得モジュールと、
学習テキストの第1の特徴情報セットを学習して第1の認識モデルを取得する第1の識別モデル取得モジュールと、
前記第1の認識モデルに基づいて前記第1の特徴情報セットを認識することにより第2の特徴情報セットを取得する第2の特徴情報セット取得モジュールと、
前記第2の特徴情報セットを学習して誤り駆動モデルを取得する誤り駆動モデル取得モジュールとを備えており、
前記第2の特徴情報セットは、前記第1の認識モデルに基づいて前記第1の特徴情報セットを認識することにより得られたM個(Mは0以上の整数である)の固有表現を含む。
ユーザが学習テキストの第1の特徴情報セットを取得するための第1の特徴情報セット取得モジュールと、
学習テキストの第1の特徴情報セットを学習して第1の認識モデルを取得する第1の識別モデル取得モジュールと、
前記第1の認識モデルに基づいて前記第1の特徴情報セットを認識することにより第2の特徴情報セットを取得する第2の特徴情報セット取得モジュールと、
前記第2の特徴情報セットを学習して誤り駆動モデルを取得する誤り駆動モデル取得モジュールとを備えており、
前記第2の特徴情報セットは、前記第1の認識モデルに基づいて前記第1の特徴情報セットを認識することにより得られたM個(Mは0以上の整数である)の固有表現を含む。
さらに、前記第1の特徴情報セット取得モジュールは、
学習テキストの第3の特徴情報セットを取得する第3の特徴情報セット取得手段と、
学習テキストの第3の特徴情報セットを学習して第3の認識モデルを取得する第3の認識モデル取得手段と、
前記第3の認識モデルに基づいて前記第3の特徴情報セットを認識することにより第1の特徴情報セットを取得する第1の特徴情報セット取得手段とを備えており、
前記第1の特徴情報セットは、前記第3の認識モデルに基づいて第3の特徴情報セットを認識することにより得られたN個(Nは0以上、M以下の整数である)の固有表現を含む。
学習テキストの第3の特徴情報セットを取得する第3の特徴情報セット取得手段と、
学習テキストの第3の特徴情報セットを学習して第3の認識モデルを取得する第3の認識モデル取得手段と、
前記第3の認識モデルに基づいて前記第3の特徴情報セットを認識することにより第1の特徴情報セットを取得する第1の特徴情報セット取得手段とを備えており、
前記第1の特徴情報セットは、前記第3の認識モデルに基づいて第3の特徴情報セットを認識することにより得られたN個(Nは0以上、M以下の整数である)の固有表現を含む。
さらに、前記第3の特徴情報セット取得手段は、
前記学習テキストを取得する学習テキスト取得手段と、
前記学習テキストを少なくとも1つの学習フレーズに分割する分割手段と、
前記少なくとも1つの学習フレーズをマークするためのマークセットを取得するマークセット取得手段と、
前記マークセットに基づいて前記少なくとも1つの学習フレーズをマークして第3の特徴情報セットを取得するマーク手段とを備える。
前記学習テキストを取得する学習テキスト取得手段と、
前記学習テキストを少なくとも1つの学習フレーズに分割する分割手段と、
前記少なくとも1つの学習フレーズをマークするためのマークセットを取得するマークセット取得手段と、
前記マークセットに基づいて前記少なくとも1つの学習フレーズをマークして第3の特徴情報セットを取得するマーク手段とを備える。
一方、本発明は本出願における別の実施例により下記の技術案を提供する。即ち、
固有表現の認識装置であって、
学習テキストの第1の特徴情報セットを取得する第1の特徴情報セット取得モジュールと、
第1の認識モデルに基づいて学習テキストの第1の特徴情報セットを認識することにより第2の特徴情報セットを取得する第2の特徴情報セット取得モジュールと、
誤り駆動モデルに基づいて前記第2の特徴情報セットにおける前記M個の固有表現に対して誤り訂正を行い、K個(Kは0以上、M以下の整数である)の固有表現を取得する誤り訂正モジュールとを備えており、
前記第2の特徴情報セットは、前記第1の認識モデルに基づいて前記第1の特徴情報セットを認識することにより得られたM個(Mは0以上の整数である)の固有表現を含む。
固有表現の認識装置であって、
学習テキストの第1の特徴情報セットを取得する第1の特徴情報セット取得モジュールと、
第1の認識モデルに基づいて学習テキストの第1の特徴情報セットを認識することにより第2の特徴情報セットを取得する第2の特徴情報セット取得モジュールと、
誤り駆動モデルに基づいて前記第2の特徴情報セットにおける前記M個の固有表現に対して誤り訂正を行い、K個(Kは0以上、M以下の整数である)の固有表現を取得する誤り訂正モジュールとを備えており、
前記第2の特徴情報セットは、前記第1の認識モデルに基づいて前記第1の特徴情報セットを認識することにより得られたM個(Mは0以上の整数である)の固有表現を含む。
さらに、前記第1の特徴情報セット取得モジュールは、主として、
学習テキストの第3の特徴情報セットを取得する第3の特徴情報セット取得手段と、
第3の認識モデルに基づいて前記第3の特徴情報セットを認識することにより第1の特徴情報セットを取得する第1の特徴情報セット取得手段とを備えており、
前記第1の特徴情報セットは、前記第3の認識モデルに基づいて前記第3の特徴情報セットを認識することにより得られたN個(Nは0以上、M以下の整数である)の固有表現を含む。
学習テキストの第3の特徴情報セットを取得する第3の特徴情報セット取得手段と、
第3の認識モデルに基づいて前記第3の特徴情報セットを認識することにより第1の特徴情報セットを取得する第1の特徴情報セット取得手段とを備えており、
前記第1の特徴情報セットは、前記第3の認識モデルに基づいて前記第3の特徴情報セットを認識することにより得られたN個(Nは0以上、M以下の整数である)の固有表現を含む。
前記誤り駆動モデルに基づいて前記第3の特徴情報セットにおける前記M個の固有表現に対して誤り訂正を行い、K個の固有表現を取得した後に、前記K個の固有表現の種類情報、位置情報、品詞情報を取得するK個の固有表現情報手段をさらに備える
さらに、前記第3の特徴情報セット取得手段は、
前記認識待ちテキストを取得する認識待ちテキスト取得手段と、
前記認識待ちテキストを少なくとも1つの認識待ちフレーズに分割する分割手段と、
前記少なくとも1つの認識待ちフレーズをマークするためのマークセットを取得するマークセット取得手段と、
前記マークセットに基づいて前記少なくとも1つの認識待ちフレーズをマークして第3の特徴情報セットを取得するマーク手段とを備える。
前記認識待ちテキストを取得する認識待ちテキスト取得手段と、
前記認識待ちテキストを少なくとも1つの認識待ちフレーズに分割する分割手段と、
前記少なくとも1つの認識待ちフレーズをマークするためのマークセットを取得するマークセット取得手段と、
前記マークセットに基づいて前記少なくとも1つの認識待ちフレーズをマークして第3の特徴情報セットを取得するマーク手段とを備える。
前記技術案のうちの1つ又は複数の技術案は下記の技術的特徴または利点を有する。
条件付き確率場モデルによる固有表現の認識を行ったうえで、条件付き確率場モデルに認識された固有表現を誤り駆動モデルにより誤り訂正を行う技術案を採用しているため、固有表現の認識正確性を高め、簡単な固有表現の認識正確率が97.35%となり、複雑な固有表現の認識正確率が87.6%となる技術的効果を達成している。
当業者に本出願を更に明瞭に理解させるために、以下で、図面に沿いながら具体的な実施例により本願の技術案について詳細に説明する。
図1〜図4を参照して、本願実施例一は下記のステップを含む固有表現を認識するための認識モデル生成方法を提供する。
S101:学習テキストの第1の特徴情報セットを取得し、
さらに、前記第1の特徴情報セットの取得は、図2に示すように、具体的に、
S201:学習テキストの第3の特徴情報セットを取得し、
さらに、前記学習テキストの第3の特徴情報セットの取得は、図3に示すように、具体的に、
S301:前記学習テキストを取得し、
S302:前記学習テキストを少なくとも1つの学習フレーズに分割し、
S303:前記少なくとも1つの学習フレーズをマークするためのマークセットを取得し、
S304:前記マークセットに基づいて前記少なくとも1つの学習フレーズをマークして第3の特徴情報セットを取得する。
S101:学習テキストの第1の特徴情報セットを取得し、
さらに、前記第1の特徴情報セットの取得は、図2に示すように、具体的に、
S201:学習テキストの第3の特徴情報セットを取得し、
さらに、前記学習テキストの第3の特徴情報セットの取得は、図3に示すように、具体的に、
S301:前記学習テキストを取得し、
S302:前記学習テキストを少なくとも1つの学習フレーズに分割し、
S303:前記少なくとも1つの学習フレーズをマークするためのマークセットを取得し、
S304:前記マークセットに基づいて前記少なくとも1つの学習フレーズをマークして第3の特徴情報セットを取得する。
さらに、前記第3の特徴情報セットは、具体的に、前記少なくとも1つの学習フレームにおける単語境界情報、文脈情報、品詞情報、文字情報及び句読点情報を含む。
具体的な実施工程において、図4に示すように、学習テキストは
[外1]
であると仮定されると、一定の規則に基づいて、この学習テキストを学習フレーズに分割する。
空白行404は、各々の学習フレーズの間の分割線を示す。
その後、ユーザが前記少なくとも1つの学習フレーズをマークするマークセットを取得することができる。本願実施例一において、マークセットは、
C = {BR,IR,BT,IT,BS,IS,BZ,IZ}である。
ここで、BRは人名の1番目の文字をマークし、IRは人名の残りの文字をマークし、BTは機構名の1番目の文字をマークし、ITは機構名の残りの文字をマークし、BSは地名の1番目の文字をマークし、ISは機構名の残りの文字をマークし、BZは他の固有表現の1番目の文字をマークし、IZは他の固有表現の残りの文字をマークする。
[外1]
であると仮定されると、一定の規則に基づいて、この学習テキストを学習フレーズに分割する。
空白行404は、各々の学習フレーズの間の分割線を示す。
その後、ユーザが前記少なくとも1つの学習フレーズをマークするマークセットを取得することができる。本願実施例一において、マークセットは、
C = {BR,IR,BT,IT,BS,IS,BZ,IZ}である。
ここで、BRは人名の1番目の文字をマークし、IRは人名の残りの文字をマークし、BTは機構名の1番目の文字をマークし、ITは機構名の残りの文字をマークし、BSは地名の1番目の文字をマークし、ISは機構名の残りの文字をマークし、BZは他の固有表現の1番目の文字をマークし、IZは他の固有表現の残りの文字をマークする。
しかし、具体的な実施工程において、マークセットはC={BR,IR,BT,IT,BS,IS,BZ,IZ}の形態に限らず、当業者が設置するマークにより達成し得る技術的効果は本出願が達成すべき技術的効果と同じものであれば、いずれも本願の発明構想の概念範囲内に該当する。
その後、学習テキストは、マークされることにより、図3に示す条件付き確率場の学習が必要な第3の特徴情報セットの形態に処理される。ここで、
401は、1つの文字の特徴情報を指す。
402は、文字のマークセットである。
403は、複数の文字の特徴情報を指す。
401は、1つの文字の特徴情報を指す。
402は、文字のマークセットである。
403は、複数の文字の特徴情報を指す。
具体的な実施工程において、条件付き確率場の学習が必要な第3の特徴情報セットは、図4に示す形態に限らず、具体的な情況に応じて、幾つかのパラメータを増加するか、低減することができるが、当業者が選択する第1の特徴情報セットは本出願が達成すべき技術的効果と同じであれば、いずれも本願の発明構想の概念範囲内に該当する。
S202:学習テキストの第3の特徴情報セットを学習して第3の認識モデルを取得する。
具体的な実施工程において、学習テキストの第3の特徴情報セットを学習する際に、第3の特徴テンプレートに基づいて行われる。
具体的な実施工程において、学習テキストの第3の特徴情報セットを学習する際に、第3の特徴テンプレートに基づいて行われる。
S203:前記第3の認識モデルに基づいて前記第3の特徴情報セットを認識することにより第1の特徴情報セットを取得し、前記第1の特徴情報セットは、前記第3の認識モデルに基づいて前記第3の特徴情報セットを認識することにより得られたN個(Nは0以上、M以下の整数である)の固有表現を含む。
S102:学習テキストの第1の特徴情報セットを学習して第1の認識モデルを取得する。
具体的な実施工程において、学習テキストの第1の特徴情報セットを学習する際に、第1の特徴テンプレートに基づいて行われる。
具体的な実施工程において、学習テキストの第1の特徴情報セットを学習する際に、第1の特徴テンプレートに基づいて行われる。
S103:前記第1の認識モデルに基づいて前記第1の特徴情報セットを認識することにより第2の特徴情報セットを取得し、前記第2の特徴情報セットは、前記第1の認識モデルに基づいて前記第1の特徴情報セットを認識することにより得られたM個(Mは0以上の整数である)の固有表現を含む。
S104:前記第2の特徴情報セットを学習して誤り駆動モデルを取得する。
具体的な実施工程において、第2の特徴情報セットを学習する際に、第2の特徴テンプレートに基づいて行われる。
ここで、取得された誤り駆動モデルは、主として第2の特徴情報セットにおいて得られたM個の固有表現の識別が誤ったか否かを認識する。
具体的な実施工程において、第2の特徴情報セットを学習する際に、第2の特徴テンプレートに基づいて行われる。
ここで、取得された誤り駆動モデルは、主として第2の特徴情報セットにおいて得られたM個の固有表現の識別が誤ったか否かを認識する。
具体的な実施工程において、第1の特徴テンプレート、第2の特徴テンプレート及び第3の特徴テンプレートは、複数の特徴テンプレートの中で複数回の最適化を行い、認識効果が最も良い特徴テンプレートを選択することができる。ここで、具体的な最適化方式は、第1の特徴テンプレートに基づいて第1の特徴情報セットを認識して簡単な認識モデルを得た後に、当該モデルを認識して第1の特徴テンプレートを調整し、それに、第1の特徴情報セットを認識し、その後、再認識を行うことによって、最適な第1の特徴テンプレートを選択することである。第2の特徴テンプレート、第3の特徴テンプレートの選択工程は第1の特徴テンプレートの選択工程と類似している。また、第1の特徴テンプレート、第2の特徴テンプレート、第3の特徴テンプレートを選択し、その後、第1の特徴情報セットを認識して簡単な認識モデル、複雑な認識モデル及び誤り駆動モデルを取得し、最後に全体的に認識を行うことにより最適な特徴テンプレートを選択しても良い。しかし、具体的な実施工程において、第1の特徴テンプレート、第2の特徴テンプレート、第3の特徴テンプレートの選択方式は前記方式に限らず、当業者が選択する第1の特徴テンプレート、第2の特徴テンプレート、第3の特徴テンプレートが達成し得る技術的効果は本出願の達成すべき技術的効果と同じであれば、いずれも本願の発明構想の概念範囲内に該当する。
図5を参照して、本願実施例二は、下記のステップを含む固有表現の認識方法を提供する。
S501:認識待ちテキストの第1の特徴情報セットを取得し、
さらに、前記認識待ちテキストの第1の特徴情報セットの取得は、図6に示すように、具体的に、
S601:認識待ちテキストの第3の特徴情報セットを取得し、
さらに、前記認識待ちテキストの第3の特徴情報セットの取得は、図7に示すように、具体的に、
S701:前記認識待ちテキストを取得し、
S702:前記認識待ちテキストを少なくとも1つの認識待ちフレーズに分割し、
S703:前記少なくとも1つの認識待ちフレーズをマークするマークセットを取得し、
S704:前記マークセットに基づいて前記少なくとも1つの認識待ちフレーズをマークして第3の特徴情報セットを取得する。
S501:認識待ちテキストの第1の特徴情報セットを取得し、
さらに、前記認識待ちテキストの第1の特徴情報セットの取得は、図6に示すように、具体的に、
S601:認識待ちテキストの第3の特徴情報セットを取得し、
さらに、前記認識待ちテキストの第3の特徴情報セットの取得は、図7に示すように、具体的に、
S701:前記認識待ちテキストを取得し、
S702:前記認識待ちテキストを少なくとも1つの認識待ちフレーズに分割し、
S703:前記少なくとも1つの認識待ちフレーズをマークするマークセットを取得し、
S704:前記マークセットに基づいて前記少なくとも1つの認識待ちフレーズをマークして第3の特徴情報セットを取得する。
さらに、前記第1の特徴情報セットは、具体的に、前記少なくとも1つの認識待ちフレームにおける単語境界情報、文脈情報、品詞情報、文字情報及び句読点情報を含む。
具体的な実施工程において、認識待ちテキストの第3の特徴情報セットの取得工程は、学習テキストの第1の特徴情報セットの取得工程とほぼ同じであり、認識待ちテキストは
[外1]
であることを例とする場合に、前記認識待ちテキストを図4に示す第3の特徴情報セットの形態に処理する。当然ながら、具体的な実施工程では、学習テキストと認識待ちテキストの第3の特徴情報セットの生成はまったく異なる2つの工程である。そのため、異なる条件要因に基づいて、たとえ同じテキストであったとしても、生成される学習テキストの第3の特徴情報セットと認識待ちテキストの第3の特徴情報セットは必ずしも同じものであるとは限らない。
[外1]
であることを例とする場合に、前記認識待ちテキストを図4に示す第3の特徴情報セットの形態に処理する。当然ながら、具体的な実施工程では、学習テキストと認識待ちテキストの第3の特徴情報セットの生成はまったく異なる2つの工程である。そのため、異なる条件要因に基づいて、たとえ同じテキストであったとしても、生成される学習テキストの第3の特徴情報セットと認識待ちテキストの第3の特徴情報セットは必ずしも同じものであるとは限らない。
S602:第3の認識モデルに基づいて前記第3の特徴情報セットを認識することにより第1の特徴情報セットを取得し、前記第1の特徴情報セットは、前記第3の認識モデルに基づいて第3の特徴情報セットを認識することにより得られたN個(Nは0以上、M以下の整数である)の固有表現を含む
S502:第1の認識モデルに基づいて学習テキストの第1の特徴情報セットを認識することにより第2の特徴情報セットを取得し、前記第2の特徴情報セットは、前記第1の認識モデルに基づいて前記第1の特徴情報セットを認識することにより得られたM個(Mは0以上の整数である)の固有表現を含む。
具体的な実施工程において、第2の認識モデルに認識された固有表現は、あらゆる固有表現のうちの比較的簡単で認識しやすい部分である。第2の認識モデルに基づいて前の認識待ちテキストを認識することにより得られた固有表現は
[外2]
、「北京」であると仮定された場合に、まず、この2つの固有表現を第2の特徴情報セットにおいてマークし、そのマーク方式は第1の特徴情報セットのマーク方式と同じであり、いずれもマークセットCを用いて表記する。当然ながら、他の第1の認識モデルが認識可能なマーク方式を用いても良い。
[外2]
、「北京」であると仮定された場合に、まず、この2つの固有表現を第2の特徴情報セットにおいてマークし、そのマーク方式は第1の特徴情報セットのマーク方式と同じであり、いずれもマークセットCを用いて表記する。当然ながら、他の第1の認識モデルが認識可能なマーク方式を用いても良い。
S503:誤り駆動モデルに基づいて前記第2の特徴情報セットにおける前記M個の固有表現に対して誤り訂正を行い、K個(Kは0以上M以下の整数である)の固有表現を取得する。
第1の認識モデルと第2の認識モデルに基づいて認識された固有表現の中で、誤った固有表現が存在する恐れがあるので、誤り駆動モデルに基づいて修正する必要がある。例えば、この前に3つの固有表現である
[外2]
、「北京」、「全国人」が認識され、誤り駆動モデルにより、「全国人」の認識が誤っていると判断され、「全国人大」のはずであるので、修正する必要がある。最後に、3つの固有表現である
[外2]
、「北京」、「全国人大」が得られる。
[外2]
、「北京」、「全国人」が認識され、誤り駆動モデルにより、「全国人」の認識が誤っていると判断され、「全国人大」のはずであるので、修正する必要がある。最後に、3つの固有表現である
[外2]
、「北京」、「全国人大」が得られる。
さらに、前記誤り駆動モデルに基づいて前記第3の特徴情報セットにおける前記M個の固有表現に対して誤り訂正を行い、K個の固有表現を取得した後に、さらに、
前記K個の固有表現の種類情報、位置情報、品詞情報を取得する。
前記K個の固有表現の種類情報、位置情報、品詞情報を取得する。
具体的な実施工程において、認識された固有表現は必ずしもそのまま使用することができるとは言えないので、異なる適用場合の需要に応じるように、固有表現の様々な属性情報、例えば種類情報、位置情報及び品詞情報を抽出する必要がある。当然ながら、具体的な実施工程において、抽出された属性情報が固有表現の種類情報、位置情報及び品詞情報に限らず、当業者によって抽出された属性情報が達成し得る技術的効果は本出願の達成すべき技術的効果と同じものであれば、いずれも本出願の発明構想の概念範囲内に該当する。
図8を参照して、本願実施例三は、固有表現を認識するための認識モデル生成装置を提供し、図8に示すように、
ユーザが学習テキストの第1の特徴情報セットを取得する第1の特徴情報セット取得モジュール801と、
学習テキストの第1の特徴情報を学習して第1の認識モデルを取得する第1の認識モデル取得モジュール802と、
前記第1の認識モデルに基づいて前記第1の特徴情報セットを認識することにより第2の特徴情報セットを取得する第2の特徴情報セット取得モジュール803と、
前記第2の特徴情報セットを学習して誤り駆動モデルを取得する誤り駆動モデル取得モジュール804とを備えており、
前記第2の特徴情報セットは、前記第1の認識モデルに基づいて前記第1の特徴情報セットを認識することにより得られたM個(Mは0以上の整数である)の固有表現を含む。
ユーザが学習テキストの第1の特徴情報セットを取得する第1の特徴情報セット取得モジュール801と、
学習テキストの第1の特徴情報を学習して第1の認識モデルを取得する第1の認識モデル取得モジュール802と、
前記第1の認識モデルに基づいて前記第1の特徴情報セットを認識することにより第2の特徴情報セットを取得する第2の特徴情報セット取得モジュール803と、
前記第2の特徴情報セットを学習して誤り駆動モデルを取得する誤り駆動モデル取得モジュール804とを備えており、
前記第2の特徴情報セットは、前記第1の認識モデルに基づいて前記第1の特徴情報セットを認識することにより得られたM個(Mは0以上の整数である)の固有表現を含む。
ここで、さらに、前記第1の特徴情報セット取得モジュール801は、
学習テキストの第3の特徴情報セットを取得する第3の特徴情報セット取得手段と、
学習テキストの第3の特徴情報セットを学習して第3の認識モデルを取得する第3の認識モデル取得手段と、
前記第3の認識モデルに基づいて前記第3の特徴情報セットを認識することにより第1の特徴情報セットを取得する第1の特徴情報セット取得手段とを備えており、
前記第1の特徴情報セットは、前記第3の認識モデルに基づいて第3の特徴情報セットを認識することにより得られたN個(Nは0以上、M以下の整数である)の固有表現を含む。
学習テキストの第3の特徴情報セットを取得する第3の特徴情報セット取得手段と、
学習テキストの第3の特徴情報セットを学習して第3の認識モデルを取得する第3の認識モデル取得手段と、
前記第3の認識モデルに基づいて前記第3の特徴情報セットを認識することにより第1の特徴情報セットを取得する第1の特徴情報セット取得手段とを備えており、
前記第1の特徴情報セットは、前記第3の認識モデルに基づいて第3の特徴情報セットを認識することにより得られたN個(Nは0以上、M以下の整数である)の固有表現を含む。
ここで、さらに、前記第3の特徴情報セット取得手段は、
前記学習テキストを取得するための学習テキスト取得手段と、
前記学習テキストを少なくとも1つの学習フレーズに分割するための分割手段と、
前記少なくとも1つの学習フレーズをマークするマークセットを取得するマークセット取得手段と、
前記マークセットに基づいて前記少なくとも1つの学習フレーズをマークして第3の特徴情報セットを取得するマーク手段とを備える。
前記学習テキストを取得するための学習テキスト取得手段と、
前記学習テキストを少なくとも1つの学習フレーズに分割するための分割手段と、
前記少なくとも1つの学習フレーズをマークするマークセットを取得するマークセット取得手段と、
前記マークセットに基づいて前記少なくとも1つの学習フレーズをマークして第3の特徴情報セットを取得するマーク手段とを備える。
本願実施例三における装置は、本願実施例一における方法を実施するために対応する装置であるので、本願実施例一における方法に基づいて、当業者は本願実施例三における装置の具体的な実施方法及び本願実施例三における装置の様々な変化形式について理解することが可能となる。そのため、ここでは、当該装置の動作について改めて詳細に紹介せず、当業者が本願実施例一における方法に基づいて採用される装置であれば、いずれも本願の保護しようとする範囲に該当する。
図9を参照して、本願実施例四は、下記の構造を備える固有表現の認識装置を提供する。即ち、
学習テキストの第1の特徴情報セットを取得する第1の特徴情報セット取得モジュール901と、
第1の認識モデルに基づいて学習テキストの第1の特徴情報セットを認識することにより第2の特徴情報セットを取得する第2の特徴情報セット取得モジュール902と、
誤り駆動モデルに基づいて前記第2の特徴情報セットにおける前記M個の固有表現に対して誤り訂正を行い、K個(Kは0以上M以下の整数である)の固有表現を取得する誤り訂正モジュール903とを備えており、
前記第2の特徴情報セットは、前記第1の認識モデルに基づいて前記第1の特徴情報セットを認識することにより得られたM個(Mは0以上の整数である)の固有表現を含む
学習テキストの第1の特徴情報セットを取得する第1の特徴情報セット取得モジュール901と、
第1の認識モデルに基づいて学習テキストの第1の特徴情報セットを認識することにより第2の特徴情報セットを取得する第2の特徴情報セット取得モジュール902と、
誤り駆動モデルに基づいて前記第2の特徴情報セットにおける前記M個の固有表現に対して誤り訂正を行い、K個(Kは0以上M以下の整数である)の固有表現を取得する誤り訂正モジュール903とを備えており、
前記第2の特徴情報セットは、前記第1の認識モデルに基づいて前記第1の特徴情報セットを認識することにより得られたM個(Mは0以上の整数である)の固有表現を含む
ここで、さらに、前記第1の特徴情報セット取得モジュール901は、主として、
認識待ちテキストの第3の特徴情報セットを取得するための第3の特徴情報セット取得手段と、
第3の認識モデルに基づいて前記第3の特徴情報セットを認識することにより第1の特徴情報セットを取得する第1の特徴情報セット取得手段とを備えており、
前記第1の特徴情報セットは、前記第3の認識モデルに基づいて前記第3の特徴情報セットを認識することにより得られたN個(Nは0以上、M以下の整数である)の固有表現を含む。
認識待ちテキストの第3の特徴情報セットを取得するための第3の特徴情報セット取得手段と、
第3の認識モデルに基づいて前記第3の特徴情報セットを認識することにより第1の特徴情報セットを取得する第1の特徴情報セット取得手段とを備えており、
前記第1の特徴情報セットは、前記第3の認識モデルに基づいて前記第3の特徴情報セットを認識することにより得られたN個(Nは0以上、M以下の整数である)の固有表現を含む。
ここで、さらに、前記第3の特徴情報セット取得手段は、
前記認識待ちテキストを取得するための認識待ちテキスト取得手段と、
前記認識待ちテキストを少なくとも1つの認識待ちフレーズに分割するための分割手段と、
前記少なくとも1つの認識待ちフレーズをマークするマークセットを取得するマークセット取得手段と、
前記マークセットに基づいて前記少なくとも1つの認識待ちフレーズをマークして第3の特徴情報セットを取得するマーク手段とを備える。
前記認識待ちテキストを取得するための認識待ちテキスト取得手段と、
前記認識待ちテキストを少なくとも1つの認識待ちフレーズに分割するための分割手段と、
前記少なくとも1つの認識待ちフレーズをマークするマークセットを取得するマークセット取得手段と、
前記マークセットに基づいて前記少なくとも1つの認識待ちフレーズをマークして第3の特徴情報セットを取得するマーク手段とを備える。
さらに、前記装置は、前記誤り駆動モデルに基づいて前記第3の特徴情報セットにおける前記M個の固有表現に対して誤り訂正を行い、K個の固有表現を取得した後、前記K個の固有表現の種類情報、位置情報、品詞情報を取得するK個の固有表現情報手段を備える。
本願実施例四における装置は、本願実施例二における方法を実施するために対応する装置であるので、本願実施例二における方法に基づいて、当業者は本願実施例四における装置の具体的な実施方法及び本願実施例四における装置の様々な変化形式について理解することが可能となる。そのため、ここでは、当該装置の運行について改めて詳細に紹介せず、当業者が本願実施例二における方法に基づいて採用される装置であれば、いずれも本願の保護しようとする範囲に該当する。
前記技術案のうちの1つ又は複数の技術案は、下記の技術的効果又は利点を有する。
条件付き確率場モデルによる固有表現の認識を行ったうえで、条件付き確率場モデルに認識された固有表現を誤り駆動モデルにより誤り訂正を行う技術案を採用しているため、固有表現の認識正確性を高める技術的効果を達成している。
開示された実施形態及びその他の実施形態と当該明細書に描画されている機能的操作はデジタル回路または当該明細書に開示された構造及び構造同等物であるコンピュータソフトウェア、ファームウェア又はハードウェアにより実施するか、或いはこれらのうちの1つ又は複数の組み合わせにより実施することができる。データ処理装置によりその操作を実行又は制御するように、開示された実施形態及びその他の実施形態は1つ又は複数のコンピュータプログラム製品として、即ち、コンピュータ読取可能な媒体にコードされるコンピュータプログラム命令の1つ又は複数のモジュールとして実施することができる。前記コンピュータ読取可能な媒体としては、機器読取可能な記憶デバイス、機器読取可能な記憶基板、メモリデバイス、機器読取可能な伝送信号に影響し得る合成物質又はこれらのうちの1つ又は複数からなる組み合わせが挙げられる。術語「データ処理装置」は、データを処理するためのあらゆる装置、デバイス及び機器、例えばプログラム可能なプロセッサ、コンピュータ、複数のプロセッサ又はコンピュータを含む。ハードウェアを除き、前記装置は、検討されるコンピュータプログラムの実行環境を作成するコード、例えばプロセッサファームウェア、プロトコルスタック、データベース管理システム及び操作システム又はこれらのうちの1つ又は複数からなる組み合わせを構成するコードをさらに含む。伝送信号は人工的に生成された信号であり、例えば機器により生成された電気、光又は電磁信号が挙げられ、情報をコードして適当な受信機装置に伝送するために生成されたものである。
コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト又はコードとも言われる)は、コンバイル言語又は解釈性言語を含め、任意の形式のプログラム言語で書き込むことができ、かつ独立プログラムとするか、或いはモジュール、コンポーネント、サブルーチン又はコンピュータ環境下での使用に適するほかの手段とする形式を含め、任意の形式で配置されている。コンピュータプログラムはファイルシステム中のファイルに対応する必要がない。プログラムは、他のプログラム又はデータ(例えば、マーク言語文書に記憶されている1つ又は複数のスクリプト)を格納するファイルの一部、検討されるプログラムに用いられる単一のファイル、又は複数の協同ファイル(例えば、1つ又は複数のモジュール、サブルーチン又はコードを記憶するファイル)に記憶されている。コンピュータプログラムは1つのコンピュータ、或いは、1つの地点に位置するか又は複数の地点に分布しかつ通信ネットワークを経由して互いに接続されている複数のコンピュータにより実行可能である。
当該明細書に描画されている処理及びロジックプロセスは、1つ又は複数のコンピュータを実行して入力データを操作すると共に出力を生成して機能を実行する1つ又は複数のプログラム可能なプロセッサにより実行される。前記処理及びロジックプロセスは、さらに、例えばFPGA(フィールド・プログラマブル・ゲート・アレイ)及びASIC(特定用途向け集積回路)のような特別な機能を有するロジック回路により実行され、かつ装置は前記特別な機能を有するロジック回路として実現することもできる。
例示として、コンピュータプログラムの実行に適するプロセッサは、通用及び特別な用途を有するマイクロプロセッサ、及び任意の類型のデジタルコンピュータのいずれか1つ又は複数のプロセッサを含む。通常に、プロセッサは読み取り専用のメモリまたはランダムアクセスメモリ或いはこの両者から指令及びデータを受信する。コンピュータの基本的な素子は、指令を実行するプロセッサと、記憶指令及びデータを格納する1つ以上のメモリデバイスである。通常に、コンピュータはさらにデータを記憶するための1つ以上の大容量記憶デバイス、例えば磁気、磁気−光ディスク又は光ディスクを、前記1つ以上の大容量記憶デバイスに操作可能に結合してその中からデータを受信するか、或いはこれにデータを送信する。コンピュータプログラムの指令及びデータを記憶するコンピュータ読取可能な媒体は、あらゆる形式の不揮発性メモリ、媒体及びメモリデバイスを含み、例えば半導体メモリデバイスと、EPROM、EEPROM及びフラッシュデバイス:磁気ディスク、例えば内部ハードディスク又は移動可能なディスク:磁気−光ディスク、及びCD−ROM及びDVD−ROMディスクを含む。前記プロセッサ及びメモリは特別な用途を有するロジック回路を追加とするか、或いはその中に結合することができる。
ユーザとのインタラクションを提供するために、開示された実施例はコンピュータ上で実施することができる。前記コンピュータは、ユーザに情報を表示するCRT(陰極線管)又はLCD(液晶表示器)モニターのような表示デバイス及びキーボードとマウス又はトラックボールのような指示デバイスを有する。ユーザはこれを利用してコンピュータに入力を提供することができる。他の類型のデバイスを使用してユーザとのインタラクションを提供することもできる。例えば、ユーザに提供されるフィードバックは任意の形式の感応フィードバック、例えば視覚フィードバック、聴覚フィードバック又は触覚フィードバックであってもよく、かつユーザからの入力、例えば音、音声又はタッチ入力は任意の形式で受信することができる。
開示された実施例は、例えばデータサーバであるバックエンドコンポーネント、又はアプリケーションサーバであるミドルコンポーネント、又はクライアントコンピュータであるフロントエンドコンポーネント、又は1つ以上のこのようなバックエンド、ミドル又はフロントエンドコンポーネントの任意の組み合わせを含むコンピュータシステムで実施することができる。前記クライアントコンピュータはグラフィカル・ユーザー・インターフェース又はウェブブラウザを有し、ユーザはこれを経由してここで開示された実施形態とインタラクションを行うことができる。前記システムのコンポーネントは任意の形式、又は例えば通信ネットワークのデジタルデータ通信媒体により互いに接続することができる。通信ネットワークの例示はローカルエリアネットワーク(LAN)及びワールドエリアネットワーク(WAN)、例えばインタネットを含む。
開示された実施例を実施するためのシステムは、クライアントコンピュータ(クライアント)とサーバコンピュータ(サーバ)を含む。クライアント及びサーバは通常に互いに離間し、かつ典型的に通信ネットワークを介してインタラクションを行う。クライアントとサーバの関係は各々のコンピュータで運行しかつ互いにクラインと、サーバ関係を有するコンピュータプログラムにより発生可能である。
当該明細書は複数の特定の内容を含むが、これらは任意の発明又は要求される範囲の制限を構成せず、特定の実施例の特定の特徴の描画として使用される。本明細書では、単独の実施例の環境下で描画される幾つかの特徴はさらに単独の実施例で組み合わせて実施することができる。逆に、単独の実施例の環境下で描画されている様々な特徴は、分散する形で、或いは任意の適当なサブ組み合わせで複数の実施例において実施することもできる。また、以上で、特徴がある組み合わせで機能し、更には最初にこのように要求されるが、要求される組み合わせの1つ又は複数の特徴がある状況下で前記組み合わせから削除され、かつ要求される組み合わせがサブ組み合わせに指向する変化形式に描画することができる。
これと類似するように、操作は図面で特定の順序で描画されているが、示される特定の順序又は連続の順序でこれらの操作を実行するか、又はあらゆる図示される操作を実行することにより必要な結果を実現することが要求されるものとして理解すべきではない。ある状況下で、マルチタスク及び並行処理は有利である。また、以上で描画されている実施例における様々なシステムコンポーネントの離間は、あらゆる実施例でこのような離間を行うことが要求されると理解すべきではない。かつ、描画されているプログラムコンポーネントとシステムは通常に単独のソフトウェア製品中で1つに集成するか、或いは複数のソフトウェアにパッケージすることができる。
このように、特定の実施例が描画されている。他の実施例は添付される請求項の範囲内に該当する。
本出願の最適な実施例が描画されているが、当業者は一旦基本的な進歩性の概念を知ったら、これらの実施例を別の変更や補正を行うことができる。そのため、添付される請求項は、最適な実施例及び本願の範囲に該当するあらゆる変更や補正を含むものとして解釈されている。
本発明の精神及び範囲から逸脱しないかぎり、当業者は本発明に対して様々な変更や変形を行うことができるのが明らかである。これらの変更や変形は本発明の特許請求の範囲及び均等的な範囲に該当すれば、本発明の範囲内に含まれる。
Claims (16)
- 学習テキストの第1の特徴情報セットを取得するステップと、
学習テキストの第1の特徴情報セットを学習して第1の認識モデルを取得するステップと、
前記第1の認識モデルに基づいて前記第1の特徴情報セットを認識することにより第2の特徴情報セットを取得するステップと、
前記第2の特徴情報セットを学習して誤り駆動モデルを取得するステップとを備えており、
前記第2の特徴情報セットは、前記第1の認識モデルに基づいて前記第1の特徴情報セットを認識することにより得られたM個(Mは0以上の整数である)の固有表現を含むことを特徴とする固有表現を認識するための認識モデル生成方法。 - 前記第1の特徴情報セットを取得するステップにおいては、
学習テキストの第3の特徴情報セットを取得し、
学習テキストの第3の特徴情報セットを学習して第3の認識モデルを取得し、
前記第3の認識モデルに基づいて前記第3の特徴情報セットを認識することにより第1の特徴情報セットを取得し、
前記第1の特徴情報セットは、前記第3の認識モデルに基づいて前記第3の特徴情報セットを認識することにより得られたN個(Nは0以上、M以下の整数である)の固有表現を含むことを特徴とする請求項1に記載の方法。 - 前記学習テキストの第3の特徴情報セットを取得するステップにおいては、
前記学習テキストを取得し、
前記学習テキストを少なくとも1つの学習フレーズに分割し、
前記少なくとも1つの学習フレーズをマークするためのマークセットを取得し、
前記マークセットに基づいて前記少なくとも1つの学習フレーズをマークして第3の特徴情報セットを取得することを特徴とする請求項2に記載の方法。 - 前記第3の特徴情報セットは、具体的に、前記少なくとも1つの学習フレームにおける単語境界情報、文脈情報、品詞情報、文字情報及び句読点情報を含むことを特徴とする請求項2又は3に記載の方法。
- 学習テキストの第1の特徴情報セットを取得するステップと、
第1の認識モデルに基づいて学習テキストの第1の特徴情報セットを認識することにより第2の特徴情報セットを取得するステップと、
誤り駆動モデルに基づいて前記第2の特徴情報セットにおける前記M個の固有表現に対して誤り訂正を行い、K個(Kは0以上M以下の整数である)の固有表現を取得するステップとを備えており、
前記第2の特徴情報セットは、前記第1の認識モデルに基づいて前記第1の特徴情報セットを認識することにより得られたM個(Mは0以上の整数である)の固有表現を含むことを特徴とする固有表現の認識方法。 - 前記学習テキストの第1の特徴情報セットを取得するステップにおいては、
認識待ちテキストの第3の特徴情報セットを取得し、
第3の認識モデルに基づいて前記第3の特徴情報セットを認識することにより第1の特徴情報セットを取得し、
前記第1の特徴情報セットは、前記第3の認識モデルに基づいて前記第3の特徴情報セットを認識することにより得られたN個(Nは0以上、M以下の整数である)の固有表現を含むことを特徴とする請求項5に記載の方法。 - 前記誤り駆動モデルに基づいて前記第3の特徴情報セットにおける前記M個の固有表現に対して誤り訂正を行い、K個の固有表現を取得した後に、さらに、
前記K個の固有表現の種類情報、位置情報、品詞情報を取得することを特徴とする請求項5に記載の方法。 - 前記認識待ちテキストの第3の特徴情報セットを取得するステップにおいては、
前記認識待ちテキストを取得し、
前記認識待ちテキストを少なくとも1つの認識待ちフレーズに分割し、
前記少なくとも1つの認識待ちフレーズをマークするためのマークセットを取得し、
前記マークセットに基づいて前記少なくとも1つの認識待ちフレーズをマークして第3の特徴情報セットを取得することを特徴とする請求項6に記載の方法。 - 前記第1の特徴情報セットは、前記少なくとも1つの認識待ちフレームにおける単語境界情報、文脈情報、品詞情報、文字情報及び句読点情報を含むことを特徴とする請求項7又は8に記載の方法。
- ユーザが学習テキストの第1の特徴情報セットを取得するための第1の特徴情報セット取得モジュールと、
学習テキストの第1の特徴情報セットを学習して第1の認識モデルを取得する第1の識別モデル取得モジュールと、
前記第1の認識モデルに基づいて前記第1の特徴情報セットを認識することにより第2の特徴情報セットを取得する第2の特徴情報セット取得モジュールと、
前記第2の特徴情報セットを学習して誤り駆動モデルを取得する誤り駆動モデル取得モジュールとを備えており、
前記第2の特徴情報セットは、前記第1の認識モデルに基づいて前記第1の特徴情報セットを認識することにより得られたM個(Mは0以上の整数である)の固有表現を含むことを特徴とする固有表現を認識するための認識モデル生成装置。 - 前記第1の特徴情報セット取得モジュールは、
学習テキストの第3の特徴情報セットを取得する第3の特徴情報セット取得手段と、
学習テキストの第3の特徴情報セットを学習して第3の認識モデルを取得する第3の認識モデル取得手段と、
前記第3の認識モデルに基づいて前記第3の特徴情報セットを認識することにより第1の特徴情報セットを取得する第1の特徴情報セット取得手段とを備えており、
前記第1の特徴情報セットは、前記第3の認識モデルに基づいて第3の特徴情報セットを認識することにより得られたN個(Nは0以上、M以下の整数である)の固有表現を含むことを特徴とする請求項10に記載の装置。 - 前記第3の特徴情報セット取得手段は、
前記学習テキストを取得する学習テキスト取得手段と、
前記学習テキストを少なくとも1つの学習フレーズに分割する分割手段と、
前記少なくとも1つの学習フレーズをマークするためのマークセットを取得するマークセット取得手段と、
前記マークセットに基づいて前記少なくとも1つの学習フレーズをマークして第3の特徴情報セットを取得するマーク手段と、
を備えることを特徴とする請求項11に記載の装置。 - 学習テキストの第1の特徴情報セットを取得する第1の特徴情報セット取得モジュールと、
第1の認識モデルに基づいて学習テキストの第1の特徴情報セットを認識することにより第2の特徴情報セットを取得する第2の特徴情報セット取得モジュールと、
誤り駆動モデルに基づいて前記第2の特徴情報セットにおける前記M個の固有表現に対して誤り訂正を行い、K個(Kは0以上、M以下の整数である)の固有表現を取得する誤り訂正モジュールとを備えており、
前記第2の特徴情報セットは、前記第1の認識モデルに基づいて前記第1の特徴情報セットを認識することにより得られたM個(Mは0以上の整数である)の固有表現を含むことを特徴とする固有表現の認識装置。 - 前記第1の特徴情報セット取得モジュールは、主として、
学習テキストの第3の特徴情報セットを取得する第3の特徴情報セット取得手段と、
第3の認識モデルに基づいて前記第3の特徴情報セットを認識することにより第1の特徴情報セットを取得する第1の特徴情報セット取得手段とを備えており、
前記第1の特徴情報セットは、前記第3の認識モデルに基づいて前記第3の特徴情報セットを認識することにより得られたN個(Nは0以上、M以下の整数である)の固有表現を含むことを特徴とする請求項13に記載の装置。 - 前記誤り駆動モデルに基づいて前記第3の特徴情報セットにおける前記M個の固有表現に対して誤り訂正を行い、K個の固有表現を取得した後に、前記K個の固有表現の種類情報、位置情報、品詞情報を取得するK個の固有表現情報手段をさらに備えることを特徴とする請求項13に記載の装置。
- 前記第3の特徴情報セット取得手段は、
前記認識待ちテキストを取得する認識待ちテキスト取得手段と、
前記認識待ちテキストを少なくとも1つの認識待ちフレーズに分割する分割手段と、
前記少なくとも1つの認識待ちフレーズをマークするためのマークセットを取得するマークセット取得手段と、
前記マークセットに基づいて前記少なくとも1つの認識待ちフレーズをマークして第3の特徴情報セットを取得するマーク手段と、
を備えることを特徴とする請求項14に記載の装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110414467.7A CN103164426B (zh) | 2011-12-13 | 2011-12-13 | 一种命名实体识别的方法及装置 |
CN201110414467.7 | 2011-12-13 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014529787A true JP2014529787A (ja) | 2014-11-13 |
Family
ID=48587521
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014525305A Pending JP2014529787A (ja) | 2011-12-13 | 2012-12-13 | 固有表現の認識方法及び装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20140172774A1 (ja) |
EP (1) | EP2752776A4 (ja) |
JP (1) | JP2014529787A (ja) |
CN (1) | CN103164426B (ja) |
WO (1) | WO2013086998A1 (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104679885B (zh) * | 2015-03-17 | 2018-03-30 | 北京理工大学 | 一种基于语义特征模型的用户搜索串机构名识别方法 |
CN105045847B (zh) * | 2015-07-01 | 2018-05-25 | 广州市万隆证券咨询顾问有限公司 | 一种从文本信息中提取中文机构单位名称的方法 |
CN105630768B (zh) * | 2015-12-23 | 2018-10-12 | 北京理工大学 | 一种基于层叠条件随机场的产品名识别方法及装置 |
CN107423278B (zh) * | 2016-05-23 | 2020-07-14 | 株式会社理光 | 评价要素的识别方法、装置及系统 |
CN106547733A (zh) * | 2016-10-19 | 2017-03-29 | 中国国防科技信息中心 | 一种面向特定文本的命名实体识别方法 |
CN106503192B (zh) * | 2016-10-31 | 2019-10-15 | 北京百度网讯科技有限公司 | 基于人工智能的命名实体识别方法及装置 |
CN108062302B (zh) * | 2016-11-08 | 2019-03-26 | 北京国双科技有限公司 | 一种文本信息的识别方法及装置 |
CN108509441A (zh) * | 2017-02-24 | 2018-09-07 | 菜鸟智能物流控股有限公司 | 一种地址有效性分类器的训练及其验证方法和相关装置 |
CN108108215B (zh) * | 2017-12-19 | 2021-07-27 | 北京百度网讯科技有限公司 | 皮肤生成方法、装置、终端和计算机可读存储介质 |
US11086913B2 (en) | 2018-01-02 | 2021-08-10 | Freshworks Inc. | Named entity recognition from short unstructured text |
CN108763218A (zh) * | 2018-06-04 | 2018-11-06 | 四川长虹电器股份有限公司 | 一种基于crf的影视检索实体识别方法 |
CN109791570B (zh) * | 2018-12-13 | 2023-05-02 | 香港应用科技研究院有限公司 | 高效且精确的命名实体识别方法和装置 |
US10853576B2 (en) * | 2018-12-13 | 2020-12-01 | Hong Kong Applied Science and Technology Research Institute Company Limited | Efficient and accurate named entity recognition method and apparatus |
US10635751B1 (en) * | 2019-05-23 | 2020-04-28 | Capital One Services, Llc | Training systems for pseudo labeling natural language |
CN110543638B (zh) * | 2019-09-10 | 2022-12-27 | 杭州橙鹰数据技术有限公司 | 一种命名实体识别的方法和装置 |
CN112749561B (zh) * | 2020-04-17 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 一种实体识别方法及设备 |
CN112560430B (zh) * | 2020-12-25 | 2024-04-02 | 北京百度网讯科技有限公司 | 文本中数值内容的纠错方法、装置及电子设备 |
CN112765985B (zh) * | 2021-01-13 | 2023-10-27 | 中国科学技术信息研究所 | 一种面向特定领域专利实施例的命名实体识别方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006330935A (ja) * | 2005-05-24 | 2006-12-07 | Fujitsu Ltd | 学習データ作成プログラム、学習データ作成方法および学習データ作成装置 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1159661C (zh) * | 1999-04-08 | 2004-07-28 | 肯特里奇数字实验公司 | 用于中文的标记和命名实体识别的系统 |
TWI256562B (en) * | 2002-05-03 | 2006-06-11 | Ind Tech Res Inst | Method for named-entity recognition and verification |
KR100515641B1 (ko) * | 2003-04-24 | 2005-09-22 | 우순조 | 모빌적 형상 개념을 기초로 한 구문 분석방법 및 이를이용한 자연어 검색 방법 |
US7475010B2 (en) * | 2003-09-03 | 2009-01-06 | Lingospot, Inc. | Adaptive and scalable method for resolving natural language ambiguities |
GB2432448A (en) * | 2004-05-28 | 2007-05-23 | Agency Science Tech & Res | Method and system for word sequence processing |
KR100750886B1 (ko) * | 2005-12-09 | 2007-08-22 | 한국전자통신연구원 | 학습 데이터 구축 장치 및 방법 |
CN101075228B (zh) * | 2006-05-15 | 2012-05-23 | 松下电器产业株式会社 | 识别自然语言中的命名实体的方法和装置 |
US8594996B2 (en) * | 2007-10-17 | 2013-11-26 | Evri Inc. | NLP-based entity recognition and disambiguation |
US8458520B2 (en) * | 2008-12-01 | 2013-06-04 | Electronics And Telecommunications Research Institute | Apparatus and method for verifying training data using machine learning |
CN101866337B (zh) * | 2009-04-14 | 2014-07-02 | 日电(中国)有限公司 | 词性标注系统、用于训练词性标注模型的装置及其方法 |
CN102103594A (zh) * | 2009-12-22 | 2011-06-22 | 北京大学 | 字符数据识别及处理的方法和装置 |
CN102033950A (zh) * | 2010-12-23 | 2011-04-27 | 哈尔滨工业大学 | 电子产品命名实体自动识别系统的构建方法及识别方法 |
-
2011
- 2011-12-13 CN CN201110414467.7A patent/CN103164426B/zh active Active
-
2012
- 2012-12-13 WO PCT/CN2012/086562 patent/WO2013086998A1/zh active Application Filing
- 2012-12-13 EP EP12857138.7A patent/EP2752776A4/en not_active Withdrawn
- 2012-12-13 JP JP2014525305A patent/JP2014529787A/ja active Pending
- 2012-12-13 US US14/129,987 patent/US20140172774A1/en not_active Abandoned
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006330935A (ja) * | 2005-05-24 | 2006-12-07 | Fujitsu Ltd | 学習データ作成プログラム、学習データ作成方法および学習データ作成装置 |
Non-Patent Citations (1)
Title |
---|
JPN6015017352; 内元清貴 他: '最大エントロピーモデルと書き換え規則に基づく固有表現抽出とその評価' 言語処理学会第6回年次大会ワークショップ論文集 , 20000310, p.1-8, 言語処理学会 * |
Also Published As
Publication number | Publication date |
---|---|
CN103164426B (zh) | 2015-10-28 |
EP2752776A4 (en) | 2014-12-17 |
EP2752776A1 (en) | 2014-07-09 |
US20140172774A1 (en) | 2014-06-19 |
WO2013086998A1 (zh) | 2013-06-20 |
CN103164426A (zh) | 2013-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2014529787A (ja) | 固有表現の認識方法及び装置 | |
US20240070392A1 (en) | Computing numeric representations of words in a high-dimensional space | |
US20230206087A1 (en) | Techniques for building a knowledge graph in limited knowledge domains | |
US10007660B2 (en) | Contextual language understanding for multi-turn language tasks | |
US10140977B1 (en) | Generating additional training data for a natural language understanding engine | |
CN111344779A (zh) | 训练和/或使用编码器模型确定自然语言输入的响应动作 | |
TWI519968B (zh) | 輸入方法編輯器使用者資料檔 | |
US20220138432A1 (en) | Relying on discourse analysis to answer complex questions by neural machine reading comprehension | |
EP2965230A2 (en) | Probabilistic parsing | |
EP4006909A1 (en) | Method, apparatus and device for quality control and storage medium | |
CN107112009B (zh) | 用于生成混淆网络的方法、系统和计算机可读存储设备 | |
JP7438303B2 (ja) | ディープラーニングモデルのトレーニング方法、自然言語処理方法及び装置、電子機器、記憶媒体及びコンピュータプログラム | |
JP2022006173A (ja) | 知識事前訓練モデルの訓練方法、装置及び電子機器 | |
US20220230061A1 (en) | Modality adaptive information retrieval | |
WO2024099037A1 (zh) | 数据处理、实体链接方法、装置和计算机设备 | |
US20240046033A1 (en) | Intelligent electronic signature platform | |
WO2023116572A1 (zh) | 一种词句生成方法及相关设备 | |
EP4254256A1 (en) | Spoken language processing method and apparatus, electronic device, and storage medium | |
US20230013768A1 (en) | Error-correction and extraction in request dialogs | |
JPWO2020162294A1 (ja) | 変換方法、訓練装置及び推論装置 | |
JP2017173873A (ja) | 情報提供装置および情報提供方法 | |
US11941345B2 (en) | Voice instructed machine authoring of electronic documents | |
US20230230406A1 (en) | Facilitating identification of fillable regions in a form | |
US20230115091A1 (en) | Method and system for providing signature recognition and attribution service for digital documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150320 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150512 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150810 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20160301 |