JP2018504728A

JP2018504728A - テンプレート構築方法及び装置、情報認識方法及び装置

Info

Publication number: JP2018504728A
Application number: JP2017552212A
Authority: JP
Inventors: 平仄汪; 涛 ▲張▼; 志▲軍▼ ▲陳▼
Original assignee: Xiaomi Inc
Current assignee: Xiaomi Inc
Priority date: 2015-11-24
Filing date: 2015-12-29
Publication date: 2018-02-15
Also published as: KR101782754B1; RU2649294C2; KR20170073542A; EP3173940A1; US10061762B2; MX2016004667A; WO2017088246A1; RU2016113791A; CN105488025B; US20170147553A1; CN105488025A

Abstract

本発明は、種別が予め設定された少なくとも１つのオリジナル情報を含むオリジナル情報サンプル集合を取得するステップと、オリジナル情報に予め設定されたキーワードが含まれている時に、予め設定されたキーワード集合に基づいて予め設定されたキーワードをマーキングすることによって、サンプルトレーニング集合を得るステップと、サンプルトレーニング集合における予め設定されたキーワードを含む文節に対して分割を行うことによって、複数の単語を得るステップと、複数の単語から少なくとも１つの特徴語を含む特定特徴集合を抽出するステップと、予め設定されたキーワードと特定特徴集合中の特徴語に基づいてテンプレートを構築するステップと、サンプルトレーニング集合中のマーキング結果に従ってテンプレートに対するトレーニングを行うステップと、を含むテンプレート構築方法及び装置、情報認識方法及び装置を提供する。本発明は情報認識の精度を向上させることができる。【選択図】図１

Description

本願は中国特許出願２０１５１０８２７５３０．８号（出願日：２０１５年１１月２４日）に基づき優先権を主張し、本願はこの中国特許出願を参照することによってその全ての内容を本願に援用する。

本発明はデータ処理技術に関し、特にテンプレート構築方法及び装置、情報認識方法及び装置に関する。

日常生活の中で、ユーザは様々な事業者ショートメッセージやその他の情報を受信した場合がある。事業者ショートメッセージを例にすれば、事業者からの通信料金残額提示ショートメッセージ、余剰トラフィック通知ショートメッセージ、銀行からのアカウント情報ショートメッセージやクレジットカード返済ショートメッセージが挙げられる。これらのショートメッセージはユーザへの通信料金残額、アカウント残額、余剰トラフィックなどの数字情報の通知・即時認識ための情報である。

本発明はテンプレート構築方法及び装置、情報認識方法及び装置を提供して、情報認識の確実性を向上させることができる。

本発明に係る実施例の第１の側面によれば、
種別が予め設定された少なくとも１つのオリジナル情報を含むオリジナル情報サンプル集合を取得するステップと、
上記オリジナル情報に予め設定されたキーワードが含まれている時に、予め設定されたキーワード集合に基づいて上記予め設定されたキーワードをマーキングすることによって、サンプルトレーニング集合を得るステップと、
上記サンプルトレーニング集合における上記予め設定されたキーワードを含む文節に対して分割を行うことによって、複数の単語を得るステップと、
上記複数の単語から少なくとも１つの特徴語を含む特定特徴集合を抽出するステップと、
上記予め設定されたキーワードと上記特定特徴集合中の上記特徴語に基づいて上記テンプレートを構築するステップと、
上記サンプルトレーニング集合中のマーキング結果に従って上記テンプレートに対してトレーニングを行うステップと、を含むテンプレート構築方法を提供する。

一例として、上記複数の単語から特定特徴集合を抽出するステップは、カイ二乗検定によって上記複数の単語から上記特定特徴集合を抽出するステップ、または情報ゲインによって上記複数の単語から上記特定特徴集合を抽出するステップを含む。

一例として、上記予め設定されたキーワードと上記特定特徴集合中の上記特徴語に基づいて上記テンプレートを構築するステップは、上記特定特徴集合中の上記特徴語と予め設定されたキーワードとにより単純ベイズ分類器を構築し、各特徴語は上記単純ベイズ分類器において互いに独立しているステップを含む。

一例として、上記サンプルトレーニング集合中のマーキング結果に従って上記テンプレートに対するトレーニングを行うステップは、上記単純ベイズ分類器中の上記特徴語ごとに、上記サンプルトレーニング集合中のマーキング結果に基づいて、上記特徴語と上記予め設定されたキーワードとを有する文節である第１の文節の数量を統計するステップと、それぞれの上記特徴語、上記予め設定されたキーワード、および上記数量に基づいて、トレーニングした後の上記単純ベイズ分類器を得るステップと、を含む。

一例として、上記オリジナル情報に予め設定されたキーワードが含まれている時に、予め設定されたキーワード集合に基づいて上記予め設定されたキーワードをマーキングすることによって、サンプルトレーニング集合を得るステップは、上記オリジナル情報に数字情報が含まれている時に、数字情報の属性を示す情報を含む予め設定されたキーワード集合に基づいて上記数字情報に対してマーキングを行い、サンプルトレーニング集合を得るステップを含む。

本発明に係る実施例の第２の側面によれば、
認識しようとする目的情報における予め設定されたキーワードを含む文節を少なくとも１つ取得するステップと、
上記文節に対して分割を行い複数の単語を得て、上記複数の単語から少なくとも１つの特徴語を含む特定特徴集合を抽出するステップと、
上記予め設定されたキーワード、特徴語及び予め構築されたテンプレートに基づいて、上記文節における予め設定されたキーワードのマーキング結果を認識するステップと、を含む情報認識方法を提供する。

一例として、上記方法は、認識したマーキング結果として予め設定されたマーキング結果である文節の数量が複数である場合、認識確率が最も高い文節における予め設定されたキーワードを予め設定されたマーキング結果の情報とするステップをさらに含む。

一例として、上記予め設定されたキーワードは数字情報であり、上記マーキング結果は上記数字情報の属性である。

本発明に係る実施例の第３の側面によれば、
種別が予め設定された少なくとも１つのオリジナル情報を含むオリジナル情報サンプル集合を取得するためのサンプル取得モジュールと、
上記オリジナル情報に予め設定されたキーワードが含まれている時に、予め設定されたキーワード集合に基づいて上記予め設定されたキーワードをマーキングすることによって、サンプルトレーニング集合を得るためのサンプル処理モジュールと、
上記サンプルトレーニング集合における上記予め設定されたキーワードを含む文節に対して分割を行うことによって、複数の単語を得るための分割処理モジュールと、
上記複数の単語から少なくとも１つの特徴語を含む特定特徴集合を抽出するための特徴抽出モジュールと、
上記予め設定されたキーワードと上記特定特徴集合中の上記特徴語に基づいて上記テンプレートを構築するためのテンプレート構築モジュールと、
上記サンプルトレーニング集合中のマーキング結果に従って上記テンプレートに対するトレーニングを行うためのテンプレートトレーニングモジュールと、を備えるテンプレート構築装置を提供する。

一例として、上記特徴抽出モジュールは、カイ二乗検定によって上記複数の単語から上記特定特徴集合を抽出するステップ、または情報ゲインによって上記複数の単語から特定特徴集合を抽出するステップによって、複数の単語から特定特徴集合を抽出する。

一例として、上記テンプレート構築モジュールは、上記特定特徴集合中の上記特徴語と上記予め設定されたキーワードとにより単純ベイズ分類器を構築し、各特徴語は上記単純ベイズ分類器において互いに独立している。

一例として、上記テンプレートトレーニングモジュールは、上記単純ベイズ分類器中の上記特徴語ごとに、上記サンプルトレーニング集合中のマーキング結果に基づいて、上記特徴語と上記予め設定されたキーワードとを有する文節である第１の文節の数量を統計するとともに、それぞれの上記特徴語、上記予め設定されたキーワードおよび上記数量に基づいて、トレーニングした後の上記単純ベイズ分類器を得る。

本発明に係る実施例の第４の側面によれば、
認識しようとする目的情報における予め設定されたキーワードを含む文節を少なくとも１つ取得するための文節取得モジュールと、
上記文節に対して分割を行い複数の単語を得て、上記複数の単語から少なくとも１つの特徴語を含む特定特徴集合を抽出するための単語抽出モジュールと、
上記予め設定されたキーワード、特徴語及び予め構築されたテンプレートに基づいて、上記文節における予め設定されたキーワードのマーキング結果を認識するための認識処理モジュールと、を備える情報認識装置を提供する。

一例として、上記認識処理モジュールは、認識のマーキング結果として予め設定されたマーキング結果である文節の数量が複数である場合、認識確率が最も高い文節における予め設定されたキーワードを予め設定されたマーキング結果の情報とする。

一例として、上記単語抽出モジュールは、カイ二乗検定によって上記複数の単語から上記特定特徴集合を抽出するステップ、または情報ゲインによって上記複数の単語から上記特定特徴集合を抽出するステップによって、複数の単語から特定特徴集合を抽出する。

本発明に係る実施例の第５の側面によれば、
プロセッサーと、
プロセッサーにより実行可能なコマンドを記憶するメモリと、
を備え、
上記プロセッサーは、種別が予め設定された少なくとも１つのオリジナル情報を含むオリジナル情報サンプル集合を取得し、上記オリジナル情報に予め設定されたキーワードが含まれている時に、予め設定されたキーワード集合に基づいて上記予め設定されたキーワードをマーキングすることによって、サンプルトレーニング集合を得て、上記サンプルトレーニング集合における上記予め設定されたキーワードを含む文節に対して分割を行うことによって、複数の単語を得て、上記複数の単語から少なくとも１つの特徴語を含む特定特徴集合を抽出し、上記予め設定されたキーワードと上記特定特徴集合中の上記特徴語に基づいて上記テンプレートを構築し、上記サンプルトレーニング集合中のマーキング結果に従って上記テンプレートに対するトレーニングを行うように配置されるテンプレート構築装置を提供する。

本発明に係る実施例の第６の側面によれば、
プロセッサーと、
プロセッサーにより実行可能なコマンドを記憶するメモリと、
を備え、
上記プロセッサーは、認識しようとする目的情報における予め設定されたキーワードを含む文節を少なくとも１つ取得し、上記文節に対して分割を行い複数の単語を得て、上記複数の単語から少なくとも１つの特徴語を含む特定特徴集合を抽出し、上記予め設定されたキーワード、特徴語及び予め構築されたテンプレートに基づいて、上記文節における予め設定されたキーワードのマーキング結果を認識するように配置される情報認識装置を提供する。

本発明に係る実施例により提供される技術案は、予め設定されたキーワードを含むサンプルに基づいてトレーニングを行うことにより、認識用のテンプレートを構築し、このテンプレート認識情報におけるキーワード基づいて結果をマーキングすることによって、情報認識がより確実になる有益な効果を有する。

以上の一般的な表記や詳細な説明は一例として本発明をわかりやすく説明するためのものだけであって、本発明を限定するものではないことは言うまでもない。

ここの図面は明細書に合併されて本明細書の一部を構成し、本発明に係る実施例を示し、明細書とともに本発明の原理を解釈するためのものである。

例示的な実施例によるテンプレート構築方法を示すフローチャートである。例示的な実施例による別のテンプレート構築方法を示すフローチャートである。例示的な実施例による本発明の方法でショートメッセージにおける数字情報を認識するシステムを示す。例示的な実施例によるさらに別のテンプレート構築方法を示すフローチャートである。例示的な実施例によるさらに別のテンプレート構築方法を示すフローチャートである。例示的な実施例によるエクスプレスインターフェースの表示形態を示す。例示的な実施例によるテンプレート構築装置を示す構造図である。例示的な実施例による情報認識装置を示す構造図である。例示的な実施例による情報認識装置を示すブロック図である。例示的な実施例によるテンプレート構築装置を示すブロック図である。

ここでは図面に示す例示的な実施例を詳細に説明する。以下の説明における図面について、特に明示しない限り、各図面には同一の番号が同一または類似の要素を示す。本発明に該当する全ての実施形態は以下の例示的な実施例における実施形態に限定されるものではない。逆に、これらは特許請求の範囲に記載される本発明のいくつかの側面に一致する装置及び方法の例として示すものである。

本発明は、構築されたテンプレートにより情報種別を認識する方式を提供して、例えば、テンプレートで事業者ショートメッセージ中の数字情報の種別を認識してもよく、その他の情報を認識してもよい。図１は例示的な実施例によるテンプレート構築方法を示すフローチャートである。

ステップ１０１において、種別が予め設定された少なくとも１つのオリジナル情報を含むオリジナル情報サンプル集合を取得する。

例えば、事業者ショートメッセージを認識する例として、オリジナル情報が事業者ショートメッセージであり、例えばスマートフォンでショートメッセージを受信してからユーザへ報知しテンプレートを構築するためのものである。予め設定された種別のオリジナル情報は、構築するテンプレートに用いられる認識用の情報種別である。例えば、事業者ショートメッセージ中の通信料金情報を認識するためのテンプレートを構築すれば、オリジナル情報サンプル集合に少なくとも１つの通信料金情報を有するショートメッセージが含まれる。この場合、通信料という種別は予め設定された種別である。

ステップ１０２において、上記オリジナル情報に予め設定されたキーワードが含まれている時に、予め設定されたキーワード集合に基づいて上記予め設定されたキーワードをマーキングすることによって、サンプルトレーニング集合を得る。

例えば、予め設定されたキーワードはオリジナル情報の種別を認識する場合に、主に当該予め設定されたキーワードの種別を認識するものである。例えば、スマートフォンで事業者から１つの通信料金残額通知用のショートメッセージを受信した場合に、通信料金残額が１２元であると、「１２」を予め設定されたキーワードとし、この予め設定されたキーワードに対してマーキングすることは、このキーワードの種別に対してマーキングを行う。例えば、「１２」は入金ではなく通信料金残額である。オリジナル情報サンプル集合中のオリジナル情報の予め設定されたキーワードに対してマーキングした後であれば、オリジナル情報サンプル集合をサンプルトレーニング集合と呼ぶことができる。

ステップ１０３において、上記サンプルトレーニング集合における上記予め設定されたキーワードを含む文節に対して分割を行うことによって、複数の単語を得る。

例えば、分割で得られた単語には予め設定されたキーワードを含んでも良い。例えば、事業者ショートメッセージを例として、通信料金残額を通知する事業者ショートメッセージに対して、分割した後は予め設定されたキーワード１２を含んでも良く、その他の単語、例えば「あなた」や「の」などを含んでもよい。

ステップ１０４において、上記複数の単語から少なくとも１つの特徴語を含む特定特徴集合を抽出する。

例えば、ステップ１０３において分割して得られた単語から、予め設定されたキーワードの種別の認識に寄与しない単語、例えば「あ」、「はい」などの単語を選別してから、残りの単語でテンプレートの構築を行う。この特定特徴集合に含まれる特徴語は、選別された後の単語であってもよい。

ステップ１０５において、上記予め設定されたキーワードおよび上記特定特徴集合中の上記特徴語に基づいて上記テンプレートを構築する。

例えば、テンプレート構築方法は、分類器を利用して上記ステップで得られた特徴語および予め設定されたキーワードに基づいてテンプレートの構築を行うなどの様々な方法がある。

ステップ１０６において、上記サンプルトレーニング集合中のマーキング結果に基づいて上記テンプレートに対してトレーニングを行う。

トレーニングを行うことによって、このテンプレートは１つの情報に対してその種別を認識するためのモデルに用いられることができ、例えば、１つの情報または情報を含む内容をこのテンプレートに入力すれば、情報の種別を出力、またはこの情報がそれぞれ各既知種別に属する確率を得ることができる。

本実施例のテンプレート構築方法によれば、予め設定されたキーワードを含むサンプルに基づいてトレーニングを行うことにより、認識用のテンプレートを構築し、当該テンプレートを用いて情報種別を認識する。このように、テンプレートによって種別を認識する方式によれば、情報認識がより確実になる。

図２は例示的な実施例による情報認識方法のフローチャートであり、この方法は図１におけるトレーニングしたテンプレートを用いて情報の種別を認識することができる。

ステップ２０１において、認識しようとする目的情報における予め設定されたキーワードを含む文節を少なくとも１つ取得する。

例えば、目的情報が事業者ショートメッセージである場合に、このショートメッセージ中の少なくとも１つの文節が得られ、例えば「こんにちは」を１つの文節とし、「あなたの通信料金残額が１２元です」をもう１つの文節とすることができる。少なくとも１つの文節に予め設定されたキーワード、例えば通信料金残額の数字が含まれる。

ステップ２０２において、上記文節に対して分割を行い複数の単語を得て、上記複数の単語から少なくとも１つの特徴語を含む特定特徴集合を抽出する。

ステップ２０３において、上記予め設定されたキーワード、特徴語及び予め構築されたテンプレートに基づいて、上記文節における予め設定されたキーワードのマーキング結果を認識する。

例えば、このステップにおいては、トレーニングに基づいて得られたテンプレートによって、情報の種別を認識できる。具体的には、情報における予め設定されたキーワードのマーキング結果を認識できる。例えば、事業者ショートメッセージを認識する例として、テンプレートを利用して、予め設定されたキーワードのマーキング結果が通信料金残額であることを認識できる。

本実施例の情報認識方法によれば、予め構築されたテンプレートによって、情報種別を認識できる。このように、テンプレートによって種別を認識する方式によれば、情報認識がより確実になる。

以下、ショートメッセージ中の数字情報の認識を例として、本発明の方法の事業者ショートメッセージ認識への適用を説明する。まず、ショートメッセージ中の数字情報を認識する例を幾つか挙げる。

例示的には、ショートメッセージの「あなたの通信料金残額は１０元未満です」について、本方法を適用すれば、「通信料金残額--１０元」という情報、ある種別の数字の値を認識できる。

また、例えばショートメッセージの「あなたの本月のトラフィック残りは８４５ＭＢです」について、本発明の方法を適用すれば、「トラフィック残り-８４５ＭＢ」という情報を認識できる。

尚、例えばショートメッセージの「あなたの贈与金残額は３４４元で、ご確認してください」について、本発明の方法を適用すれば、「贈与金残額--３４４元」という情報を認識できる。

ユーザが事業者から受信したショートメッセージには、例えば以上のようなタイプなどの様々なショートメッセージが含まれ、且つ１つのショートメッセージに複数の種別の数字情報が含まれる場合があり、この方法を適用することによって、どの種別の数字情報を認識しようとするかは予め設定でき、「予め設定された種別」と称する。

例えば、仮に本発明の数字情報認識方法において、「通信料金残額」のような種別を「予め設定された種別」として決定するとすれば、ユーザが受信したショートメッセージが「あなたの贈与金残額が３４４元で、ご確認してください」である場合に、このショートメッセージに数字３４４が含まれたとしても、予め設定された種別ではないから、ｎｕｌｌが返される。すなわち、結果はゼロであり、目的の「通信料金残額」という種別の数字情報がない。一方、ショートメッセージの「あなたの通信料金残額が１０元未満です」における数字情報「１０」の種別が「通信料金残額」と認識された場合には、「１０」を認識数字として返す。

図３には本発明の方法によってショートメッセージ中の数字情報を認識するシステムを示し、図３に示すように、例えば、このシステムはスマート端末１１とサーバ１２を含む。スマート端末１１は事業者ショートメッセージを受信できるユーザのスマートフォンであっても良い。サーバ１２とスマートフォンとの間において双方向通信や情報転送が行われる。

本発明の例には、数字情報を認識する場合にテンプレートを使用する必要があり、この例において、テンプレートを分類モデルと呼ぶ。その分類モデルは、ショートメッセージ中の数字情報の種別を認識する機能を果す。分類モデルは、サーバ１２がサンプルを収集してモデルトレーニングを行うことにより得られることができ、さらにトレーニングにより得られた分類モデルをスマート端末１１へ送信し、スマート端末１１によりこのモデルを用いてショートメッセージ中の数字情報に対して認識を行う。本発明の方法によって通信料金残額を認識する例は、サーバ側のモデルトレーニング及びスマートフォン側のモデルを用いた数字情報認識の過程を含み、以下、それぞれ説明する。

サーバ側でモデルトレーニングを行う。

図４は例示的な実施例によるモデルトレーニングのフローチャートであり、サーバが図４に示すフローに従いモデルトレーニングを行い、通信料金残額を認識する例にすると、以下のようなステップを含む。

ステップ４０１において、複数の種別が既知の数字情報を含む文節サンプルを取得する。

このステップではモデルトレーニング用のサンプルを取得でき、例えば、サーバは、オリジナル情報である事業者ショートメッセージを収集することができる。収集の方式は、複数の端末（例えばスマートフォン）が事業者ショートメッセージを受信してから自主的にサーバへ報知する方式、またはサーバが定期的に端末からショートメッセージを取得する方式であっても良い。通信料金残額を認識するこの例において、収集された事業者ショートメッセージには少なくとも１つ通信料金残額を通知するショートメッセージが含まれていれば良い。

ショートメッセージを取得した後、ショートメッセージから金額を含む文節を抽出して正規表現で金額を認識する。正規表現は文字列の取り扱いに関する論理式であって、事前定義された特定文字、及びこれらの特定文字の組み合わせによって構成された１つの「規則文字列」であり、文字列に関するフィルタロジックを表現するものである。

金額を含む文節で構成された集合を「Ｔ」マークとすることができる。例えば、この集合Ｔには「あなたの通信料金残額が６４．８元です」、「あなたの協議金残額が９２４元です」、「あなたの贈与金残額が３４４元です」などの文節が含まれる。

ステップ４０２において、各文節に対してマーキングを行うことができる。

例えば、このステップでは各文節中の、例えば６４．８、９２４などのオリジナル情報に含まれる予め設定されたキーワードと呼ばれる数字情報の種別を認識することができる。この例では、手動でこれらの単語の種別に対してマーキングしたが、その他の応用例では、予め設定されたキーワード集合に基づいてサーバにより自動的にキーワードに対してマーキングが行われても良く、このキーワード集合には予め設定されたキーワード及びその種別の情報が含まれることができる。例えば、予め設定されたキーワード集合には上記数字情報の属性を示す情報が含まれ、この予め設定されたキーワード集合に基づいてオリジナル情報における数字情報に対してマーキングを行う。

この例では、種別の名称がカスタマイズ名称であっても良い。例えば、この例では「通信料金残額」、「その他の残額」、「非残額」という３つの種別が含まれることができる。例示的には、上記ステップ４０１における文節に対して数字情報種別のマーキングを行い、６４．８を「通信料金残額」、９２４を「その他の残額」、３４４を「非残額」としてマーキングすることができる。マーキングされた文節の集合をＴ＿ｔａｇと呼び、この集合中の各文節には数字情報が含まれ、且つ種別が既知である。

マーキングされた後のオリジナル情報サンプル集合をサンプルトレーニング集合と呼び、サンプルトレーニング集合には、オリジナル情報に含まれる予め設定されたキーワードに対してマーキングを行い、例えば６４．８を「通信料金残額」としてマーキングする。

ステップ４０３において、マーキングされた後の文節集合中の各文節に対して分割を行う。

例えば、このステップではＴ＿ｔａｇ集合中の文節に対して分割を行い、例えば［あなた］、［の］、［通信料金］、［残額］、［６４．８］、［元］、［協議金］、［は］などの複数の単語が得られる。ここで、例えば［６４．８］のような予め設定されたキーワードが含まれてもよい。分割して得られたこれらの単語を「特徴語」と呼び、特徴語の集合マークはＷである。

ステップ４０４には、カイ二乗検定または情報ゲインによって、上記分割した単語に対して選別を行い、選別した後の特徴集合を得る。

例えば、上記のステップ３０３で分割して得られた各特徴語には、種別トレーニングに寄与しない単語が含まれる。その選択して得られた特徴語を最適化するために、これらの単語を除去する方が好ましい。このステップではカイ二乗検定または情報ゲインによって特徴語について選別を行うことができる。

ここで、カイ二乗検定では特徴と種別との関連性によって数値化を行い、関連性が強ければ強いほど、特徴得点が高く、当該特徴が保留される可能性が高い。情報ゲインでは、特徴が分類システムのためにどれほどの情報をもたらすことができるかを重要性の評価標準とし、もたらす情報が多ければ多いほど、この特徴が重要である。カイ二乗検定または情報ゲインによれば特徴語の重要度を数値化することができ、したがって最適な選択により最適された後の特徴語集合マークをＦとすることができる。例えば、ステップ４０３における特徴語について、［が］、［の］などの単語を除去することができる。このステップでは分割して得られた複数の単語から少なくとも１つの選別した後に保留された特徴語を含む特定の特徴集合を抽出する。

ステップ４０５には、数字情報種別をトレーニング目的として、選別した特徴集合に基づいて単純ベイズ分類器を用いてモデルトレーニングを行い、予め設定された分類モデルを得る。

例えば、文節中の金額の種別をトレーニング目的として、ステップ４０４で選別した特徴語集合Ｆを用い、Ｔ＿ｔａｇに対してトレーニングを行い、トレーニングモデルとしては単純ベイズ分類器を使用することができる。単純ベイズ分類器の基本方法は、データをまとめた上に、ある特徴による各種別の確率を算出することによって、分類を実現するものである。単純ベイズ分類器は、本発明の例のようなサンプル量が少なくテキストが短い場合のトレーニングにおいては、分類効果を比較的によくできる。この例では、特徴語の各種別に属する確率をそれぞれ算出することができる。トレーニングして得られたモデルをＭとして示すことができる。

このステップでは、予め設定されたキーワードおよび特定特徴集合に基づいてテンプレートを構築し、サンプルトレーニング集合中のマーキング結果に基づいてテンプレートに対してトレーニングを行う。例えば、サンプルトレーニング集合中のマーキング結果に「６４．８を通信料金残額としてマーキングする」が含まれ、サンプル中の全ての数字に対して種別をマーキングし、ショートメッセージから抽出した［通信料金］、［残額］などの特徴語に基づけば、単純ベイズ分類器というテンプレートを構築でき、各特徴語は上記単純ベイズ分類器において互いに独立している。このテンプレートに対してトレーニングを行うと、トレーニングした後の単純ベイズ分類器によってある情報の種別が得られる。

例えば、テンプレートに対してトレーニングを行う場合に、単純ベイズ分類器中の特徴語ごとに、サンプルトレーニング集合中のマーキング結果に基づいて、上記特徴語と上記予め設定されたキーワードを含む文節である第１の文節の数量を統計することができる。それぞれの上記特徴語、上記予め設定されたキーワードおよび上記数量に基づいて、トレーニングした後の上記単純ベイズ分類器を得る。このようなトレーニングした後の単純ベイズ分類器によって各特徴語の各種別に属する確率がそれぞれ得られる。

本実施例はサーバにより文節サンプルをトレーニングして分類モデルを得て、ショートメッセージ中の予め設定された目的種別の数字情報を認識するように分類モデルをスマート端末へ送信する。このようなモデル認識方式によれば、数字情報認識の精度が高い。

サーバはトレーニングによってモデルＭが得られた後、このモデルでショートメッセージ中の数字情報を認識するように該モデルをスマートフォンへ送信する。

スマートフォン側で数字情報を認識する。

図５は例示的な実施例によるモデル認識のフローチャートであり、スマート端末で図５に示すフローに従いモデルによる数字情報認識が行われ、通信料金残額の認識を例として、以下のステップを含む。

ステップ５０１において、認識しようとするショートメッセージを受信する。

例えば、このステップでは、スマートフォンで１つの認識しようとする目的情報である事業者ショートメッセージを受信する。

ステップ５０２において、認識しようとするショートメッセージに金額が含まれるか否かを判断する。

このステップでは、ＹＥＳと判断された場合に、継続してステップ５０３を行い、ＮＯと判断された場合に、ＮＵＬＬを返す。

ステップ５０３において、認識しようとするショートメッセージにおける金額を含む文節を少なくとも１つ取得する。

例えば、認識しようとするショートメッセージに複数の文節が含まれる可能性があり、例えば、「あなたの贈与金残額は３４４元です、ご確認してください、問題があればご連絡してください……．」というショートメッセージには多数の文節が含まれ、このステップでは数字情報を含む文節さえ選択すればよく、この例では、数字情報が金額である。例えば、「あなたの贈与金残額は３４４元です」は数字情報「３４４」を含む文節であるため選択するが、「問題があればご連絡してください」の文節は、数字情報を含まないため選択しなくてもよい。これらの文節にはすべて予め設定されたキーワードが含まれ、例えば３４４などのような数字情報が含まれる。

ステップ５０４において、文節に対して分割を行い、特徴集合Ｆに基づいて特徴語を抽出する。

例えば、このステップでは図４の実施例で得られた特徴集合Ｆに基づいて、ステップ５０３で得られた文節におけるＦに属する単語のみを抽出することができる。

ステップ５０５では、モデルＭと抽出した特徴語によって、文節の数字情報の種別を予測する。

このステップではトレーニングして得られたモデル及び抽出した特徴語、予め設定されたキーワードなどに基づいて、ショートメッセージ中の数字のマーキング結果、すなわち数字の種別を認識でき、例えばこの例ではショートメッセージ中の数字が通信料金残額であるか否かを認識することができる。例えば、ある一つ文節について、この文節中の各特徴語の各種別に属する確率に基づいて、この文節中の金額の各金額種別（「通信料金残額」、「その他の残額」または「非残額」）に属する確率が得られると、予測確率が最も高い種別をこの文節中の金額が属する種別とする。

図５に示すように、認識しようとするショートメッセージにおける少なくとも１つの文節について、金額が「通信料金残額」と決定された文節がなければ、ＮＵＬＬを返す。認識しようとするショートメッセージに金額が「通信料金残額」と決定された文節が１つしかなければ、ステップ５０６に移行する。一方、認識しようとするショートメッセージに金額が「通信料金残額」と決定された文節が複数であれば、ステップ５０７に移行する。

ステップ５０６では、認識しようとするショートメッセージに「通信料金残額」と決定された文節中の金額を今回認識した数字情報として決定する。

ステップ５０７では、数字情報予測の種別が予め設定された目的種別である通信料金の金額であった文節が複数である場合、通信料金の金額種別の予測確率が最も高い文節中の金額を認識した数字情報とする。

このステップにおいて、認識したマーキング結果は予め設定されたマーキング結果である文節の数量が複数である、すなわち認識した通信料金の金額の文節の数量が複数である場合、認識確率が最も高い文節における予め設定されたキーワードを予め設定されたマーキング結果の情報とすることができる。

この例では、ユーザが受信した事業者ショートメッセージに対して、自動的にユーザの通信料金残額を認識できるとともに、分類モデルにより予測することができるから、種別予測の精度が高い。

尚、サーバ側で定期的にモデルの更新を行うことができる。例えば、サーバは定期的に一部新しいショートメッセージサンプルを収集し、そしてこれらの新しいショートメッセージサンプルから新しい既知種別の数字情報を含む文節サンプルを取得することができる。サーバは新しい文節サンプルに基づいて新たにモデルのトレーニングを行うことによって、新しい分類モデルを得た後、スマート端末がこの新しいモデルに基づいて数字情報を認識するように、更新した後の分類モデルをスマート端末へ送信することができる。

本発明の例では、ショートメッセージ中の数字情報について認識したあと、認識結果を様々な応用、例えば認識結果に基づくアプリケーション操作や処理に応用することができ、人々の生活に利便性を提供する。例えば、認識した数字情報の数値が数値閾値以下である場合に、この数字情報に基づいてユーザに数字情報をアラートする。当該アラートは、通信料金残額が低すぎた場合にユーザに通信料金のチャージをアラートする、またはトラフィック余剰が少なすぎた場合にユーザにトラフィックのチャージをアラートする。

以下、通信料金残額のアラートを例として、２つの数字情報をアラートする例を挙げる。

一例として、通信料金残額の閾値を１５元として設定すると、上記の例の認識方法によってユーザの通信料金残額が閾値未満で１０元であったと決定された場合に、ショートメッセージ中に数字情報調整操作用エクスプレスインターフェースを表示させ、ユーザがこのエクスプレスインターフェースを利用して数字情報を調整する用に供する。ここの数字情報調整はユーザによる通信料金のチャージで、通信料金残額を増加させることであっても良く、ユーザはエクスプレスインターフェースを介して通信料金のチャージページに迅速にアクセルすることができる。

図６はこのエクスプレスインターフェースの表示形態を示す。図６に示すように、スマートフォンで受信した１つの事業者ショートメッセージには本発明の認識方法により認識された通信料金の金額が含まれ、且つ通信料金の金額が設定閾値の１５元未満で１０元以下であった場合に、このショートメッセージの末端に「通信料金チャージ」と設定されたエクスプレスインターフェース６１が表示される。勿論、他の名称、例えば「エクスプレスチャージ」や「すぐチャージ」などであってもよい。

ユーザがこのエクスプレスインターフェース６１をクリックすると、通信料金チャージのページへ移行でき、例えばチャージウェブサイトにアクセスして通信料金をチャージできる。このようなエクスプレスインターフェースの表示形態では、ユーザがショートメッセージを読んだ時にショートメッセージ中のインターフェースをクリックするだけでチャージページへ移行でき、従来のショートメッセージを閉じてからチャージページを検索する形態と比べて、チャージ操作の効率を顕著に向上させることができる。

もう１つの例では、ユーザの通信料金残額が閾値１０元未満であったと認識した場合に、スマートフォンから認識しようとするショートメッセージの送信元に対して数字情報が変更した後の更新値を検索することができる。例えば、中国移動からユーザへ残額提示ショートメッセージを送信した後でも、ユーザはフォンを使用し続け、フォンにおける残額がますます少なくなる。この例では、スマートフォンから自主的に残額の変化状況、例えば毎日の残額余剰（９元、７元、６元など）を検索することができる。ただし、このような検索はユーザが感じられないバックグランド検索方式に設置できる。

検索して得られた更新値に基づいて数字情報が臨界警報値以下であったと確定された場合に、例えば、ユーザのフォンの通信料金残額が２元しか残っておらず、サービス停止直前の状態であれば、スマートフォンは数字情報の警報通知情報を表示して、例えばユーザに即時チャージをアラートする警報通知をポップアップ表示する。このような例は主に通信料金残額のアラートショートメッセージを受信してもチャージ忘れによるサービス停止で使用できなくなるユーザがいるのためである。この手段によって、スマートフォンはバックグランドでユーザの残額の変化を監視でき、臨界警報値が出た場合にサービス停止にならないように即時ユーザにぐチャージをアラートする。

図７は例示的な実施例によるテンプレート構築装置の構造図であり、この装置は本発明のテンプレート構築方法を実現することに用い、例えばサーバに適用され、図７に示すように、この装置はサンプル取得モジュール７１と、サンプル処理モジュール７２と、分割処理モジュール７３と、特徴抽出モジュール７４と、テンプレート構築モジュール７５とテンプレートトレーニングモジュール７６と、を備える。

サンプル取得モジュール７１は、種別が予め設定された少なくとも１つのオリジナル情報を含むオリジナル情報サンプル集合を取得する。

サンプル処理モジュール７２は、上記オリジナル情報に予め設定されたキーワードが含まれている時に、予め設定されたキーワード集合に基づいて上記予め設定されたキーワードをマーキングすることによって、サンプルトレーニング集合を得る。

分割処理モジュール７３は、上記サンプルトレーニング集合における上記予め設定されたキーワードを含む文節に対して分割を行うことによって、複数の単語を得る。
特徴抽出モジュール７４は、上記複数の単語から少なくとも１つの特徴語を含む特定特徴集合を抽出する。

テンプレート構築モジュール７５は、上記予め設定されたキーワードと上記特定特徴集合中の上記特徴語に基づいて上記テンプレートを構築する。

テンプレートトレーニングモジュール７６は、上記サンプルトレーニング集合中のマーキング結果に従って上記テンプレートに対するトレーニングを行う。

さらに、特徴抽出モジュール７４は、カイ二乗検定によって上記複数の単語から上記特定特徴集合を抽出するステップ、または、情報ゲインによって上記複数の単語から特定特徴集合を抽出するステップによって、複数の単語から特定特徴集合を抽出する。

さらに、上記テンプレート構築モジュール７５は、上記特定特徴集合中の上記特徴語と上記予め設定されたキーワードとにより単純ベイズ分類器を構築し、各特徴語は上記単純ベイズ分類器において互いに独立している。

さらに、テンプレートトレーニングモジュール７６は、上記単純ベイズ分類器中の上記特徴語ごとに、上記サンプルトレーニング集合中のマーキング結果に基づいて、上記特徴語と上記予め設定されたキーワードとを有する文節である第１の文節の数量を統計するとともに、それぞれの上記特徴語、上記予め設定されたキーワードおよび上記数量に基づいて、トレーニングした後の上記単純ベイズ分類器を得る。

さらに、上記予め設定されたキーワードは数字情報であり、上記マーキング結果は上記数字情報の属性である。

図８は例示的な実施例による情報認識装置の構造図であり、この装置は本発明の情報認識方法を実現するためのものである。例えばスマート端末に適用される。図８に示すように、この装置は文節取得モジュール８１と、単語抽出モジュール８２と、認識処理モジュール８３と、を備える。

文節取得モジュール８１は、認識しようとする目的情報における予め設定されたキーワードを含む文節を少なくとも１つ取得する。

単語抽出モジュール８２は、上記文節に対して分割を行い複数の単語を得て、上記複数の単語から少なくとも１つの特徴語を含む特定特徴集合を抽出する。

認識処理モジュール８３は、上記予め設定されたキーワード、特徴語及び予め構築されたテンプレートに基づいて、上記文節における予め設定されたキーワードのマーキング結果を認識する。

さらに、認識処理モジュール８３は、認識のマーキング結果として予め設定されたマーキング結果である文節の数量は複数である場合、認識確率が最も高い文節における予め設定されたキーワードを予め設定されたマーキング結果の情報とする。

さらに、単語抽出モジュール８２は、カイ二乗検定によって上記複数の単語から上記特定特徴集合を抽出するステップ、または情報ゲインによって上記複数の単語から上記特定特徴集合を抽出するステップによって、複数の単語から特定特徴集合を抽出する。

図９は例示的な実施例による情報認識装置９００のブロック図である。例えば、装置９００は携帯電話、コンピュータ、数字放送端末、メッセージ送受信機器、ゲーム機器、タブレット機器、医療機器、フィットネス機器、ＰＤＡなどであればよい。

図９を参照して、装置９００は処理部９０２、メモリ９０４、電源部９０６、マルチメディア部９０８、音声部９１０、入力／出力（Ｉ／Ｏ）インターフェース９１２、センサー部９１４、及び通信部９１６からなる群で選ばれた１つまたは複数の部品で構成される。

一般的に処理部９０２は装置９００の全体操作、例えば表示、発呼、データ通信、カメラ操作と記録操作に対応する操作を制御する。処理部９０２は本発明の情報認識方法を行うために１つ又は複数のプロセッサー９２０を備えてコマンドを実行しても良い。さらに、処理部９０２は処理部９０２とその他の部品との間の対話のために１つ又は複数のモジュールを備えても良い。例えば、処理部件９０２マルチメディア部９０８と処理部９０２との間の対話のためにマルチメディアモジュールを備えても良い。

メモリ９０４は様々なデータを記憶して機器９００での操作に対応するように配置される。これらのデータは例えば装置９００で操作されるいずれかのアプリケーションプログラムや方法のコマンド、連絡者データ、電話帳データ、メッセージ、画像、ビデオなどが挙げられる。メモリ９０４は任意の発揮性や非発揮性記憶機器またはそれらの組み合わせによって実現され、例えばＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ（ＳＲＡＭ）、ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅａｎｄＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ（ＥＥＰＲＯＭ）、ＥｒａｓａｂｌｅａｎｄＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ（ＥＰＲＯＭ）、ＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ（ＰＲＯＭ）、ＲｅａｄＯｎｌｙＭｅｍｏｒｙ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクが挙げられる。

電力部９０６は装置９００の各種部品に電力を供給する。電力部９０６は電源管理システム、１つ又は複数の電源、および装置９００に対する電力を生成・管理・割当するためのその他の部品を含む。

マルチメディア部９０８は上記装置９００とユーザ間の出力インターフェースを提供するスクリーンを含む。ある実施例には、スクリーンは液晶ディスプレイ（ＬＣＤ）とタッチパネル（ＴＰ）を含んでも良い。スクリーンがタッチパネルを含むと、スクリーンがタッチスクリーンとして実現され、ユーザからの入力信号を受信する。タッチパネルはタッチパネルに対するタッチ、スライドやジェスチャーを検知するための１つ又は複数のタッチセンサーを含む。上記タッチセンサーはタッチやスライド動作の境界を検知するとともに、上記タッチやスライド操作に関する継続時間と圧力を検出することができる。ある実施例には、マルチメディア部９０８は１つのフロントカメラ及び／又はリアカメラを含む。機器９００が操作モード、例えば撮像モードまたはビデオモードにした時に、フロントカメラ及び／又はリアカメラで外部からのマルチメディアデータを受信することができる。それぞれのフロントカメラとリアカメラは一体の光学レンズシステムや焦点距離可変及び光学ズーム機能を有するものである。

音声部９１０は音声信号を出力及び／又は入力するように配置される。例えば、音声部９１０は１つのマイク（ＭＩＣ）を含み、装置９００が操作モード、例えば発呼モード、記録モードや音声認識モードにした時に、マイクは外部の音声信号を受信するように配置される。ひいては受信した音声信号をメモリ９０４に記憶させ、または通信部９１６を介して送信させる。ある実施例には、音声部９１０は音声信号を出力するための１つのスピーカをさらに含む。

Ｉ／Ｏインターフェース９１２は処理部９０２とキーボード、クリックホイール、ボタンなどの周辺インターフェースモジュールとの間のインターフェースを提供する。これらのボタンはホームページボタン、ボリュームボタン、スタートボタンやロックボタンを含むが、それらに限定されるものではない。

センサー部９１４は装置９００の各側面の状態を評価する１つ又は複数のセンサーを含む。例えば、センサー部９１４は装置９００のオン／オフ状態、部品の相対的機能、例えば上記部品が装置９００のディスプレイ及びキーパッドとして機能することを検出できるとともに、センサー部９１４は装置９００または装置９００のある部品の位置変化、装置９００に対するユーザの接触があるかどうか、装置９００の方位や加速／減速及び装置９００の温度変化を検出することができる。センサー部９１４は何も触れていない時に周辺物体の存在を検出するように配置される近接センサーを含む。センサー部９１４は光センサー、例えば画像形成に用いるＣＭＯＳまたはＣＣＤイメージセンサーを含む。ある実施例には、このセンサー部９１４は加速度センサー、ジャイロセンサー、磁気センサー、圧力センサーや温度センサーを含んでも良い。

通信部９１６は装置９００とその他の機器間の有線や無線方式の通信を行うように配置される。装置９００は通信規格に基づく無線ネットワーク、例えばＷｉＦｉ、２Ｇや３Ｇ、またはそれらの組み合わせに接続することができる。例示的な実施例には、通信部９１６は放送チャンネルを介して外部の放送管理システムからの放送信号または放送に関する情報を受信する。例示的な実施例には、上記通信部９１６は短距離通信を促進するための近接通信（ＮＦＣ）モジュールを含む。例えば、ＮＦＣモジュールでは無線ＩＤタグ（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（ＢＴ）技術とその他の技術に基づいて通信が実現される。

例示的な実施例には、装置９００は上記方法を実行するために１つ又は複数の専用集積回路（ＡＳＩＣ）、数字信号プロセッサー（ＤＳＰ）、数字信号処理機器（ＤＳＰＤ）、プログラマブル論理デバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサーまたはその他の電子素子で実現される。

例示的な実施例には、装置のプロセッサーで実行され上記方法が実現されるコマンドを含む非一時的なコンピュータ可読記憶媒体、例えばコマンドを含むメモリがされに提供される。例えば、上記非一時的なコンピュータ可読記憶媒体はＲＯＭ、ランダムアクセスメモリ（ＲＡＭ）、ＣＤ−ＲＯＭ、磁気テープ、フレキシブルディスクや光データ記憶機器などである。

図１０は一例示的な実施例によるテンプレート構築装置１０００のブロック図である。例えば、装置１０００はサーバなどとして提供される。図１０を参照して、装置１０００は処理部１０２２、さらに１つ又は複数のプロセッサー、及び処理部件１０２２が実行可能なコマンド、例えばアプリケーションプログラムを記憶するためのメモリ１０３２で代表されるメモリリソースを含む。メモリ１０３２に記憶されるアプリケーションプログラムはコマンド集合ごとに対応する１つのまたは１つ以上のモジュールを含む。さらに、処理部１０２２はコマンドを実行して本発明のテンプレート構築方法を実行するように配置される。

装置１０００は装置１０００の電源管理を行うように配置される電源部１０２６、装置１０００をネットワークに接続させるように配置される有線または無線ネットワークインターフェース１０５０、入出力（Ｉ／Ｏ）インターフェース１０５８をさらに含む。装置１０００はメモリ１０３２に記憶されるオペレーティングシステム、例えばＷｉｎｄｏｗｓＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、ＵｎｉｘＴＭ、ＬｉｎｕｘＴＭ、ＦｒｅｅＢＳＤＴＭまたは類似システムに基づいて動作することができる。

当業者が明細書及び今回開示された発明を参照して本発明の他の実施形態を容易に想到できる。本願は本発明の任意変形、利用または適切な変化を含むことを意図して、これらの変形、利用または適切な変化が本発明の一般的原理に従い本発明に係る技術分野における公知な常識や慣用技術手段を含む。明細書と実施例は例示的なもので、本発明の範囲と精神は特許請求の範囲で示される。

本発明は以上の説明や図面に示された構造に限定されるもではなく、その範囲を逸脱しない限り様々な変更、変形が可能であることは勿論である。本発明の範囲は特許請求の範囲で解釈される。

Claims

テンプレートの構築方法であって、
種別が予め設定された少なくとも１つのオリジナル情報を含むオリジナル情報サンプル集合を取得するステップと、
前記オリジナル情報に予め設定されたキーワードが含まれている時に、予め設定されたキーワード集合に基づいて前記予め設定されたキーワードをマーキングすることによって、サンプルトレーニング集合を得るステップと、
前記サンプルトレーニング集合における前記予め設定されたキーワードを含む文節に対して分割を行うことによって、複数の単語を得るステップと、
前記複数の単語から少なくとも１つの特徴語を含む特定特徴集合を抽出するステップと、
前記予め設定されたキーワードと前記特定特徴集合中の前記特徴語に基づいて前記テンプレートを構築するステップと、
前記サンプルトレーニング集合中のマーキング結果に従って前記テンプレートに対してトレーニングを行うステップと、を含むことを特徴とするテンプレート構築方法。
前記複数の単語から特定特徴集合を抽出するステップは、
カイ二乗検定によって前記複数の単語から前記特定特徴集合を抽出するステップ、または、
情報ゲインによって前記複数の単語から前記特定特徴集合を抽出するステップを含むことを特徴とする請求項１に記載の方法。
前記予め設定されたキーワードと前記特定特徴集合中の前記特徴語に基づいて前記テンプレートを構築するステップは、
前記特定特徴集合中の前記特徴語と前記予め設定されたキーワードとにより単純ベイズ分類器を構築し、各特徴語は前記単純ベイズ分類器において互いに独立しているステップを含むことを特徴とする請求項１に記載の方法。
前記サンプルトレーニング集合中のマーキング結果に従って前記テンプレートに対するトレーニングを行うステップは、
前記単純ベイズ分類器中の前記特徴語ごとに、前記サンプルトレーニング集合中のマーキング結果に基づいて、前記特徴語と前記予め設定されたキーワードとを有する文節である第１の文節の数量を統計するステップと、
それぞれの前記特徴語、前記予め設定されたキーワードおよび前記数量に基づいて、トレーニングした後の前記単純ベイズ分類器を得るステップと、を含むことを特徴とする請求項３に記載の方法。
前記オリジナル情報に予め設定されたキーワードが含まれている時に、予め設定されたキーワード集合に基づいて前記予め設定されたキーワードをマーキングすることによって、サンプルトレーニング集合を得るステップは、
前記オリジナル情報に数字情報が含まれている時に、前記数字情報の属性を示す情報を含む予め設定されたキーワード集合に基づいて前記数字情報に対してマーキングを行い、サンプルトレーニング集合を得るステップを含むことを特徴とする請求項４に記載の方法。
認識しようとする目的情報における予め設定されたキーワードを含む文節を少なくとも１つ取得するステップと、
前記文節に対して分割を行い複数の単語を得て、前記複数の単語から少なくとも１つの特徴語を含む特定特徴集合を抽出するステップと、
前記予め設定されたキーワード、特徴語及び予め構築されたテンプレートに基づいて、前記文節における予め設定されたキーワードのマーキング結果を認識するステップと、を含むことを特徴とする情報認識方法。
認識したマーキング結果として予め設定されたマーキング結果である文節の数量が複数である場合、認識確率が最も高い文節における予め設定されたキーワードを予め設定されたマーキング結果の情報とするステップをさらに含むことを特徴とする請求項６に記載の方法。
前記複数の単語から特定特徴集合を抽出するステップは、
カイ二乗検定によって前記複数の単語から前記特定特徴集合を抽出するステップ、または、
情報ゲインによって前記複数の単語から前記特定特徴集合を抽出するステップを含むことを特徴とする請求項６に記載の方法。
前記予め設定されたキーワードは数字情報であり、前記マーキング結果は前記数字情報の属性であることを特徴とする請求項６に記載の方法。
種別が予め設定された少なくとも１つのオリジナル情報を含むオリジナル情報サンプル集合を取得するためのサンプル取得モジュールと、
前記オリジナル情報に予め設定されたキーワードが含まれている時に、予め設定されたキーワード集合に基づいて前記予め設定されたキーワードをマーキングすることによって、サンプルトレーニング集合を得るためのサンプル処理モジュールと、
前記サンプルトレーニング集合における前記予め設定されたキーワードを含む文節に対して分割を行うことによって、複数の単語を得るための分割処理モジュールと、
前記複数の単語から少なくとも１つの特徴語を含む特定特徴集合を抽出するための特徴抽出モジュールと、
前記予め設定されたキーワードと上記特定特徴集合中の上記特徴語に基づいて上記テンプレートを構築するためのテンプレート構築モジュールと、
上記サンプルトレーニング集合中のマーキング結果に従って上記テンプレートに対するトレーニングを行うためのテンプレートトレーニングモジュールと、を備えることを特徴とするテンプレート構築装置。
前記特徴抽出モジュールは、カイ二乗検定によって前記複数の単語から前記特定特徴集合を抽出するステップ、または情報ゲインによって前記複数の単語から特定特徴集合を抽出するステップによって、複数の単語から特定特徴集合を抽出することを特徴とする請求項１０に記載の装置。
前記テンプレート構築モジュールは、前記特定特徴集合中の前記特徴語と前記予め設定されたキーワードとにより単純ベイズ分類器を構築し、各特徴語は前記単純ベイズ分類器において互いに独立していることを特徴とする請求項１０に記載の装置。
前記テンプレートトレーニングモジュールは、前記単純ベイズ分類器中の前記特徴語ごとに、前記サンプルトレーニング集合中のマーキング結果に基づいて、前記特徴語と前記予め設定されたキーワードを有する文節である第１の文節の数量を統計するとともに、それぞれの前記特徴語、前記予め設定されたキーワードおよび前記数量に基づいて、トレーニングした後の前記単純ベイズ分類器を得ることを特徴とする請求項１２に記載の装置。
前記予め設定されたキーワードは数字情報であり、前記マーキング結果は前記数字情報の属性であることを特徴とする請求項１３に記載の装置。
認識しようとする目的情報における予め設定されたキーワードを含む文節を少なくとも１つ取得するための文節取得モジュールと、
前記文節に対して分割を行い複数の単語を得て、前記複数の単語から少なくとも１つの特徴語を含む特定特徴集合を抽出するための単語抽出モジュールと、
前記予め設定されたキーワード、特徴語及び予め構築されたテンプレートに基づいて、前記文節における予め設定されたキーワードのマーキング結果を認識するための認識処理モジュールと、を備えることを特徴とする情報認識装置。
前記認識処理モジュールは、認識のマーキング結果として予め設定されたマーキング結果である文節の数量が複数である場合、認識確率が最も高い文節における予め設定されたキーワードを予め設定されたマーキング結果の情報とすることを特徴とする請求項１５に記載の装置。
前記単語抽出モジュールは、カイ二乗検定によって前記複数の単語から前記特定特徴集合を抽出するステップ、または情報ゲインによって前記複数の単語から前記特定特徴集合を抽出するステップによって、複数の単語から特定特徴集合を抽出することを特徴とする請求項１５に記載の装置。
前記予め設定されたキーワードは数字情報であり、前記マーキング結果は前記数字情報の属性であることを特徴とする請求項１５に記載の装置。
プロセッサーと、
プロセッサーにより実行可能なコマンドを記憶するメモリと、
を備え、
前記プロセッサーは、種別が予め設定された少なくとも１つのオリジナル情報を含むオリジナル情報サンプル集合を取得し、前記オリジナル情報に予め設定されたキーワードが含まれている時に、予め設定されたキーワード集合に基づいて前記予め設定されたキーワードをマーキングすることによって、サンプルトレーニング集合を得て、前記サンプルトレーニング集合における前記予め設定されたキーワードを含む文節に対して分割を行うことによって、複数の単語を得て、前記複数の単語から少なくとも１つの特徴語を含む特定特徴集合を抽出し、前記予め設定されたキーワードと前記特定特徴集合中の前記特徴語に基づいて前記テンプレートを構築し、前記サンプルトレーニング集合中のマーキング結果に従って前記テンプレートに対するトレーニングを行うように配置されることを特徴とするテンプレート構築装置。
プロセッサーと、
プロセッサーにより実行可能なコマンドを記憶するメモリと、
を備え、
前記プロセッサーは、認識しようとする目的情報における予め設定されたキーワードを含む文節を少なくとも１つ取得し、前記文節に対して分割を行い複数の単語を得て、前記複数の単語から少なくとも１つの特徴語を含む特定特徴集合を抽出し、前記予め設定されたキーワード、特徴語及び予め構築されたテンプレートに基づいて、前記文節における予め設定されたキーワードのマーキング結果を認識するように配置されることを特徴とする情報認識装置。