JP2009098952A - 情報検索システム - Google Patents

情報検索システム Download PDF

Info

Publication number
JP2009098952A
JP2009098952A JP2007270253A JP2007270253A JP2009098952A JP 2009098952 A JP2009098952 A JP 2009098952A JP 2007270253 A JP2007270253 A JP 2007270253A JP 2007270253 A JP2007270253 A JP 2007270253A JP 2009098952 A JP2009098952 A JP 2009098952A
Authority
JP
Japan
Prior art keywords
token
feature
collation
condition
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007270253A
Other languages
English (en)
Other versions
JP5056337B2 (ja
Inventor
Mamoru Kato
守 加藤
Mitsunori Kori
光則 郡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2007270253A priority Critical patent/JP5056337B2/ja
Publication of JP2009098952A publication Critical patent/JP2009098952A/ja
Application granted granted Critical
Publication of JP5056337B2 publication Critical patent/JP5056337B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】 従来の機械学習による文書分類では、形態素解析の処理量が多いために時間がかかり、また、人名の誤検出が多いために分類精度が低下するという問題点があった。
【解決手段】 文字列とキーワードとの照合条件が特徴トークンに対応付けられ、文書中の文字列から特徴トークンを抽出する特徴トークン抽出手段と、特徴トークンが抽出されなかった文字列を文字単位に分割した非特徴トークンを抽出する非特徴トークン抽出手段と、学習用文書中の第1の特徴トークンと第1の非特徴トークンとにより構成された第1のトークン列の出現頻度を学習頻度としてカテゴリに対応付けて算出する学習手段と、分類対象文書中の第2の特徴トークンと第2の非特徴トークンとにより構成された第2のトークン列の出現頻度と、前記学習頻度との類似度を示す分類確率をカテゴリ別に算出して分類対象文書を分類する分類手段とを備える。
【選択図】 図1

Description

本発明は、文書中に記載されたテキストを解析して、文書をテキストの内容に応じて分類する情報検索システムに関する。
従来から、文書の自動分類に関する方法が提案されている。機械学習を用いた文書分類に関しては、例えば、特許文献1に開示された方法のように、予め定められた特定の用語グループまたは正規表現によって規則的表現を記述し、この規則的表現に合致した文字列をトークン(字句で表現されたラベル)に置き換えることにより、大きな語彙を持つ文書を分類するための学習に要する特徴要素数を削減していた。
特表2003−535407号公報 第76頁〜85頁
従来の機械学習による文書分類の例である特許文献1の方法においては、英語などのように単語ごとに区切られた文章を前提としており、日本語などのように単語区切りがない文章に対してそのまま適用することができないという問題があった。この問題を解決する技術として、単語区切りがない文章を単語ごとに分かち書きする形態素解析の技術が知られているが、形態素解析は処理量が多いために時間がかかるという課題があった。
また、特許文献1の方法を機密情報の検出に適用しようとすると、例えば、機密情報の一つである個人情報をトークン化する場合には、人名の誤検出が多くなるという課題があったが、これに対しても対策がなく、トークンの誤検出による分類精度低下の問題があった。
この発明は上記のような問題点を解決するためになされたもので、日本語などのように単語区切りがない文章を処理対象とし、文字列照合による高速な文章のトークン化を特徴とする情報検索システムを提供することを目的とする。また、文字列照合によって得られたトークンの誤検出を低減させて分類精度を高めることを特徴とする情報検索システムを提供することを目的とする。
上記で述べた課題を解決するため、本発明に係る情報検索システムは、文字列とキーワードとの照合条件と前記照合条件を識別する特徴トークンとを対応付けて記憶する照合条件記憶手段と、前記照合条件記憶手段に記憶された前記照合条件と前記特徴トークンとに基づいて、カテゴリ別に予め分類された学習用文書の文字列と前記キーワードとを照合して、合致した前記照合条件に対応する第1の特徴トークンを前記カテゴリと対応付けて抽出し、また、前記照合条件記憶手段に記憶された前記照合条件と前記特徴トークンとに基づいて、前記カテゴリ別に分類される分類対象文書の文字列と前記キーワードとを照合して、合致した前記照合条件に対応する第2の特徴トークンを抽出する特徴トークン抽出手段と、前記第1の特徴トークンが抽出されなかった前記学習用文書の文字列を文字単位に分割した第1の非特徴トークンを前記カテゴリと対応付けて抽出し、また、前記第2の特徴トークンが抽出されなかった前記分類対象文書の文字列を文字単位に分割した第2の非特徴トークンを抽出する非特徴トークン抽出手段と、前記第1の特徴トークンと前記第1の非特徴トークンとにより構成された第1のトークン列の出現頻度を学習頻度として前記カテゴリに対応付けて算出する学習手段と、前記第2の特徴トークンと前記第2の非特徴トークンとにより構成された第2のトークン列の出現頻度と、前記学習手段により算出された前記学習頻度との類似度を示す分類確率を前記カテゴリ別に算出し、前記分類確率が所定の閾値を越える前記カテゴリに前記分類対象文書を分類する分類手段とを備えることとしたものである。
本発明によれば、抽出すべき特徴トークンを定義した照合条件を用いて、入力文書から特徴トークンと非特徴トークンとからなるシーケンスを抽出し、照合条件の優先順位付けやトークンの連鎖確率を利用して学習あるいは分類するようにしたので、単語区切りの無い文章を含む文書を入力した場合にも、形態素解析に比べて処理の速い文字列照合を用いてトークン化が行なえるので高速な処理が可能となり、さらに、特徴トークンの誤検出を防止して、分類精度を向上させることができるようになるという効果がある。
以下の説明では、実施の形態として機密情報検索を例としてあげるが、この発明は機密情報検索に限定されるものではなく、広く一般に文書の分類に用いることができるものである。また、以下の説明では、日本語文書の検索を例としてあげるが、この発明の用途は日本語に限定されるものではなく、どのような文字コードでも適用可能である。
実施の形態1.
図1は、実施の形態1における情報検索システムの一例を示す構成図である。
この情報検索システムは、前処理手段100と、学習手段200と、分類手段300と、前処理手段100に入力される照合条件を記憶する照合条件記憶手段400とから構成される。
前処理手段100はさらに、テキスト抽出手段101と、特徴トークン抽出手段102と、非特徴トークン抽出手段103とを備える。学習手段200は、学習用にトークンの頻度を計算する学習用頻度計算手段201と、計算されたトークンの頻度を分類のカテゴリごとに蓄積し、学習頻度として記憶する学習頻度記憶手段202とを備える。分類手段300は、分類用にトークンの頻度を計算する分類用頻度計算手段301と、この分類用のトークンの頻度と学習頻度記憶手段202に記憶されたトークンの学習頻度とに基づいて、入力文書の分類確率を算出する分類確率算出手段302と、最終的に入力文書のカテゴリを判定するカテゴリ判定手段303を備える。
学習用文書501は、予め複数のカテゴリに分類された複数の文書のセットである。カテゴリは、具体的には、(「非機密文書」、「機密文書」)のように二つの分類で表わすことができる。あるいは、機密文書の機密等級レベルに応じて、(「非機密文書」、「機密レベル1文書」、「機密レベル2文書」、・・・)などのように三つ以上の分類で表わしても良い。
一方、分類対象文書502は、カテゴリの分からない文書であり、分類の対象となる文書の集合である。この分類対象文書502の属するカテゴリが、本実施の形態1の情報検索システムにより判定される。
照合条件記憶手段400は、前処理手段100に入力される照合条件を記憶するものである。この照合条件は、学習や分類に先立って設定されるものであり、組み込み照合条件4001とユーザ定義照合条件4002とに分けることができる。組み込み照合条件4001は、情報検索システムの出荷時に予め組み込まれた照合条件であり、これを基本的な照合条件としてユーザに提供することで、ユーザは直ちに情報検索システムの利用を開始できるようにするものである。また、ユーザ定義照合条件4002は、各ユーザが、特有の用語などを追加して照合条件をカスタマイズできるようにするものである。
上記の照合条件は、キーワードと、照合条件を識別するための照合条件IDとの組の集合で表される。ここでいうキーワードとは、単語や文字列の上位概念を示す複数の用語クラスに対して、各用語クラスに属する単語や文字列を指定する表現形式を意味する。キーワードの表現形式は、複数の固定の用語を羅列したものでも良いし、正規表現により記述したものでも良い。
次に、図2から図6を適宜参照しながら、本発明の実施の形態1における情報検索システムの動作を詳細に説明する。
まず、図2を参照して、学習段階の動作について説明する。
図2は、実施の形態1における情報検索システムの動作を示すフローチャートである。
ステップS11において、予めカテゴリ分けされた学習用文書501が、前処理手段100に入力される。次に、ステップS12において、前処理手段100により、学習用文書501からトークン列が抽出される。次に、ステップS13において、学習用頻度計算手段201により、抽出されたトークン列を解析して、連続するN個のトークンから成るシーケンスの出現頻度を計算する。ここで、連続するトークンの数は、1つ以上、かつ、N個以下であっても良い。次に、ステップS14において、学習頻度記憶手段202により、学習されたトークンの頻度が、カテゴリごとに学習頻度として記憶される。さらに、ステップS15において、学習手段200により、学習用文書501の全文書の学習が完了したか否かを判定する。判定の結果、学習用文書501に複数の文書が含まれる場合には、NOの分岐へ進み、ステップS11以下の動作を繰り返す。一方、判定の結果、全文書が完了した場合には、Yesの分岐へ進み、学習段階の動作を終了する。
次に、図3を参照して、分類段階の動作について説明する。
図3は、実施の形態1において、分類段階の動作を示すフローチャートである。
ステップS21において、分類対象文書502が前処理手段100に入力される。次に、ステップS22において、前処理手段100により、分類対象文書502からトークン列が抽出される。次に、ステップS23において、分類用頻度計算手段301により、抽出されたトークン列を解析して、連続するN個のトークンから成るシーケンスの出現頻度を計算する。ここで、連続するトークンの数は、1つ以上、かつ、N個以下であっても良い。次に、ステップS24において、分類確率算出手段302により、学習結果に基づき、分類対象文書502が、各カテゴリに分類される確率を計算する。次に、ステップS25において、カテゴリ判定手段303により、分類対象文書502が、いずれのカテゴリに分類されるかを、ステップS24で算出された確率に基づいて判定する。最後に、ステップS26において、分類手段303は、ステップS25で判定された分類先のカテゴリを分類結果として出力する(S26)。
上記で述べた学習および分類の動作を実現するためには、非特許文献1にCRM114として示されているテキスト分類ソフトウェアを用いることもできる。
William S. Yerazunis著「Sparse Binary Polynomial Hashing and the CRM114 Discriminator」, MIT Spam Conference 2003, 2003年1月17日
なお、学習動作は、最初にシステム初期化の段階で一括して実行するようにしても良い。さらに、分類動作時に分類誤りなどが発生した場合には、分類誤りが発生した文書を学習用として再度学習することにより、学習データの更新を行なうようにしても良い。
次に、図4を参照して、前処理手段100の動作をより詳細に説明する。
図4は、実施の形態1において、前処理手段100の動作を示すフローチャートである。
ステップS31において、予めカテゴリ分けされた学習用文書501、あるいは、分類対象文書502が入力文書として前処理手段100に入力される。次に、ステップS32において、テキスト抽出手段101により、入力文書から、自然言語で表現された記述であるテキストが抽出される(S32)。
テキスト抽出手段101は、任意の形式の文書からテキストを抽出するものである。任意の形式の文書としては、例えば、市販の文書編集ソフトウエアが生成する種々の形式の文書や、電子メール、HTML(HyperText Markup Language)などのWeb上で用いられる文書などのように、テキストが含まれる文書であれば何であっても良い。また、テキスト抽出手段101は、市販のテキスト抽出ソフトウエアを用いることもできる。さらに、テキスト抽出手段101の出力としては、文書中の文字列からスペース、タブや改行などを取り除いたものとしてもよい。これにより、用語の途中にスペース、タブや改行が入ることに起因する検出漏れを削減できるようになる。
次に、ステップS33において、特徴トークン抽出手段102により、ステップS32で抽出されたテキストから、特徴トークンが抽出される。ここでの特徴トークンとは、照合条件記憶手段400で記憶された照合条件において、各照合条件に対応して設定された用語クラスを表現する文字列を意味する。この特徴トークンは、用語クラス名そのものや、照合条件IDそのものでも良いが、後述の非特徴トークン抽出手段103で文字列として抽出される非特徴トークンとの混同が無いように、例えば、照合条件ID=1に対応して、半角英数字による「TOKEN_1」などのように特別の文字列を用いることもできる。
特徴トークン抽出手段102は、照合条件記憶手段400で記憶された照合条件を参照して、ステップS32で抽出されたテキストと、照合条件に設定されたキーワードとの照合を行ない、キーワードと合致したテキスト中の文字列を、合致した照合条件IDに対応する特徴トークンに置き換える。このような照合処理、および、特徴トークンへの置き換え処理は、照合条件中のキーワードが複数の固定の用語で与えられる場合、次のようになる。特徴トークン抽出手段102は、全ての照合条件に対して、各照合条件に属する全ての用語とテキストとの文字列比較を行なって照合し、一致した場合に、その文字列を特徴トークンに置き換える。この処理を、テキストの照合位置を1文字づつずらしながら実行する。
また、照合条件に設定されたキーワードが正規表現で与えられる場合には、例えば、一般的なOS(Operating System)で使用されるテキスト処理プログラムのSEDや、プログラミング言語のPERL、その他の正規表現ライブラリなどのように、正規表現の置換機能を有するソフトウエアを用いることで実現することができる。
このように、テキスト中の用語を特徴トークンに置き換えることにより、文書分類の特徴量として用いられる語彙サイズを削減でき、後段の学習手段200による学習処理において必要となる学習量を減らすことができる。例えば、個人情報に関する特徴量として用いられる人名については、頻出人名に限っても数千語程度の用語が必要となり、この頻出人名を学習するためには、数千語よりもさらに多量の学習データが必要となるため、ユーザにとって学習データの収集が困難であるという問題点がある。しかし、上記のような特徴トークン抽出による語彙サイズ削減を行なえば、より少ない学習データで精度の高い分類が実現できるようになる。
次に、ステップS34において、非特徴トークン抽出手段103により、特徴トークンとして抽出されなかったテキスト中の文字列から、非特徴トークンの抽出を行なう。ここでの非特徴トークンは、1つの文字とする。すなわち、特徴トークン以外の文字列を1文字づつ取り出したものを非特徴トークンとする。
さらに望ましくは、日本語文書を例に取れば、日本語文字については1文字単位での取り出しを行ない、英数字および記号については、日本語文字と英数字など文字種の切り替わりの単位での取り出しを行なうようにする。こうすることで、特徴トークンを前記の「TOKEN_1」の例のように英数字および記号により記述すれば、特徴トークン抽出手段102により既に抽出した特徴トークンと、それ以外の文字列とを容易に区別できるようになり、非特徴トークン抽出手段103による抽出処理で特徴トークンが分割されないようにするために、特徴トークンかどうかのチェックを行なうという処理段階を省略できるようになる。もちろん、日本語以外の文書に対しても同様に、非特徴トークンを取り出すこともできる。
次に、ステップS35において、前処理手段100により、上記で抽出した特徴トークン、および、非特徴トークンとから成るトークン列が出力される。このトークン列のデータ出力方法としては、例えば、スペース区切りや改行区切り等を併用してトークン列を表現し、このトークン列を格納したテキストファイルを、後段の学習手段200や分類手段300に渡すようにする。または、トークン列を文字列の配列としてメモリに格納して、後段の学習手段200や分類手段300に渡すようにしても良い。
以上の前処理により、入力文書からトークン列(特徴トークンと非特徴トークンとからなるシーケンス)が抽出される。このように、単語区切りの無い文章を含む文書を入力した場合にも、形態素解析に比べて処理の速い文字列照合を用いてトークン化を行なうことで、高速な処理が可能となる。
ここで、図5に示す照合条件の例を参照しながら、照合条件についてさらに詳細に説明する。以下の説明では、正規表現により表現されたキーワード(正規表現キーワード)を例に取っているが、固定の用語によるキーワードでも同様に実施できる。
図5は、実施の形態1において、照合条件の例を示す図である。
照合条件には、各用語クラスに対して正規表現キーワードと照合条件IDを組にしたものを用意し、それを複数組備えることができる。図5に示したように、例えば、人名(姓)や県名などの用語クラスについては、それに属する用語(固有名詞)を羅列する正規表現キーワードを作成することができる。また、メールアドレスや電話番号などの用語クラスについては、それらに固有の表現パターンに基づく正規表現キーワードを作成することができる。
ここで、機密情報を分類の対象とする場合には、機密情報の中の一つである個人情報に関して、人名と住所、電話番号、メールアドレスなどが特徴的な用語クラスとなる。さらに、名簿に使われることが多い名簿用語なども、個人情報ファイルの検出に有効である。また、一般の機密情報を検出するためには、「社外秘」などのような機密レベルを表わす用語クラスや、機密情報が含まれることの多い文書種類(仕様書など)、取引先名などの用語クラスを定義することができる。なお、図5では、用語クラスの一部の例を示したが、用語クラスとそれに属する正規表現キーワードはこれらに限られるものではない。
また、図5の組み込み照合条件4001とユーザ定義照合条件4002においては、照合条件IDは重なりがあってもよい。すなわち、組み込み照合条件4001にて既に定義されている用語クラスに用語を追加したい場合には、ユーザ定義照合条件4002で同じ照合条件IDを使用することにより、用語の追加ができる。図5の例では、照合条件ID=1において、ユーザが所望する人名を追加していることを示す。
このように同じ照合条件IDを使用することで、システム運用中に新たな用語を追加する場合でも、用語クラスとしては変わらないため、既に学習した学習データがそのまま利用できるという利点がある。もちろん、再度、学習文書501を学習させることで、追加された用語に関する差分情報を含めた学習結果にアップデートして保持するようにもできる。
ユーザ定義照合条件4002においてはさらに、新しい照合条件IDを割り当てることもできる。図5の例では、用語クラス「文書種類」において、照合条件ID=100という組み込み照合条件4001にない照合条件IDを用いている。このことにより、ユーザが新しい用語クラスを定義して用語を追加できるようになる。
さらに、照合条件には優先順位を付けることもできる。この場合、テキスト中の文字列との照合は、優先順位の高いものから順に実行される。優先順位を付ける方法としては、例えば、照合条件として(ID、正規表現キーワード、優先順位)といった組のように、優先順位を別途管理するようにすることもできるし、あるいは、照合条件を記述した順番により、先に記述された照合条件の優先順位を高くするというようにもできる。
さらに望ましい形態としては、照合条件IDの大小により優先順位を判断することもできる。この場合、図5の例によれば、照合条件ID=1が最も優先順位が低く、照合条件ID=101が最も優先順位が高いとされる。例えば、テキスト中の「東京都」という文字列に対して照合を行なうと、ID=10にある「東京都」と、ID=1にある「東」との二つがヒットするが、ID=10の方が優先順位が高いため、「東京都」という文字列がTOKEN_10として特徴トークン化される。人名による個人情報の検出を行なう場合には、「東」のような一文字の人名が誤検出されることによる分類精度低下が問題となるが、この照合条件の優先順位を利用することによって、人名漢字が地名や会社名などで使用されている場合の誤検出を減らすことができる。
このような誤検出が生じる場合の具体的な例を図6に示す。
図6は、実施の形態1において、図5の照合条件を用いて前処理手段100により生成されたトークン列の例を示す図である。
トークン化された文字列は、1行あたり1トークンの表示形式で示されており、「鈴木」がTOKEN_1、「東京都」がTOKEN_10、「東日本橋」の「東」がTOKEN_1、「(03)1111−2222」がTOKEN_12として特徴トークン化されている。また、それ以外の文字については、この例では日本語であるため、1文字が1トークンとして非特徴トークン化されている。図6の例の場合、「東日本橋」の「東」がTOKEN_1として特徴トークン化されている点が誤検出となっている。このような誤検出に対応するためには、例えば、新たな用語クラス「地名」を定義して、用語として「東日本橋」を含むようにすることもできるが、全ての誤検出が回避できるわけではない。
本実施の形態においては、前述した照合条件の優先順位付けに加え、さらに、特徴トークンと、その前後の特徴トークン、または、非特徴トークンとを関連付けることにより誤検出を防ぎ、カテゴリ分類結果への誤検出の影響を減らすことができる。例えば、図6では、「TOKEN_1、日、本」という3個のトークンのシーケンスに関して、特徴トークンTOKEN_1は、実際には人名であるよりも、「東日本」という地名である可能性が高い。このような3個のトークンの連鎖確率を、前述のように、学習手段200により、トークン列から連続する1乃至N個のトークンのシーケンスを切り出して、そのシーケンスの出現頻度を計算することで、トークンの連鎖確率を学習することができる。このようなトークンの連鎖確率を利用して学習あるいは分類することにより、特徴トークンの誤検出を防止し、分類精度を向上させることができる。
さらにまた、本実施の形態においては、特徴トークンを一つも含まない1乃至N個のトークンのシーケンスを、学習あるいは分類に使用しないことにより、学習や分類に要する時間を削減し、さらに、学習データの格納に要する記憶容量を削減することができる。1乃至N個のトークンのシーケンスが特徴トークンを含まない場合、すなわち、全て非特徴トークンである場合、そのシーケンスは、学習あるいは分類に寄与しない文字(非特徴トークン)の羅列である。特に、学習用文書501に含まれる文書数が比較的少ない場合には、それぞれのシーケンスのパターンは出現頻度が低く、分類に有意である可能性が低いため、学習あるいは分類に使用しなくても結果は大きく変わらない。このための具体的な実現方法としては、学習手段200、および、分類手段300において、特徴トークンを含まない1乃至N個のトークンのシーケンスを無視するようにしてもよいし、前処理手段100において、特徴トークンを含む1乃至N個のトークンのシーケンスのみ出力するようにしてもよい。
以上のように、実施の形態1によれば、抽出すべき特徴トークンを定義した照合条件を用いて、入力文書から特徴トークンと非特徴トークンとからなるシーケンスを抽出し、照合条件の優先順位付けやトークンの連鎖確率を利用して学習あるいは分類するようにしたので、単語区切りの無い文章を含む文書を入力した場合にも、形態素解析に比べて処理の速い文字列照合を用いてトークン化が行なえるので高速な処理が可能となり、さらに、特徴トークンの誤検出を防止して、分類精度を向上させることができるようになるという効果がある。
実施の形態2.
以上の実施の形態1では、特徴トークンの抽出を文字列の置換機能により実現するようにしたものであるが、次に、特徴トークンの抽出を正規表現の照合機能により実現する実施の形態を示す。
正規表現を照合条件とする文字列照合方法として、NFA(Non Deterministic Finite Automaton、非決定性有限オートマトン)による方法や、DFA(Deterministic Finite Automaton、決定性有限オートマトン)による方法が知られている。DFAの場合には、正規表現をコンパイルして状態遷移表を生成し、その状態遷移表を入力文字列に適用することで照合を行なうため、NFAに比べて高速に照合できることが知られている。この発明においては、いずれの方法を用いても実施可能であるが、以下の説明ではDFAを用いる例を示す。
図7は、実施の形態2において、DFAを用いた場合の特徴トークン抽出手段102に関わる構成の一例を示す図である。
本実施の形態2では、照合条件記憶手段400に記憶された照合条件から状態遷移表105を生成する状態遷移表生成手段104を備え、特徴トークン抽出手段102は、状態遷移表105を参照して入力文字列1020との照合を行なう照合手段1021と、照合結果から文字列の置き換えを行なう置換手段1022とにより構成される。
図7において、状態遷移表生成手段104は、照合条件に含まれる全ての文字列を解析し、DFAで文字列を受理するまでの解析過程を状態遷移で表現して状態遷移表105を生成する。状態遷移表105を生成する方法は一般に良く知られた方法であり、このような既存の方法を状態遷移表生成手段104で用いても構わない。
照合手段1021は、入力文字列1020(テキスト抽出手段101により抽出されたテキスト)が1文字づつ入力されて状態遷移表105による照合を行ない、照合条件の合致を判定する。合致した場合には、合致した文字列の終了位置(入力文字列1020の先頭からの位置であり、ここではヒット位置と呼ぶ)、及び、合致した照合条件IDを出力する。さらに、照合手段1021では、合致した文字列の開始位置(入力文字列1020の先頭からの位置)を算出し、置換手段1022において、合致した文字列の開始位置、及び、終了位置(ヒット位置)に基づいて、特徴トークンへの置換を行なうことができる。
あるいは、照合手段1021において開始位置は算出せず、終了位置(ヒット位置)のみを算出するようにもできる。そうすることにより、開始位置を算出するために状態遷移表105を逆にたどったり、状態遷移表105の各状態で開始位置を管理したりするなどといった処理が不要となり、照合を高速化できる。
この場合、置換手段1022は以下のように動作する。
照合条件には、人名や地名、会社名などのような固有名詞を用語とする用語クラスと、メールアドレスのように可変長の用語に対して合致する正規表現キーワードを持つ用語クラスとがある。固有名詞の羅列となるような照合条件に対しては、照合条件記憶手段400において、用語の長さごとに照合条件を分けて、照合条件IDごとに一意に長さが決まるようにできる。したがって、照合手段により合致した照合条件IDから、対応する長さの文字列を、対応する特徴トークンに置き換えることができる。可変長の用語を持つ用語クラスに対しては、置き換えを行なわずに、終了位置(ヒット位置)に続けて特徴トークンを挿入するように構成できる。
これにより、開始位置がわからない状態においても、文字列の置換を行なうことができ、置換処理を高速化できる。
図8は、実施の形態2において、用語の長さを分けた照合条件の例を示す図である。
照合条件IDを、用語クラスを識別する用語クラスフィールドと、文字数を識別する文字数フィールドとから成るように構成する。図8において、ID=101、102、103は用語クラスフィールドが1で文字数がそれぞれ1,2,3であることを示す。置換手段1022においては、用語クラスフィールドを用いて特徴トークンの生成(この場合は、TOKEN_1)を行ない、文字数フィールドに示される文字を入力文字列から取り除いて、特徴トークンを挿入する。ID=1100については、用語クラスフィールドが11、文字数フィールドが0となる。文字数フィールド0は可変長であることを示し、この場合、置換手段1022は、入力文字列からの合致文字列の削除を行なわずに、特徴トークン(この場合は、TOKEN_11)の挿入を行なう。図8の例では、IDの1の位と10の位を文字数フィールド、それ以上の位を用語クラスフィールドとしたが、フィールドの割り当てについてはこれに限るものではない。
このように、照合条件IDの一部に文字数情報を持たせることにより、文字数を別に管理する場合の煩雑さを無くすことができる。
上記のように照合条件IDに文字数情報を持たせる場合、ユーザが文字数を意識しながら照合条件を作成するのは手間がかかるため、照合条件を自動構成するようにすることもできる。
図9は、実施の形態2において、照合条件を自動構成する構成の例を示す図である。
図9の例では、照合条件合成手段106が追加されている。照合条件合成手段106は、文字数ごとに分かれていない図5のような照合条件を入力として、正規表現キーワードを解析し、文字数ごとに分けた照合条件を生成する。正規表現キーワードが人名のように固定長文字の羅列である場合には文字数ごとに分けた正規表現キーワードを生成し、それぞれの正規表現キーワードの文字数と元の照合条件IDから、新しい照合条件ID(用語クラスフィールドと文字数フィールドをもつもの)を生成する。正規表現キーワードが可変長である場合には、照合条件IDの文字数フィールドに0を入れる。
このように、文字数情報を持った照合条件を自動生成することで、ユーザが文字数を意識した照合条件を作成する手間を省くことができる。
実施の形態3.
以上の実施の形態2は、照合条件に合致した文字列の入力テキスト中の位置のみを出力する照合手段1021を用いた場合でも特徴トークンへの置換が行なえるようにするものであるが、次に、特徴的な用語同士の位置関係をトークン化する場合の実施の形態を示す。
個人情報の検出においては、名簿のように人名と住所、電話番号、メールアドレスなどが並んでいる構造を持つ文書を検出対象にする場合も多い。このような特徴的な用語同士の位置関係を抽出して学習することで、分類精度を上げることができる。
この実施の形態3における前処理手段100は、照合条件IDで指定される特徴的な用語の入力文書中のヒット位置を抽出して記憶し、2つ以上の特徴的な用語のシーケンスで予め定めたルールに合致するシーケンスが現れた場合に、それらの特徴間の距離を、記憶されたヒット位置により算出し、該当するルールにつけられたルールIDと距離とを合わせて特徴間距離トークンを生成する。学習手段200、及び、分類手段300においては、この特徴間距離トークンをその他のトークンと同じように学習することで、名簿のような構造を持った文書を効率的に学習・分類できる。
図10は、実施の形態3における情報検索システムの一例を示す構成図である。
図10では、前処理手段100において、特徴間距離トークン生成手段107が追加され、さらにルール600が追加される構成になっている。
図11は、実施の形態3において、ルール600の例を示す図である。
一つのルールは、ルールIDと照合条件シーケンスとの組から構成される。図11のID=1は、照合条件IDが1、11の順で現れるもの、すなわち、人名→メールアドレスの順に現れるものを検出するためのルールである。これを検出した場合、特徴間距離トークンとしてルールID=1であることが識別可能であり、このIDと、検出したものの距離とを含むような特徴間距離トークンを、特徴間距離トークン生成手段105にて生成する。例えば、距離が20であった場合には、RULE_1_20というトークンを生成する。
照合条件シーケンスは、2つ以上の照合条件の順序を示すものであり、ID=3の例の場合には、3つの照合条件のシーケンスが記述される。この場合、距離の部分は、例えば、照合条件IDの1と10の間が5であって、10と12の間が6であれば、RULE_3_5_6などとすればよい。4つ以上のシーケンスも同様である。
距離の表記については、上限を設けることもできる。通常、名簿などにおいても一定以上離れた特徴的な用語は無関係である可能性が高く、関連する特徴的な用語は構造的に隣り合っている可能性が高い。構造的といったのは文書の構造という意味で、それをテキスト抽出したときに必ずしも文字列として隣り合っているわけではないが、ある程度の距離以内にはある可能性が高い。したがって、距離が条件を超える場合には無視しても影響は少ない。
また、距離は、必ずしも正確な距離である必要はなく、距離をいくつかの範囲に分けてラベルを付けてもよい。例えば、距離が5以下ならA、6以上10以下ならB、11以上20以下ならC、それ以外は対象外、などとすることができる。検出された距離が6であれば、トークンはRULE_1_Bのように表される。このように距離を範囲にまとめることで、比較的少ない学習文書により効率的に学習できる。
また、照合条件記憶手段400に記憶される照合条件が、組み込み照合条件4001とユーザ定義照合条件4002とにより構成される場合には、これらに対応して、ルール600を、組み込みルールとユーザ定義ルールとにより構成することで、ユーザが定義した用語クラスを含むルールの作成ができるようになる。
ところで、実施の形態1で述べたように、この発明では、特徴トークンを含む1乃至N個のトークンのシーケンスについて学習あるいは分類するが、特徴間距離トークンに関しては、このようなシーケンスを学習することは意味が無い。これを回避する一つの方法としては、学習手段200、及び、分類手段300において特徴間距離トークンを検出した場合には、シーケンスではなく、単体(N=1)で学習・分類するようにする。
あるいは別の方法として、前処理手段100が特徴間距離トークンを出力する場合に、前後にN−1個のダミートークンを挿入し、学習・分類においては、そのままN個のシーケンスを学習するようにも構成できる。例えばN=3とすると、トークン列はDUMMY、DUMMY、RULE_X_X、DUMMY、DUMMYとなり、連続するN個のトークンの組合せとしては、
(DUMMY、DUMMY、RULE_X_X)
(DUMMY、RULE_X_X、DUMMY)
(RULE_X_X、DUMMY、DUMMY)
となる。このようにして、特徴間距離トークンに関して隣り合う特徴間距離トークンとの関連性を学習することを回避できる。
実施の形態4.
以上の実施の形態3は、特徴的な用語同士の位置関係を特徴間距離トークン化してトークン列に追加し、学習・分類に使用するものであるが、次に、特徴間距離トークンのみによる学習を行なって、学習処理を高速化する場合の実施の形態を示す。
図12は、実施の形態4における情報検索システムの一例を示す構成図である。
図12では、前処理手段100にトークン出力制御手段106が追加された構成となっている。トークン出力制御手段108は、2つの動作モード(モード1、モード2)を備えている。モード1が設定されると、実施の形態3と同様に、特徴トークンと非特徴トークンとからなるトークン列の最後に、特徴間距離トークンと、必要に応じてダミートークンとを出力する。また、モード2が設定されると、特徴トークンと非特徴トークンの出力を抑止して、特徴間距離トークンのみを出力する。
上記の動作モードの設定は、初期設定ファイル、あるいは、レジストリに設定するか、システムの実行時に実行コマンドパラメータとして与える。トークン出力制御手段108は、起動時にこれらの設定方法により動作モードが設定され、以後、その動作モードにて動作する。
モード1に設定された場合には、トークン出力制御手段108は、非特徴トークン抽出手段103からの出力、および、特徴間距離トークン生成手段107からの出力をそのまま出力する。
モード2に設定された場合には、トークン出力制御手段108は、非特徴トークン抽出手段103から出力されるトークン列(特徴トークンと非特徴トークンからなる列)は出力せず、特徴間距離トークン生成手段107により生成されたトークン列(特徴間距離トークンからなる列)を出力する。なお、このトークン列には、ダミートークンが含まれていても良い。モード2にて動作する場合には、隣り合うトークンとの関係の学習は不要であると設定されているため、特徴間距離トークン生成手段107、学習手段200、及び、分類手段300にて、N=1として動作することで、無駄な学習を省いてより効率的に動作できる。
このように、学習処理の動作モードを選択可能とすることで、分類精度と分類速度とのトレードオフを、アプリケーションのタイプに応じて選択することが可能な柔軟性のあるシステムを提供できる。
実施の形態5.
実施の形態3は、トークンをすべて平等に扱うものであったが、次に、トークンの重み付けを設定可能とする場合の実施の形態を示す。
図13は、実施の形態5において、トークンの重み付け設定方法の例を示す図である。
図13において、種別は、特徴トークン(TOKEN)であるか、特徴間距離トークン(RULE)であるかを示す。分類手段300は、この重み付け設定情報を持ち、特徴トークンと非特徴トークンとから算出された入力文書の各カテゴリへの分類確率と、特徴間距離トークンから算出された分類確率とを、この重みに応じて配分して最終的な分類確率を計算し、カテゴリ判定を行なう。
本実施の形態5の分類手段300においては、トークンの種別により、それぞれ別の分類確率Pct(特徴トークンにより入力文書がカテゴリcに分類される確率)、及び、Pcr(特徴間距離トークンにより入力文書がカテゴリcに分類される確率)を算出する。このとき、入力文書がカテゴリcに分類される確率Pcを以下の式にて算出し、これによりカテゴリを判定する。
Pc=Pct・Wt+Pcr・Wr (但し、Wt+Wr=1とする)
これにより、アプリケーションのタイプに応じて、分類精度をきめ細かくチューニングすることが可能となる。
実施の形態1における情報検索システムの一例を示す構成図である。 実施の形態1における情報検索システムの動作を示すフローチャートである。 実施の形態1において、分類段階の動作を示すフローチャートである。 実施の形態1において、前処理手段100の動作を示すフローチャートである。 実施の形態1において、照合条件の例を示す図である。 実施の形態1において、図5の照合条件を用いて前処理手段100により生成されたトークン列の例を示す図である。 実施の形態2において、DFAを用いた場合の特徴トークン抽出手段102に関わる構成の一例を示す図である。 実施の形態2において、用語の長さを分けた照合条件の例を示す図である。 実施の形態2において、照合条件を自動構成する構成の例を示す図である。 実施の形態3における情報検索システムの一例を示す構成図である。 実施の形態3において、ルール600の例を示す図である。 実施の形態4における情報検索システムの一例を示す構成図である。 実施の形態5において、トークンの重み付け設定方法の例を示す図である。
符号の説明
100 前処理手段、101 テキスト抽出手段、102 特徴トークン抽出手段、1020 入力文字列、1021 照合手段、1022 置換手段、1023 出力文字列、103 非特徴トークン抽出手段、104 状態遷移表生成手段、105 状態遷移表、106 照合条件生成手段、107 特徴間距離トークン生成手段、108 トークン出力制御手段、200 学習手段、201 学習用頻度計算手段、202 学習頻度記憶手段、300 分類手段、301 分類用頻度計算手段、302 分類確率算出手段、303 カテゴリ判定手段、400 照合条件記憶手段、4001 組み込み照合条件、4002 ユーザ定義照合条件、501 学習用文書、502 分類対象文書、600 ルール。

Claims (15)

  1. 文字列とキーワードとの照合条件と前記照合条件を識別する特徴トークンとを対応付けて記憶する照合条件記憶手段と、
    前記照合条件記憶手段に記憶された前記照合条件と前記特徴トークンとに基づいて、カテゴリ別に予め分類された学習用文書の文字列と前記キーワードとを照合して、合致した前記照合条件に対応する第1の特徴トークンを前記カテゴリと対応付けて抽出し、また、前記照合条件記憶手段に記憶された前記照合条件と前記特徴トークンとに基づいて、前記カテゴリ別に分類される分類対象文書の文字列と前記キーワードとを照合して、合致した前記照合条件に対応する第2の特徴トークンを抽出する特徴トークン抽出手段と、
    前記第1の特徴トークンが抽出されなかった前記学習用文書の文字列を文字単位に分割した第1の非特徴トークンを前記カテゴリと対応付けて抽出し、また、前記第2の特徴トークンが抽出されなかった前記分類対象文書の文字列を文字単位に分割した第2の非特徴トークンを抽出する非特徴トークン抽出手段と、
    前記第1の特徴トークンと前記第1の非特徴トークンとにより構成された第1のトークン列の出現頻度を学習頻度として前記カテゴリに対応付けて算出する学習手段と、
    前記第2の特徴トークンと前記第2の非特徴トークンとにより構成された第2のトークン列の出現頻度と、前記学習手段により算出された前記学習頻度との類似度を示す分類確率を前記カテゴリ別に算出し、前記分類確率が所定の閾値を越える前記カテゴリに前記分類対象文書を分類する分類手段と、
    を備えた情報検索システム。
  2. 前記学習手段は、前記第1のトークン列中の連続するn(nは自然数)個のトークンにより構成された第1のトークン連鎖に前記第1の特徴トークンが含まれる場合のみ、この第1のトークン連鎖の出現頻度を前記学習頻度として算出し、
    前記分類手段は、前記第2のトークン列中の連続するn(nは自然数)個のトークンにより構成された第2のトークン連鎖に前記第2の特徴トークンが含まれる場合のみ、この第2のトークン連鎖の出現頻度と、前記学習手段により算出された前記学習頻度との類似度を示す前記分類確率を前記カテゴリ別に算出する請求項1に記載の情報検索システム。
  3. 前記照合条件記憶手段は、前記照合条件に優先度が設定された優先度設定照合条件を記憶し、
    前記特徴トークン抽出手段は、前記優先度設定照合条件と前記特徴トークンとに基づいて、前記第1または第2の特徴トークンを抽出する請求項1または2に記載の情報検索システム。
  4. 前記照合条件記憶手段は、前記照合条件が予め定義済みである組み込み照合条件と、ユーザが定義するユーザ定義照合条件とを記憶し、
    前記特徴トークン抽出手段は、前記組み込み照合条件と前記ユーザ定義照合条件と前記特徴トークンとに基づいて、前記第1または第2の特徴トークンを抽出する請求項1乃至3のいずれかに記載の情報検索システム。
  5. 前記照合条件記憶手段は、前記照合条件が正規表現で定義された正規表現照合条件を記憶し、
    前記特徴トークン抽出手段は、前記正規表現照合条件と前記特徴トークンとに基づいて、前記第1または第2の特徴トークンを抽出する請求項1乃至4のいずれかに記載の情報検索システム。
  6. 前記照合条件記憶手段は、前記照合条件に、前記キーワードの分類を示す用語クラス毎に複数の前記キーワードが定義された用語クラス照合条件を記憶し、
    前記特徴トークン抽出手段は、前記用語クラス照合条件と前記特徴トークンとに基づいて、前記第1または第2の特徴トークンを抽出する請求項1乃至4のいずれかに記載の情報検索システム。
  7. 前記照合条件記憶手段は、前記正規表現照合条件に自らの識別番号である照合条件IDが付与されたID付与照合条件を記憶し、
    前記特徴トークン抽出手段は、前記ID付与照合条件を基に文書中の文字列と前記キーワードとを照合し、合致した前記ID付与照合条件の前記照合条件IDと、合致した前記文字列の終了位置を示すヒット位置とを出力する照合手段と、
    前記照合手段が出力する前記照合条件IDと前記ヒット位置とに基づいて、前記照合条件が合致した前記文字列を前記ID付与照合条件に対応する前記第1または第2の特徴トークンに置換する置換手段とを備えた請求項5に記載の情報検索システム。
  8. 前記照合手段は、決定性有限オートマトンによる文字列照合を行なう請求項7に記載の情報検索システム。
  9. 前記照合手段は、非決定性有限オートマトンによる文字列照合を行なう請求項7に記載の情報検索システム。
  10. 前記照合条件記憶手段は、前記照合条件ID中に前記用語クラスの識別番号を保持する用語クラスフィールドと、前記ID付与照合条件の前記キーワードの文字数を保持する文字数フィールドとを含むフィールド情報付与照合条件を記憶し、
    前記置換手段は、前記フィールド情報付与照合条件の前記照合条件IDの前記文字数フィールドに保持された文字数分の文字列を前記ヒット位置の前から取り除き、前記照合条件IDに対応する前記第1または第2の特徴トークンを挿入する請求項7乃至9のいずれかに記載の情報検索システム。
  11. 前記フィールド情報付与照合条件は、複数の固定長キーワードを含み、
    このフィールド情報付与照合条件を前記固定長キーワード別に分割し、分割された前記フィールド情報付与照合条件の中で前記固定長キーワードの文字数が一致する前記フィールド情報付与照合条件をまとめて新たなフィールド情報付与照合条件を合成する照合条件合成手段を備えた請求項10に記載の情報検索システム。
  12. 前記照合条件記憶手段は、前記キーワードが可変長である場合に、この可変長キーワードに対応する前記文字数フィールドに可変長であることを示す可変長情報が設定された可変長情報設定照合条件を記憶し、
    前記置換手段は、前記可変長情報設定照合条件の前記文字数フィールドに前記可変長情報が設定されている場合に、前記可変長キーワードが合致した文字列を前記ヒット位置の前から取り除かずに前記ヒット位置の直後に前記第1または第2の特徴トークンを挿入する請求項10に記載の情報検索システム。
  13. 複数の前記照合条件IDの順序関係を定義する照合条件シーケンスと自らの識別子であるルールIDとを対応付けて記憶するルールと、
    前記照合手段により出力される前記照合条件IDと前記ヒット位置とを解析して、前記ルールに記憶された前記照合条件シーケンスに一致する順序関係で出現する前記照合条件IDの連鎖を検出し、この照合条件IDの連鎖における前記ヒット位置間の距離と、前記照合条件シーケンスが一致した前記ルールの前記ルールIDとを組み合わせた識別子である特徴間距離トークンを生成する特徴間距離トークン生成手段を備え、
    前記学習手段は、前記特徴間距離トークンの出現頻度に基づいて前記カテゴリ別の出現頻度である前記学習頻度を学習し、
    前記分類手段は、前記特徴間距離トークンの出現頻度に基づいて前記カテゴリへの分類確率を算出し、この分類確率が所定の閾値を越える前記カテゴリに前記分類対象文書を分類する請求項7乃至9のいずれかに記載の情報検索システム。
  14. 前記特徴間距離トークン生成手段により生成された前記特徴間距離トークンと、前記特徴トークン抽出手段により抽出された前記特徴トークンと、前記非特徴トークン抽出手段により抽出された前記非特徴トークンとを選択的に出力するための動作モード条件が設定され、この動作モード条件が前記特徴トークンと前記非特徴トークンとの出力を抑止する設定である場合に、前記特徴間距離トークンのみを出力するように制御するトークン出力制御手段を備えた請求項13に記載の情報検索システム。
  15. 前記分類手段は、前記特徴トークンと前記非特徴トークンとに基づいて算出された前記カテゴリへの第1の分類確率と、前記特徴間距離トークンに基づいて算出された前記カテゴリへの第2の分類確率とを重み付けして合算した第3の分類確率を用いて、前記カテゴリに前記分類対象文書を分類する請求項13に記載の情報検索システム。
JP2007270253A 2007-10-17 2007-10-17 情報検索システム Expired - Fee Related JP5056337B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007270253A JP5056337B2 (ja) 2007-10-17 2007-10-17 情報検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007270253A JP5056337B2 (ja) 2007-10-17 2007-10-17 情報検索システム

Publications (2)

Publication Number Publication Date
JP2009098952A true JP2009098952A (ja) 2009-05-07
JP5056337B2 JP5056337B2 (ja) 2012-10-24

Family

ID=40701891

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007270253A Expired - Fee Related JP5056337B2 (ja) 2007-10-17 2007-10-17 情報検索システム

Country Status (1)

Country Link
JP (1) JP5056337B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011221894A (ja) * 2010-04-13 2011-11-04 Hitachi Ltd セキュア文書検出方法、セキュア文書検出プログラム、及び光学式文字読取装置
JP2012150751A (ja) * 2011-01-21 2012-08-09 Bank Of Tokyo-Mitsubishi Ufj Ltd 検索装置
JP2017091420A (ja) * 2015-11-16 2017-05-25 富士ゼロックス株式会社 情報処理装置、画像処理システム及びプログラム
JP2018180866A (ja) * 2017-04-11 2018-11-15 富士通株式会社 判別方法、判別プログラム及び判別装置
KR20200132344A (ko) * 2019-05-17 2020-11-25 주식회사 엔씨소프트 입력 시퀀스 생성 방법 및 장치
JP7363577B2 (ja) 2020-02-28 2023-10-18 株式会社村田製作所 文書分類装置、学習方法および、学習プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1145247A (ja) * 1997-07-27 1999-02-16 Just Syst Corp 文書分類装置、文書分類プログラムが記憶された記憶媒体、及び文書分類方法
JP2002297660A (ja) * 2001-01-24 2002-10-11 Sumitomo Electric Ind Ltd 文字列類似度算出方法、装置、プログラム及び記録媒体
JP2002304400A (ja) * 2001-04-03 2002-10-18 Ricoh Co Ltd 文書分類装置
JP2004334334A (ja) * 2003-04-30 2004-11-25 Canon Inc 文書検索装置、文書検索方法及び記憶媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1145247A (ja) * 1997-07-27 1999-02-16 Just Syst Corp 文書分類装置、文書分類プログラムが記憶された記憶媒体、及び文書分類方法
JP2002297660A (ja) * 2001-01-24 2002-10-11 Sumitomo Electric Ind Ltd 文字列類似度算出方法、装置、プログラム及び記録媒体
JP2002304400A (ja) * 2001-04-03 2002-10-18 Ricoh Co Ltd 文書分類装置
JP2004334334A (ja) * 2003-04-30 2004-11-25 Canon Inc 文書検索装置、文書検索方法及び記憶媒体

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011221894A (ja) * 2010-04-13 2011-11-04 Hitachi Ltd セキュア文書検出方法、セキュア文書検出プログラム、及び光学式文字読取装置
JP2012150751A (ja) * 2011-01-21 2012-08-09 Bank Of Tokyo-Mitsubishi Ufj Ltd 検索装置
JP2017091420A (ja) * 2015-11-16 2017-05-25 富士ゼロックス株式会社 情報処理装置、画像処理システム及びプログラム
JP2018180866A (ja) * 2017-04-11 2018-11-15 富士通株式会社 判別方法、判別プログラム及び判別装置
KR20200132344A (ko) * 2019-05-17 2020-11-25 주식회사 엔씨소프트 입력 시퀀스 생성 방법 및 장치
KR102284903B1 (ko) * 2019-05-17 2021-08-03 주식회사 엔씨소프트 입력 시퀀스 생성 방법 및 장치
JP7363577B2 (ja) 2020-02-28 2023-10-18 株式会社村田製作所 文書分類装置、学習方法および、学習プログラム

Also Published As

Publication number Publication date
JP5056337B2 (ja) 2012-10-24

Similar Documents

Publication Publication Date Title
Carvalho et al. Learning to extract signature and reply lines from email
JP5751253B2 (ja) 情報抽出システム、方法及びプログラム
CN103678684B (zh) 一种基于导航信息检索的中文分词方法
EP2506154B1 (en) Text, character encoding and language recognition
US20100254613A1 (en) System and method for duplicate text recognition
WO2012095971A1 (ja) 分類ルール生成装置、分類ルール生成方法、分類ルール生成プログラム及び記録媒体
WO2009058899A1 (en) System and method for automatically summarizing fine-grained opinions in digital text
JP2005100082A (ja) 情報抽出装置,情報抽出方法,およびプログラム
JP5056337B2 (ja) 情報検索システム
JP2006244262A (ja) 質問回答検索システム、方法およびプログラム
JP2007087397A (ja) 形態素解析プログラム、補正プログラム、形態素解析装置、補正装置、形態素解析方法および補正方法
US20070136220A1 (en) Apparatus for learning classification model and method and program thereof
Mosavi Miangah FarsiSpell: A spell-checking system for Persian using a large monolingual corpus
CN109086274B (zh) 基于约束模型的英文社交媒体短文本时间表达式识别方法
US10970489B2 (en) System for real-time expression of semantic mind map, and operation method therefor
KR101379128B1 (ko) 사전 생성 장치, 사전 생성 방법 및 사전 생성 프로그램을 기억하는 컴퓨터 판독 가능 기록 매체
CN101369285B (zh) 一种中文搜索引擎中查询词的拼写校正方法
CN110874408B (zh) 模型训练方法、文本识别方法、装置及计算设备
Hamdi et al. Machine learning vs deterministic rule-based system for document stream segmentation
CN104641367B (zh) 用于格式化电子字符序列的格式化模块、系统和方法
JP5339628B2 (ja) 未知語を含む文章を分類するための文章分類プログラム、方法及び文章解析サーバ
JP5448744B2 (ja) 未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ
Hertel Neural language models for spelling correction
JP2007058415A (ja) テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム
JP2009176148A (ja) 未知語判定システム、方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100927

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120703

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120716

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150810

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150810

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees