JP2009098952A - 情報検索システム - Google Patents
情報検索システム Download PDFInfo
- Publication number
- JP2009098952A JP2009098952A JP2007270253A JP2007270253A JP2009098952A JP 2009098952 A JP2009098952 A JP 2009098952A JP 2007270253 A JP2007270253 A JP 2007270253A JP 2007270253 A JP2007270253 A JP 2007270253A JP 2009098952 A JP2009098952 A JP 2009098952A
- Authority
- JP
- Japan
- Prior art keywords
- token
- feature
- collation
- condition
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】 文字列とキーワードとの照合条件が特徴トークンに対応付けられ、文書中の文字列から特徴トークンを抽出する特徴トークン抽出手段と、特徴トークンが抽出されなかった文字列を文字単位に分割した非特徴トークンを抽出する非特徴トークン抽出手段と、学習用文書中の第1の特徴トークンと第1の非特徴トークンとにより構成された第1のトークン列の出現頻度を学習頻度としてカテゴリに対応付けて算出する学習手段と、分類対象文書中の第2の特徴トークンと第2の非特徴トークンとにより構成された第2のトークン列の出現頻度と、前記学習頻度との類似度を示す分類確率をカテゴリ別に算出して分類対象文書を分類する分類手段とを備える。
【選択図】 図1
Description
図1は、実施の形態1における情報検索システムの一例を示す構成図である。
この情報検索システムは、前処理手段100と、学習手段200と、分類手段300と、前処理手段100に入力される照合条件を記憶する照合条件記憶手段400とから構成される。
図2は、実施の形態1における情報検索システムの動作を示すフローチャートである。
ステップS11において、予めカテゴリ分けされた学習用文書501が、前処理手段100に入力される。次に、ステップS12において、前処理手段100により、学習用文書501からトークン列が抽出される。次に、ステップS13において、学習用頻度計算手段201により、抽出されたトークン列を解析して、連続するN個のトークンから成るシーケンスの出現頻度を計算する。ここで、連続するトークンの数は、1つ以上、かつ、N個以下であっても良い。次に、ステップS14において、学習頻度記憶手段202により、学習されたトークンの頻度が、カテゴリごとに学習頻度として記憶される。さらに、ステップS15において、学習手段200により、学習用文書501の全文書の学習が完了したか否かを判定する。判定の結果、学習用文書501に複数の文書が含まれる場合には、NOの分岐へ進み、ステップS11以下の動作を繰り返す。一方、判定の結果、全文書が完了した場合には、Yesの分岐へ進み、学習段階の動作を終了する。
図3は、実施の形態1において、分類段階の動作を示すフローチャートである。
ステップS21において、分類対象文書502が前処理手段100に入力される。次に、ステップS22において、前処理手段100により、分類対象文書502からトークン列が抽出される。次に、ステップS23において、分類用頻度計算手段301により、抽出されたトークン列を解析して、連続するN個のトークンから成るシーケンスの出現頻度を計算する。ここで、連続するトークンの数は、1つ以上、かつ、N個以下であっても良い。次に、ステップS24において、分類確率算出手段302により、学習結果に基づき、分類対象文書502が、各カテゴリに分類される確率を計算する。次に、ステップS25において、カテゴリ判定手段303により、分類対象文書502が、いずれのカテゴリに分類されるかを、ステップS24で算出された確率に基づいて判定する。最後に、ステップS26において、分類手段303は、ステップS25で判定された分類先のカテゴリを分類結果として出力する(S26)。
図4は、実施の形態1において、前処理手段100の動作を示すフローチャートである。
ステップS31において、予めカテゴリ分けされた学習用文書501、あるいは、分類対象文書502が入力文書として前処理手段100に入力される。次に、ステップS32において、テキスト抽出手段101により、入力文書から、自然言語で表現された記述であるテキストが抽出される(S32)。
照合条件には、各用語クラスに対して正規表現キーワードと照合条件IDを組にしたものを用意し、それを複数組備えることができる。図5に示したように、例えば、人名(姓)や県名などの用語クラスについては、それに属する用語(固有名詞)を羅列する正規表現キーワードを作成することができる。また、メールアドレスや電話番号などの用語クラスについては、それらに固有の表現パターンに基づく正規表現キーワードを作成することができる。
図6は、実施の形態1において、図5の照合条件を用いて前処理手段100により生成されたトークン列の例を示す図である。
トークン化された文字列は、1行あたり1トークンの表示形式で示されており、「鈴木」がTOKEN_1、「東京都」がTOKEN_10、「東日本橋」の「東」がTOKEN_1、「(03)1111−2222」がTOKEN_12として特徴トークン化されている。また、それ以外の文字については、この例では日本語であるため、1文字が1トークンとして非特徴トークン化されている。図6の例の場合、「東日本橋」の「東」がTOKEN_1として特徴トークン化されている点が誤検出となっている。このような誤検出に対応するためには、例えば、新たな用語クラス「地名」を定義して、用語として「東日本橋」を含むようにすることもできるが、全ての誤検出が回避できるわけではない。
以上の実施の形態1では、特徴トークンの抽出を文字列の置換機能により実現するようにしたものであるが、次に、特徴トークンの抽出を正規表現の照合機能により実現する実施の形態を示す。
本実施の形態2では、照合条件記憶手段400に記憶された照合条件から状態遷移表105を生成する状態遷移表生成手段104を備え、特徴トークン抽出手段102は、状態遷移表105を参照して入力文字列1020との照合を行なう照合手段1021と、照合結果から文字列の置き換えを行なう置換手段1022とにより構成される。
照合条件には、人名や地名、会社名などのような固有名詞を用語とする用語クラスと、メールアドレスのように可変長の用語に対して合致する正規表現キーワードを持つ用語クラスとがある。固有名詞の羅列となるような照合条件に対しては、照合条件記憶手段400において、用語の長さごとに照合条件を分けて、照合条件IDごとに一意に長さが決まるようにできる。したがって、照合手段により合致した照合条件IDから、対応する長さの文字列を、対応する特徴トークンに置き換えることができる。可変長の用語を持つ用語クラスに対しては、置き換えを行なわずに、終了位置(ヒット位置)に続けて特徴トークンを挿入するように構成できる。
照合条件IDを、用語クラスを識別する用語クラスフィールドと、文字数を識別する文字数フィールドとから成るように構成する。図8において、ID=101、102、103は用語クラスフィールドが1で文字数がそれぞれ1,2,3であることを示す。置換手段1022においては、用語クラスフィールドを用いて特徴トークンの生成(この場合は、TOKEN_1)を行ない、文字数フィールドに示される文字を入力文字列から取り除いて、特徴トークンを挿入する。ID=1100については、用語クラスフィールドが11、文字数フィールドが0となる。文字数フィールド0は可変長であることを示し、この場合、置換手段1022は、入力文字列からの合致文字列の削除を行なわずに、特徴トークン(この場合は、TOKEN_11)の挿入を行なう。図8の例では、IDの1の位と10の位を文字数フィールド、それ以上の位を用語クラスフィールドとしたが、フィールドの割り当てについてはこれに限るものではない。
図9は、実施の形態2において、照合条件を自動構成する構成の例を示す図である。
図9の例では、照合条件合成手段106が追加されている。照合条件合成手段106は、文字数ごとに分かれていない図5のような照合条件を入力として、正規表現キーワードを解析し、文字数ごとに分けた照合条件を生成する。正規表現キーワードが人名のように固定長文字の羅列である場合には文字数ごとに分けた正規表現キーワードを生成し、それぞれの正規表現キーワードの文字数と元の照合条件IDから、新しい照合条件ID(用語クラスフィールドと文字数フィールドをもつもの)を生成する。正規表現キーワードが可変長である場合には、照合条件IDの文字数フィールドに0を入れる。
以上の実施の形態2は、照合条件に合致した文字列の入力テキスト中の位置のみを出力する照合手段1021を用いた場合でも特徴トークンへの置換が行なえるようにするものであるが、次に、特徴的な用語同士の位置関係をトークン化する場合の実施の形態を示す。
図10では、前処理手段100において、特徴間距離トークン生成手段107が追加され、さらにルール600が追加される構成になっている。
一つのルールは、ルールIDと照合条件シーケンスとの組から構成される。図11のID=1は、照合条件IDが1、11の順で現れるもの、すなわち、人名→メールアドレスの順に現れるものを検出するためのルールである。これを検出した場合、特徴間距離トークンとしてルールID=1であることが識別可能であり、このIDと、検出したものの距離とを含むような特徴間距離トークンを、特徴間距離トークン生成手段105にて生成する。例えば、距離が20であった場合には、RULE_1_20というトークンを生成する。
(DUMMY、DUMMY、RULE_X_X)
(DUMMY、RULE_X_X、DUMMY)
(RULE_X_X、DUMMY、DUMMY)
となる。このようにして、特徴間距離トークンに関して隣り合う特徴間距離トークンとの関連性を学習することを回避できる。
以上の実施の形態3は、特徴的な用語同士の位置関係を特徴間距離トークン化してトークン列に追加し、学習・分類に使用するものであるが、次に、特徴間距離トークンのみによる学習を行なって、学習処理を高速化する場合の実施の形態を示す。
図12では、前処理手段100にトークン出力制御手段106が追加された構成となっている。トークン出力制御手段108は、2つの動作モード(モード1、モード2)を備えている。モード1が設定されると、実施の形態3と同様に、特徴トークンと非特徴トークンとからなるトークン列の最後に、特徴間距離トークンと、必要に応じてダミートークンとを出力する。また、モード2が設定されると、特徴トークンと非特徴トークンの出力を抑止して、特徴間距離トークンのみを出力する。
実施の形態3は、トークンをすべて平等に扱うものであったが、次に、トークンの重み付けを設定可能とする場合の実施の形態を示す。
図13において、種別は、特徴トークン(TOKEN)であるか、特徴間距離トークン(RULE)であるかを示す。分類手段300は、この重み付け設定情報を持ち、特徴トークンと非特徴トークンとから算出された入力文書の各カテゴリへの分類確率と、特徴間距離トークンから算出された分類確率とを、この重みに応じて配分して最終的な分類確率を計算し、カテゴリ判定を行なう。
Pc=Pct・Wt+Pcr・Wr (但し、Wt+Wr=1とする)
Claims (15)
- 文字列とキーワードとの照合条件と前記照合条件を識別する特徴トークンとを対応付けて記憶する照合条件記憶手段と、
前記照合条件記憶手段に記憶された前記照合条件と前記特徴トークンとに基づいて、カテゴリ別に予め分類された学習用文書の文字列と前記キーワードとを照合して、合致した前記照合条件に対応する第1の特徴トークンを前記カテゴリと対応付けて抽出し、また、前記照合条件記憶手段に記憶された前記照合条件と前記特徴トークンとに基づいて、前記カテゴリ別に分類される分類対象文書の文字列と前記キーワードとを照合して、合致した前記照合条件に対応する第2の特徴トークンを抽出する特徴トークン抽出手段と、
前記第1の特徴トークンが抽出されなかった前記学習用文書の文字列を文字単位に分割した第1の非特徴トークンを前記カテゴリと対応付けて抽出し、また、前記第2の特徴トークンが抽出されなかった前記分類対象文書の文字列を文字単位に分割した第2の非特徴トークンを抽出する非特徴トークン抽出手段と、
前記第1の特徴トークンと前記第1の非特徴トークンとにより構成された第1のトークン列の出現頻度を学習頻度として前記カテゴリに対応付けて算出する学習手段と、
前記第2の特徴トークンと前記第2の非特徴トークンとにより構成された第2のトークン列の出現頻度と、前記学習手段により算出された前記学習頻度との類似度を示す分類確率を前記カテゴリ別に算出し、前記分類確率が所定の閾値を越える前記カテゴリに前記分類対象文書を分類する分類手段と、
を備えた情報検索システム。 - 前記学習手段は、前記第1のトークン列中の連続するn(nは自然数)個のトークンにより構成された第1のトークン連鎖に前記第1の特徴トークンが含まれる場合のみ、この第1のトークン連鎖の出現頻度を前記学習頻度として算出し、
前記分類手段は、前記第2のトークン列中の連続するn(nは自然数)個のトークンにより構成された第2のトークン連鎖に前記第2の特徴トークンが含まれる場合のみ、この第2のトークン連鎖の出現頻度と、前記学習手段により算出された前記学習頻度との類似度を示す前記分類確率を前記カテゴリ別に算出する請求項1に記載の情報検索システム。 - 前記照合条件記憶手段は、前記照合条件に優先度が設定された優先度設定照合条件を記憶し、
前記特徴トークン抽出手段は、前記優先度設定照合条件と前記特徴トークンとに基づいて、前記第1または第2の特徴トークンを抽出する請求項1または2に記載の情報検索システム。 - 前記照合条件記憶手段は、前記照合条件が予め定義済みである組み込み照合条件と、ユーザが定義するユーザ定義照合条件とを記憶し、
前記特徴トークン抽出手段は、前記組み込み照合条件と前記ユーザ定義照合条件と前記特徴トークンとに基づいて、前記第1または第2の特徴トークンを抽出する請求項1乃至3のいずれかに記載の情報検索システム。 - 前記照合条件記憶手段は、前記照合条件が正規表現で定義された正規表現照合条件を記憶し、
前記特徴トークン抽出手段は、前記正規表現照合条件と前記特徴トークンとに基づいて、前記第1または第2の特徴トークンを抽出する請求項1乃至4のいずれかに記載の情報検索システム。 - 前記照合条件記憶手段は、前記照合条件に、前記キーワードの分類を示す用語クラス毎に複数の前記キーワードが定義された用語クラス照合条件を記憶し、
前記特徴トークン抽出手段は、前記用語クラス照合条件と前記特徴トークンとに基づいて、前記第1または第2の特徴トークンを抽出する請求項1乃至4のいずれかに記載の情報検索システム。 - 前記照合条件記憶手段は、前記正規表現照合条件に自らの識別番号である照合条件IDが付与されたID付与照合条件を記憶し、
前記特徴トークン抽出手段は、前記ID付与照合条件を基に文書中の文字列と前記キーワードとを照合し、合致した前記ID付与照合条件の前記照合条件IDと、合致した前記文字列の終了位置を示すヒット位置とを出力する照合手段と、
前記照合手段が出力する前記照合条件IDと前記ヒット位置とに基づいて、前記照合条件が合致した前記文字列を前記ID付与照合条件に対応する前記第1または第2の特徴トークンに置換する置換手段とを備えた請求項5に記載の情報検索システム。 - 前記照合手段は、決定性有限オートマトンによる文字列照合を行なう請求項7に記載の情報検索システム。
- 前記照合手段は、非決定性有限オートマトンによる文字列照合を行なう請求項7に記載の情報検索システム。
- 前記照合条件記憶手段は、前記照合条件ID中に前記用語クラスの識別番号を保持する用語クラスフィールドと、前記ID付与照合条件の前記キーワードの文字数を保持する文字数フィールドとを含むフィールド情報付与照合条件を記憶し、
前記置換手段は、前記フィールド情報付与照合条件の前記照合条件IDの前記文字数フィールドに保持された文字数分の文字列を前記ヒット位置の前から取り除き、前記照合条件IDに対応する前記第1または第2の特徴トークンを挿入する請求項7乃至9のいずれかに記載の情報検索システム。 - 前記フィールド情報付与照合条件は、複数の固定長キーワードを含み、
このフィールド情報付与照合条件を前記固定長キーワード別に分割し、分割された前記フィールド情報付与照合条件の中で前記固定長キーワードの文字数が一致する前記フィールド情報付与照合条件をまとめて新たなフィールド情報付与照合条件を合成する照合条件合成手段を備えた請求項10に記載の情報検索システム。 - 前記照合条件記憶手段は、前記キーワードが可変長である場合に、この可変長キーワードに対応する前記文字数フィールドに可変長であることを示す可変長情報が設定された可変長情報設定照合条件を記憶し、
前記置換手段は、前記可変長情報設定照合条件の前記文字数フィールドに前記可変長情報が設定されている場合に、前記可変長キーワードが合致した文字列を前記ヒット位置の前から取り除かずに前記ヒット位置の直後に前記第1または第2の特徴トークンを挿入する請求項10に記載の情報検索システム。 - 複数の前記照合条件IDの順序関係を定義する照合条件シーケンスと自らの識別子であるルールIDとを対応付けて記憶するルールと、
前記照合手段により出力される前記照合条件IDと前記ヒット位置とを解析して、前記ルールに記憶された前記照合条件シーケンスに一致する順序関係で出現する前記照合条件IDの連鎖を検出し、この照合条件IDの連鎖における前記ヒット位置間の距離と、前記照合条件シーケンスが一致した前記ルールの前記ルールIDとを組み合わせた識別子である特徴間距離トークンを生成する特徴間距離トークン生成手段を備え、
前記学習手段は、前記特徴間距離トークンの出現頻度に基づいて前記カテゴリ別の出現頻度である前記学習頻度を学習し、
前記分類手段は、前記特徴間距離トークンの出現頻度に基づいて前記カテゴリへの分類確率を算出し、この分類確率が所定の閾値を越える前記カテゴリに前記分類対象文書を分類する請求項7乃至9のいずれかに記載の情報検索システム。 - 前記特徴間距離トークン生成手段により生成された前記特徴間距離トークンと、前記特徴トークン抽出手段により抽出された前記特徴トークンと、前記非特徴トークン抽出手段により抽出された前記非特徴トークンとを選択的に出力するための動作モード条件が設定され、この動作モード条件が前記特徴トークンと前記非特徴トークンとの出力を抑止する設定である場合に、前記特徴間距離トークンのみを出力するように制御するトークン出力制御手段を備えた請求項13に記載の情報検索システム。
- 前記分類手段は、前記特徴トークンと前記非特徴トークンとに基づいて算出された前記カテゴリへの第1の分類確率と、前記特徴間距離トークンに基づいて算出された前記カテゴリへの第2の分類確率とを重み付けして合算した第3の分類確率を用いて、前記カテゴリに前記分類対象文書を分類する請求項13に記載の情報検索システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007270253A JP5056337B2 (ja) | 2007-10-17 | 2007-10-17 | 情報検索システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007270253A JP5056337B2 (ja) | 2007-10-17 | 2007-10-17 | 情報検索システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009098952A true JP2009098952A (ja) | 2009-05-07 |
JP5056337B2 JP5056337B2 (ja) | 2012-10-24 |
Family
ID=40701891
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007270253A Expired - Fee Related JP5056337B2 (ja) | 2007-10-17 | 2007-10-17 | 情報検索システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5056337B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011221894A (ja) * | 2010-04-13 | 2011-11-04 | Hitachi Ltd | セキュア文書検出方法、セキュア文書検出プログラム、及び光学式文字読取装置 |
JP2012150751A (ja) * | 2011-01-21 | 2012-08-09 | Bank Of Tokyo-Mitsubishi Ufj Ltd | 検索装置 |
JP2017091420A (ja) * | 2015-11-16 | 2017-05-25 | 富士ゼロックス株式会社 | 情報処理装置、画像処理システム及びプログラム |
JP2018180866A (ja) * | 2017-04-11 | 2018-11-15 | 富士通株式会社 | 判別方法、判別プログラム及び判別装置 |
KR20200132344A (ko) * | 2019-05-17 | 2020-11-25 | 주식회사 엔씨소프트 | 입력 시퀀스 생성 방법 및 장치 |
JP7363577B2 (ja) | 2020-02-28 | 2023-10-18 | 株式会社村田製作所 | 文書分類装置、学習方法および、学習プログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1145247A (ja) * | 1997-07-27 | 1999-02-16 | Just Syst Corp | 文書分類装置、文書分類プログラムが記憶された記憶媒体、及び文書分類方法 |
JP2002297660A (ja) * | 2001-01-24 | 2002-10-11 | Sumitomo Electric Ind Ltd | 文字列類似度算出方法、装置、プログラム及び記録媒体 |
JP2002304400A (ja) * | 2001-04-03 | 2002-10-18 | Ricoh Co Ltd | 文書分類装置 |
JP2004334334A (ja) * | 2003-04-30 | 2004-11-25 | Canon Inc | 文書検索装置、文書検索方法及び記憶媒体 |
-
2007
- 2007-10-17 JP JP2007270253A patent/JP5056337B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1145247A (ja) * | 1997-07-27 | 1999-02-16 | Just Syst Corp | 文書分類装置、文書分類プログラムが記憶された記憶媒体、及び文書分類方法 |
JP2002297660A (ja) * | 2001-01-24 | 2002-10-11 | Sumitomo Electric Ind Ltd | 文字列類似度算出方法、装置、プログラム及び記録媒体 |
JP2002304400A (ja) * | 2001-04-03 | 2002-10-18 | Ricoh Co Ltd | 文書分類装置 |
JP2004334334A (ja) * | 2003-04-30 | 2004-11-25 | Canon Inc | 文書検索装置、文書検索方法及び記憶媒体 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011221894A (ja) * | 2010-04-13 | 2011-11-04 | Hitachi Ltd | セキュア文書検出方法、セキュア文書検出プログラム、及び光学式文字読取装置 |
JP2012150751A (ja) * | 2011-01-21 | 2012-08-09 | Bank Of Tokyo-Mitsubishi Ufj Ltd | 検索装置 |
JP2017091420A (ja) * | 2015-11-16 | 2017-05-25 | 富士ゼロックス株式会社 | 情報処理装置、画像処理システム及びプログラム |
JP2018180866A (ja) * | 2017-04-11 | 2018-11-15 | 富士通株式会社 | 判別方法、判別プログラム及び判別装置 |
KR20200132344A (ko) * | 2019-05-17 | 2020-11-25 | 주식회사 엔씨소프트 | 입력 시퀀스 생성 방법 및 장치 |
KR102284903B1 (ko) * | 2019-05-17 | 2021-08-03 | 주식회사 엔씨소프트 | 입력 시퀀스 생성 방법 및 장치 |
JP7363577B2 (ja) | 2020-02-28 | 2023-10-18 | 株式会社村田製作所 | 文書分類装置、学習方法および、学習プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5056337B2 (ja) | 2012-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Carvalho et al. | Learning to extract signature and reply lines from email | |
JP5751253B2 (ja) | 情報抽出システム、方法及びプログラム | |
CN103678684B (zh) | 一种基于导航信息检索的中文分词方法 | |
EP2506154B1 (en) | Text, character encoding and language recognition | |
US20100254613A1 (en) | System and method for duplicate text recognition | |
WO2012095971A1 (ja) | 分類ルール生成装置、分類ルール生成方法、分類ルール生成プログラム及び記録媒体 | |
WO2009058899A1 (en) | System and method for automatically summarizing fine-grained opinions in digital text | |
JP2005100082A (ja) | 情報抽出装置,情報抽出方法,およびプログラム | |
JP5056337B2 (ja) | 情報検索システム | |
JP2006244262A (ja) | 質問回答検索システム、方法およびプログラム | |
JP2007087397A (ja) | 形態素解析プログラム、補正プログラム、形態素解析装置、補正装置、形態素解析方法および補正方法 | |
US20070136220A1 (en) | Apparatus for learning classification model and method and program thereof | |
Mosavi Miangah | FarsiSpell: A spell-checking system for Persian using a large monolingual corpus | |
CN109086274B (zh) | 基于约束模型的英文社交媒体短文本时间表达式识别方法 | |
US10970489B2 (en) | System for real-time expression of semantic mind map, and operation method therefor | |
KR101379128B1 (ko) | 사전 생성 장치, 사전 생성 방법 및 사전 생성 프로그램을 기억하는 컴퓨터 판독 가능 기록 매체 | |
CN101369285B (zh) | 一种中文搜索引擎中查询词的拼写校正方法 | |
CN110874408B (zh) | 模型训练方法、文本识别方法、装置及计算设备 | |
Hamdi et al. | Machine learning vs deterministic rule-based system for document stream segmentation | |
CN104641367B (zh) | 用于格式化电子字符序列的格式化模块、系统和方法 | |
JP5339628B2 (ja) | 未知語を含む文章を分類するための文章分類プログラム、方法及び文章解析サーバ | |
JP5448744B2 (ja) | 未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ | |
Hertel | Neural language models for spelling correction | |
JP2007058415A (ja) | テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム | |
JP2009176148A (ja) | 未知語判定システム、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100927 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120703 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120716 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150810 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150810 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |