JP4701292B2 - テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム - Google Patents

テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム Download PDF

Info

Publication number
JP4701292B2
JP4701292B2 JP2009000192A JP2009000192A JP4701292B2 JP 4701292 B2 JP4701292 B2 JP 4701292B2 JP 2009000192 A JP2009000192 A JP 2009000192A JP 2009000192 A JP2009000192 A JP 2009000192A JP 4701292 B2 JP4701292 B2 JP 4701292B2
Authority
JP
Japan
Prior art keywords
token
dictionary
word
string
registered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009000192A
Other languages
English (en)
Other versions
JP2010157178A (ja
Inventor
裕己 大矢
大介 宅間
浩文 豊島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2009000192A priority Critical patent/JP4701292B2/ja
Priority to US12/651,509 priority patent/US8538745B2/en
Publication of JP2010157178A publication Critical patent/JP2010157178A/ja
Application granted granted Critical
Publication of JP4701292B2 publication Critical patent/JP4701292B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラムに関する。
固有表現又は専門用語抽出とは、計算機を用いた自然言語処理技術の一つであり、テキスト・データから特定の単語カテゴリ(例えば、人名、会社名、病名、電話番号、化合物名)に属する表現又は特定の専門分野に属する用語を抽出する処理をいう。固有表現又は専門用語抽出は、テキストマイニング、機密情報マスキングなどの多岐の技術に渡って利用されている。固有表現又は専門用語抽出に際して、最も単純な方法は、語彙カテゴリ又は専門用語カテゴリに属する表現を列挙したものを固有表現又は専門用語の抽出機の設定データとして持つことである。該設定データは、一般に「辞書」と呼ばれている。新聞記事など現実世界に存在するテキストには大量の固有表現又は専門用語が含まれている。形態素解析などを行う場合において、それらの固有表現又は専門用語が辞書に登録されていない場合、該固有表現又は専門用語は、未知語として扱われる。未知語とは、形態素解析で品詞が割り当てられなかった語である。その結果、解析の誤りが生じる。そのために、様々な固有表現又は専門用語の用語辞書を作成する必要がある。しかし、現実のテキストには大量の固有表現又は専門用語が存在し、人手を用いてそれらの用語辞書を作成することは困難である。
固有表現又は専門用語の獲得に機械学習アルゴリズムを利用する研究が数多く報告されている。典型的な例は、形態素解析結果又は構文解析結果を入力して、分類対象の単語及び該単語に隣接する単語のみで判定可能な特徴と、該固有表現に分類されることの関連性(条件付き確率)を学習する(下記非特許文献1を参照)。分類対象の単語及び該単語に隣接する単語のみで判定可能な特徴とは、例えば、対象の単語がカタカナの名詞であること、及び続く単語が「株式会社」であることである。このような機械学習アルゴリズムは、低コストで良い精度が得られやすい。しかし、機械学習アルゴリズムでは、確実な分類を保障することはできないため、抽出漏れがあってはいけないケースでは使用できない。
また、正規表現のパターン合致によって、分類対象の単語を自動判定する方法が広く用いられている。しかし、パターン合致では表層の区別はできても、意味判別はできない。よって、意味判別を可能にするために、人手での再確認が必要になる。しかし、人手で再確認をする場合、表層情報のみで単語を切り出した結果を用いるのは得策ではない。
また、その他の方法として、形態素解析結果のトークン列に対してパターン合致を行う手法がある(下記特許文献1を参照)。しかし、パターン合致による手法において、トークン列に合致させるパターンは、事実上抽出対象の周辺情報に頼ることになり、機械学習と同様に確率的な結果しか得られない。
さらに、その他の方法として、仮名、漢字、英数字の混じった日本語の形態素解析結果から、未知語と該未知語の連接語の組み合わせについて品詞を特定し、語彙の自動獲得を行う手法がある(下記特許文献2を参照)。未知語とは、形態素解析で品詞が割り当てられなかった語である。
さらに、その他の方法として、未知語の前後の単語を新規登録語に含めるかどうかを人手で編集する過程を含む手法がある(下記特許文献3を参照)。
特開2007−11892号公報 特開2004−265440号公報 特開2004−341791号公報
Burr Settles、Biomedical Named Entity Recognition Using Conditional Random Fields and Rich Feature Sets、Proc. NLPBA/COLING 2004
テキスト・マイニング・エンジン、例えばIBM Content Analyzer(IBM OmniFind(商標) Analytics Editionから名称変更)を用いて、漏れが許されない査定業務、例えば保険金支払い査定業務に必要な病名を効率的に抽出し、辞書に登録しようとする試みがある。本発明の目的は、漏れが許されない査定業務などにおける固有表現又は専門用語の抽出において、抽出漏れの影響の大きい固有表現又は専門用語の抽出のために利用される用語辞書を作成するシステム、方法及びコンピュータ・プログラムを提供することである。さらに、本発明の目的は、用語辞書を作成するための単語カテゴリの用語辞書を構築する場合に、新規追加されたテキスト・データから、登録候補語を漏れなく見つけ、且つ作業を効率的に行うシステム、方法及びコンピュータ・プログラムを提供することである。
本発明は、テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システムを提供する。該コンピュータ・システムは、
上記テキスト・データの形態素解析を行い、トークン列データを取得する形態素解析部と、
上記トークン列データの各トークンをカテゴリ辞書を用いて判別し、未カテゴリ語を抽出するカテゴリ判別部と、
抽出した未カテゴリ語を未カテゴリ語照合ルールと照合し、該未カテゴリ語照合ルールに合致する未カテゴリ語を登録候補語として抽出する未カテゴリ語照合部であって、上記未カテゴリ語照合ルールは、上記合致する未カテゴリ語を抽出するための第1の文字列及び第1の正規表現からなるトークンを含む、上記未カテゴリ照合部と、
上記トークン列データのトークン列をトークン列照合ルールと照合し、該トークン列照合ルールに合致するトークン列を登録候補語として抽出するトークン列照合部であって、上記トークン列照合ルールが、上記合致するトークン列を抽出するための第2の文字列と第2の正規表現とを含むトークン列を含む、上記トークン列照合部と、
上記カテゴリ辞書に上記登録候補語を登録するかどうかの選択をユーザに許す許可部と
を含む。
上記ユーザによって選択された登録候補語が用語辞書に登録される。代替的には、上記カテゴリ辞書のうちの、上記ユーザによって選択された登録候補語が用語辞書に登録される。
本発明の1つの実施形態では、上記コンピュータ・システムは、
上記登録候補語の確信度を計算する確信度計算部であって、該確信度は、上記登録候補語が上記カテゴリ辞書に登録される又は上記トークン列照合ルールに追加される可能性を示す、上記確信度計算部
をさらに含む。
本発明の1つの実施形態では、上記確信度計算部が、外部辞書の情報を使用して上記確信度を計算する。
本発明の1つの実施形態では、上記確信度計算部が、文字数又は文字種の情報を使用して上記確信度を計算する。
本発明の1つの実施形態では、上記確信度計算部が、上記第1又は第2の正規表現に合致するトークン中の文字列が専門用語辞書の語彙として存在する場合に、該文字列が一般用語辞書の語彙として存在する場合よりも高いスコアを与える。
本発明の1つの実施形態では、上記許可部が、上記登録候補語及び該登録候補語に対応する確信度を表示装置上に表示することをさらに含む。
本発明の1つの実施形態では、上記許可部が、上記登録候補語を上記確信度に従いソートして表示装置上に表示することをさらに含む。
本発明の1つの実施形態では、上記コンピュータ・システムは、上記登録候補語として抽出された未カテゴリ語であって、上記ユーザによって選択された未カテゴリ語を上記カテゴリ辞書に登録する登録部
をさらに含む。
本発明の1つの実施形態では、上記登録部が、上記登録候補語として抽出されたトークン列であって、上記ユーザによって選択されなかったトークン列をトークン列リストに追加する。
本発明の1つの実施形態では、上記カテゴリ判別部が、上記トークン列データからのトークンが上記カテゴリ辞書に登録されている場合に、該トークンを抽出しない。
本発明の1つの実施形態では、上記形態素解析部が、上記トークン列データの各トークンに対応する品詞情報をさらに取得し、
上記カテゴリ判別部が、上記トークン列データからのトークン及び該トークンに対応する品詞情報が上記カテゴリ辞書に登録されているトークン及び該トークンに対応する品詞情報に合致する場合に、上記トークン列データからの上記トークンを抽出しない。
本発明の1つの実施形態では、上記トークン列照合部が、上記トークン列データからのトークン列が上記トークン列リストに登録されている場合に、該トークン列を抽出しない。
本発明の1つの実施形態では、上記形態素解析部が、上記トークン列データの各トークンに対応する品詞情報をさらに取得し、
上記トークン列照合部が、上記トークン列データからのトークン列及び該トークン列の各トークンに対応する品詞情報が上記トークン列リストに登録されているトークン列及び該トークン列の各トークンに対応する品詞情報に合致する場合に、上記トークン列データからの上記トークン列を抽出しない。
本発明の1つの実施形態では、上記形態素解析部が、上記トークン列データの各トークンに対応する品詞情報をさらに取得する。
本発明の1つの実施形態では、上記形態素解析部が、上記トークン列データの各トークンに対応する品詞情報をさらに取得し、
上記カテゴリ辞書が分類カテゴリ辞書及び対象外カテゴリ辞書を含み、
上記分類カテゴリ辞書が、テキスト・データから特定のカテゴリのトークンを検索するために使用する該トークン及び任意的に該トークンの品詞情報を含み、
上記対象外カテゴリ辞書が、テキスト・データから特定のカテゴリのトークンとして検索されないようにするために使用する該トークン及び任意的に該トークンの品詞情報を含む。
本発明の1つの実施形態では、上記カテゴリ判別部が、上記トークン列データの各トークンを上記分類カテゴリ辞書を用いて判別し、
上記許可部が、上記分類カテゴリ辞書に上記登録候補語を登録するかどうかの選択をユーザに許し、
上記登録部が、上記登録候補語として抽出された未カテゴリ語であって、上記ユーザによって選択された未カテゴリ語を上記分類カテゴリ辞書に登録する。
本発明の1つの実施形態では、上記登録部が、上記登録候補語として抽出されたトークンであって、上記ユーザによって選択されなかったトークンを上記対象外カテゴリ辞書に登録する。
本発明の1つの実施形態では、上記カテゴリ判別部が、上記トークン列データからのトークン及び該トークンに対応する品詞情報が上記分類カテゴリ辞書に登録されているトークン及び該トークンに対応する品詞情報に合致する場合に、上記トークン列データからの上記トークンを抽出しない。
本発明の1つの実施形態では、上記第1又は第2の文字列が、単語又は単語の一部である。
本発明はまた、テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成する方法を提供する。該方法は、コンピュータ・システムに下記ステップを実行させる。該ステップは、
上記テキスト・データの形態素解析を行い、トークン列データを取得するステップと、
上記トークン列データの各トークンをカテゴリ辞書を用いて判別し、未カテゴリ語を抽出するステップと、
抽出した未カテゴリ語を未カテゴリ語照合ルールと照合し、該未カテゴリ語照合ルールに合致する未カテゴリ語を登録候補語として抽出するステップであって、上記未カテゴリ語照合ルールは、上記合致する未カテゴリ語を抽出するための第1の文字列及び第1の正規表現からなるトークンを含む、上記抽出するステップと、
上記トークン列データのトークン列をトークン列照合ルールと照合し、該トークン列照合ルールに合致するトークン列を登録候補語として抽出するステップであって、上記トークン列照合ルールが、上記合致するトークン列を抽出するための第2の文字列と第2の正規表現とを含むトークン列を含む、上記抽出するステップと、
上記カテゴリ辞書に上記登録候補語を登録するかどうかの選択をユーザに許すステップと
を含む。
上記ユーザによって選択された登録候補語が用語辞書に登録される。代替的には、上記カテゴリ辞書のうちの、上記ユーザによって選択された登録候補語が用語辞書に登録される。
本発明の1つの実施形態では、上記方法は、コンピュータ・システムに下記ステップを実行させる。該ステップは、上記登録候補語の確信度を計算するステップであって、該確信度は、上記登録候補語が上記カテゴリ辞書に登録し又は上記トークン列照合ルールに追加する可能性を示す、上記計算するステップをさらに含む。
本発明の1つの実施形態では、上記確信度を計算するステップが、外部辞書の情報を使用して上記確信度を計算するステップを含む。
本発明の1つの実施形態では、上記確信度を計算するステップが、文字数又は文字種の情報を使用して上記確信度を計算するステップを含む。
本発明の1つの実施形態では、上記確信度を計算するステップが、上記第1又は第2の正規表現に合致するトークン中の文字列が専門用語辞書の語彙として存在する場合に、該文字列が一般用語辞書の語彙として存在する場合よりも高いスコアを与えるステップを含む。
本発明の1つの実施形態では、上記選択を許すステップが、上記登録候補語及び該登録候補語に対応する確信度を表示装置上に表示するステップをさらに含む。
本発明の1つの実施形態では、上記選択を許すステップが、上記登録候補語を上記確信度に従いソートして表示装置上に表示するステップをさらに含む。
本発明の1つの実施形態では、上記方法は、コンピュータ・システムに下記ステップを実行させる。該ステップは、上記登録候補語として抽出された未カテゴリ語であって、上記ユーザによって選択された未カテゴリ語を上記カテゴリ辞書に登録するステップを含む。
本発明の1つの実施形態では、上記登録するステップは、上記登録候補語として抽出されたトークン列であって、上記ユーザによって選択されなかったトークン列をトークン列リストに追加するステップを含む。
本発明の1つの実施形態では、上記未カテゴリ語を抽出するステップでは、上記トークン列データからのトークンが上記カテゴリ辞書に登録されている場合に、該トークンが抽出されない。
本発明の1つの実施形態では、上記取得するステップが、上記トークン列データの各トークンに対応する品詞情報を取得するステップをさらに含む。また、上記未カテゴリ語を抽出するステップでは、上記トークン列データからのトークン及び該トークンに対応する品詞情報が上記カテゴリ辞書に登録されているトークン及び該トークンに対応する品詞情報に合致する場合に、上記トークン列データからの上記トークンが抽出されない。
本発明の1つの実施形態では、上記トークン列を抽出するステップでは、上記トークン列データからのトークン列が上記トークン列リストに登録されている場合に、該トークン列が抽出されない。
本発明の1つの実施形態では、上記取得するステップが、上記トークン列データの各トークンに対応する品詞情報をさらに取得するステップをさらに含む。また、トークン列を抽出するステップでは、上記トークン列データからのトークン列及び該トークン列の各トークンに対応する品詞情報が上記トークン列リストに登録されているトークン列及び該トークン列の各トークンに対応する品詞情報に合致する場合に、上記トークン列データからの上記トークン列が抽出されない。
本発明の1つの実施形態では、上記未カテゴリ語を抽出するステップが、上記トークン列データの各トークンを上記分類カテゴリ辞書を用いて判別するステップを含む。
本発明の1つの実施形態では、上記許すステップが、上記分類カテゴリ辞書に上記登録候補語を登録するかどうかの選択をユーザに許すステップを含む。
本発明の1つの実施形態では、上記登録するステップが、上記登録候補語として抽出された未カテゴリ語であって、上記ユーザによって選択された未カテゴリ語を上記分類カテゴリ辞書に登録するステップを含む。
本発明の1つの実施形態では、上記登録するステップが、上記登録候補語として抽出されたトークンであって、上記ユーザによって選択されなかったトークンを上記対象外カテゴリ辞書に登録するステップを含む。
本発明の1つの実施形態では、上記未カテゴリ語を抽出するステップでは、上記トークン列データからのトークン及び該トークンに対応する品詞情報が上記分類カテゴリ辞書に登録されているトークン及び該トークンに対応する品詞情報に合致する場合に、上記トークン列データからの上記トークンを抽出しない。
本発明の1つの実施形態では、上記方法は、コンピュータ・システムに下記ステップを実行させる。該ステップは、上記登録候補語として抽出された未カテゴリ語であって、上記ユーザによって選択された未カテゴリ語を上記カテゴリ辞書に登録するステップをさらに含む。
本発明の1つの実施形態では、上記未カテゴリ語を抽出するステップが、上記トークン列データの各トークンを分類カテゴリ辞書及び対象外カテゴリ辞書を用いて判別するステップを含み、上記カテゴリ辞書が分類カテゴリ辞書及び対象外カテゴリ辞書を含み、上記分類カテゴリ辞書が、テキスト・データから特定のカテゴリのトークンを検索するために使用する該トークン及び任意的に該トークンの品詞情報を含み、
上記ユーザに許すステップが、
上記登録候補語として抽出された未カテゴリ語であって、上記ユーザによって選択された未カテゴリ語を上記分類カテゴリ辞書に登録するステップ、
上記登録候補語として抽出された未カテゴリ語であって、上記ユーザによって選択されなかった未カテゴリ語を上記対象外カテゴリ辞書に登録するステップ、又は
上記登録候補語として抽出されたトークン列であって、上記ユーザによって選択されなかったトークン列を上記トークン列リストに追加するステップ、
を含む。
本発明はさらに、テキスト・データに含まれる固有表現又は専門用語の用語辞書を作成する方法を提供する。該方法は、コンピュータ・システムに下記ステップを実行させる。該ステップは、
上記テキスト・データの形態素解析を行い、トークン列データ及び該トークン列データの各トークンに対応する品詞情報を取得するステップと、
上記トークン列データの各トークンを分類カテゴリ辞書及び対象外カテゴリ辞書を用いて判別し、そして未カテゴリ語を抽出するステップであって、上記分類カテゴリ辞書が、テキスト・データから特定のカテゴリのトークンを検索するために使用する該トークン及び任意的に該トークンの品詞情報を含み、上記対象外カテゴリ辞書が、テキスト・データから特定のカテゴリのトークンとして検索されないようにするために使用する該トークン及び任意的に該トークンの品詞情報を含む、上記抽出するステップと、
抽出した未カテゴリ語を未カテゴリ語照合ルールと照合し、該未カテゴリ語照合ルールに合致する未カテゴリ語を登録候補語として抽出するステップであって、上記未カテゴリ語照合ルールは、上記合致する未カテゴリ語を抽出するための第1の文字列及び第1の正規表現からなるトークンを含む、上記抽出するステップと、
上記トークン列データのトークン列をトークン列照合ルールと照合し、該トークン列照合ルールに合致するトークン列を登録候補語として抽出するステップであって、上記トークン列照合ルールが、上記合致するトークン列を抽出するための第2の文字列と第2の正規表現とを含むトークン列を含む、上記抽出するステップと、
上記登録候補語の確信度を計算するステップであって、該確信度は、上記登録候補語が上記カテゴリ辞書に登録し又は上記トークン列照合ルールに追加する可能性を示す、上記計算するステップと、
上記分類カテゴリ辞書に上記登録候補語を登録するかどうかの選択をユーザに許すステップであって、上記対象外カテゴリ辞書が、テキスト・データから特定のカテゴリのトークンとして検索されないようにするために使用する該トークン及び任意的に該トークンの品詞情報を含む、上記許すステップと、
上記ユーザの選択に応じて、
上記登録候補語として抽出された未カテゴリ語であって、上記ユーザによって選択された未カテゴリ語を上記分類カテゴリ辞書に登録し、
上記登録候補語として抽出された未カテゴリ語であって、上記ユーザによって選択されなかった未カテゴリ語を上記対象外カテゴリ辞書に登録し、又は
上記登録候補語として抽出されたトークン列であって、上記ユーザによって選択されなかったトークン列を上記トークン列リストに追加するステップと
を含む。
上記分類カテゴリ辞書に登録された登録候補語が、上記用語辞書に登録される。代替的には、上記登録候補語として抽出された未カテゴリ語であって、上記ユーザによって選択された未カテゴリ語が用語辞書に登録される。
本発明はさらに、テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・プログラムを提供する。該コンピュータ・プログラムは、コンピュータ・システムに、上記方法のいずれか一に記載の方法の各ステップを実行させる。
本発明の実施形態では、形態素解析によるトークン列の切り出しと、トークン及びトークン列のルールへの適用による抽出のカバー率の広さとの両方の長所を取り入れることによって、全ての登録候補語にユーザが目を通すことが可能な辞書登録作業が実現される。また、本発明の実施形態では、各登録候補語が形態素である単語単位で切り出されているのでノイズが少なく、さらに目的に沿った確認作業が最小限の作業で効率的に行える。また、本発明の実施形態では、トークン列も同時に確認できるので、言語処理に依存する単語の登録漏れを防ぐことができる。
本発明の実施形態である、コンピュータ・システムの全体構成の例を示す。 本発明の実施態様である、カテゴリ辞書、分類カテゴリ辞書、対象外カテゴリ辞書、及び用語辞書の関係を示す。 本発明の実施形態である、確信度付き登録候補語のリストの例を示す。 本発明の実施形態である、テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのフローチャートの例を示す。 本発明の実施形態における、コンピュータ・システムのブロック図を示す。
本発明の実施形態において、「固有表現」(Named Entity)とは、固有物名、組織名、人名、地名、日付表現、時間表現、金額表現、割合表現などで定義される表現である。固有表現の定義は今後も拡張されていくが(関根聡、「固有表現から専門用語」を参照、URL http://www.cs.nyu.edu/~sekine/papers/gengo04ws_sekine.pdfから入手可能)、本発明の実施形態では、拡張された固有表現も含む。
本発明の実施形態において、「専門用語」(Terminology)とは、ある特定の学問の分野、ある特定の職業に従事する者、又はある特定の業界などの間で使用され、通用する語彙的単位である。また、本発明の実施形態において、「専門用語」は、製品名、技術名、顧客名も含む(立石健二、久寿居大、「企業内情報共有のための専門用語抽出方式の提案」を参照、URL http://www.dbsj.org/Japanese/DBSJLetters/vol4/no4/tateishi.pdfから入手可能)。
本発明の実施形態において、「テキスト・データ」とは、電子データであり、テキストを含むデータであればその保存形式を問わない。テキストは、一般用語に加えて、固有表現又は専門用語を含みうる。「テキスト・データ」に埋め込まれている文字の言語は問わない。該言語は、日本語、英語、中国語、韓国語などを挙げることができる。テキスト・データは、手書きされたデータ、例えば診断書データをスキャナで読み取り、光学文字読取装置(OCR)によってテキスト・データにしたデータ、ワードプロセッサソフトウェア、表計算ソフトウェア、データベースソフトウェア、グループウェアなどのアプリケーションソフトウェアによって作成されたデータを含む。テキスト・データは、形態素解析部が認識できる形式であれば、その様式は特に問わない。テキスト・データが、例えばOCRによって手書文字をテキスト・データ化したものである場合、誤字、脱字、不要なスペース、不要な記号などが含まれる場合がある。同様に、テキスト・データがアプリケーションソフトウェアによって作成されたデータであっても、タイプミス、変換ミス、操作ミスにより誤字、脱字、不要なスペース、不要な記号などが含まれる場合がある。
本発明の実施形態において、「形態素」とは、一般に語を構成する最小の意味のある単位である。日本語では、形態素は、名詞、形容詞、副詞、動詞語幹、活用語尾、助詞、助動詞などの語である。
本発明の実施形態において、「形態素解析」とは、テキスト・データを単語に区切る処理であり、自然言語処理の最も基本となる処理である。形態素解析によって生成される形態素の単位自体は、利用目的によって異なるようにしてもよい。本発明の実施形態では、「形態素解析」は、語を構成する最小の意味ある単位に区切り、語形変化を解析し、必要に応じて、品詞を同定する処理である。本発明の実施形態では、形態素解析によって切り出された形態素の単位をトークンという。
「形態素解析」が、品詞同定をせずに、語を上記単位に区切る処理のみをトークナイザーという。本発明の実施形態では、「形態素解析」は、トークナイザーをまた含む。「形態素解析」の手法は、特に限定されず、本発明の目的を達成する上で適切な形態素解析の手法を用いることができる。
本発明の実施形態において、「トークン列データ」とは、形態素解析で切り出された1又は複数の形態素からなるデータをいう。「トークン」とは、1つの形態素である。「トークン列」とは、複数の形態素からなる。すなわち、「トークン列」は、複数のトークンからなる。
本発明の実施形態において、「カテゴリ辞書」は、固有表現又は専門用語として、辞書に登録したいトークンを少なくとも含む辞書である。「カテゴリ辞書」はまた、広い意味で、分類カテゴリ辞書及び対象外カテゴリ辞書の機能を含んでもよい。「カテゴリ辞書」が、分類カテゴリ辞書と対象外カテゴリ辞書の機能を含む場合、分類カテゴリ辞書に含まれるトークンと対象外カテゴリ辞書に登録されるトークンとを、例えば、フラグによって区別して格納することが可能である。フラグは、例えば、分類カテゴリ辞書に含まれるトークンを1に設定し、対象外カテゴリ辞書に含まれるトークンを0に設定する。
本発明の実施形態において、「分類カテゴリ辞書」とは、未カテゴリ語照合ルールに該当するトークン又はトークン列照合ルールに該当するトークン列であり、且つ固有表現又は専門用語として、用語辞書に登録したいトークンを登録した辞書である。
本発明の実施形態において、「対象外カテゴリ辞書」とは、未カテゴリ語照合ルールに該当するトークン又はトークン列照合ルールに該当するトークン列であるが、固有表現又は専門用語として、用語辞書に登録したくないトークンを登録した辞書である。「対象外」としているのは、分類カテゴリ辞書に登録したくないトークンを登録するための辞書であるからである。言い換えれば、「対象外カテゴリ辞書」は、抽出したいトークン又はトークン列と表層的に似ているけれども抽出しないトークン又はトークン列を登録した辞書である。例として、「手足麻痺」カテゴリの対象外カテゴリ辞書には、例えば「顔面麻痺」が入る。これは、抽出したい「拇指麻痺」及び、「両腕麻痺」と同様に、未カテゴリ語照合ルール又はトークン列照合ルールの一部である「麻痺」を含んでいるが、「顔面麻痺」は「手足麻痺」カテゴリに属しないために、対象外カテゴリ辞書に登録されることになる。
本発明の実施形態において、「未カテゴリ語」とは、カテゴリ辞書を用いてトークン列データの各トークンを判別し、該カテゴリ辞書に登録されていないトークンをいう。代替的には、「未カテゴリ語」とは、分類カテゴリ辞書及び対象外カテゴリ辞書を用いてトークン列データの各トークンを判別し、これらの辞書に登録されていないトークンをいう。
本発明の実施形態において、「未カテゴリ語照合ルール」は、未カテゴリ語のうちから、登録候補語を抽出するために使用される。「未カテゴリ語照合ルール」は、第1の文字列及び第1の正規表現(順番は問わない)からなるトークンを含む。
本発明の実施形態において、「第1の文字列」とは、未カテゴリ語照合ルールに含まれるルールの一部を構成し、語の全体の文字列、又は語の一部の文字列である。
本発明の実施形態において、「第1の正規表現」とは、未カテゴリ語照合ルールに含まれるルールの一部を構成し、文字列のパターンを表現する表記法であり、文字列の検索を行うときに利用される。正規表現を使えば、文字列を直接指定せずに「特徴」(パターン)を指定することができるので、表記の揺れを吸収して検索を行うことが可能である。
本発明の実施形態において、「トークン列照合ルール」は、トークン列データから所定のトークン列を登録候補語として抽出するために使用される。「トークン列照合ルール」は、第2の文字列のトークンと第2の正規表現のトークンとかなる(順番は問わない)トークン列を含む。
本発明の実施形態において、「第2の文字列」とは、トークン列照合ルールに含まれるルールの一部を構成し、語の全体の文字列、又は語の一部の文字列である。
本発明の実施形態において、「第2の正規表現」とは、トークン列照合ルールに含まれるルールの一部を構成し、文字列のパターンを表現する表記法であり、文字列の検索を行うときに利用される。正規表現を使えば、文字列を直接指定せずに「特徴」(パターン)を指定することができるので、表記の揺れを吸収して検索を行うことが可能である。
本発明の実施形態において、「トークン列リスト」は、対象外トークン列リストともいう。対象外トークン列リストとは、トークンではなくトークン列であって、固有表現又は専門用語として、辞書に登録したくないトークン列をリストした辞書である。「対象外」としているのは、分類カテゴリ辞書に登録したくないトークンを登録するためのリストであるからである。
本発明の実施形態において、「確信度」とは、カテゴリ辞書に登録される可能性の高さを表す。代替的には、「確信度」とは、分類カテゴリ辞書に登録される可能性の高さを表す。「確信度」は、例えば、数値、レベルなどで表すことが可能である。
以下、図面に従って、本発明の実施形態を説明する。本実施形態は、本発明の好適な態様を説明するためのものであり、本発明の範囲をここで示すものに限定する意図はないことを理解されたい。また、以下の図を通して、特に断らない限り、同一符号は、同一の対象を指す。
図1Aは、本発明の実施形態である、コンピュータ・システムの全体構成の例を示す。
コンピュータ・システム(10)は、形態素解析部(100)、カテゴリ判別部(200)、未カテゴリ語照合部(300)、トークン列照合部(400)、確信度計算部(500)、許可部(600)及び登録部(700)を含む。
また、コンピュータ・システム(10)は、その記憶媒体(図示せず)、例えばハードディスク若しくはフラッシュメモリドライブ(SSD)に、又は該コンピュータ・システム(10)がアクセス可能な記憶媒体、例えばネットワーク・ディスクに、テキスト・データ(1000)、トークン列データ(1100)、分類カテゴリ辞書(1225)、対象外カテゴリ辞書(1250)、未カテゴリ語リスト(1300)、未カテゴリ語照合ルール(1400)、トークン列照合ルール(1500)、対象外トークン列リスト(1600)、登録候補語(1700)、外部辞書(1800)及び登録候補語(1900)を格納している。
以下では、生命保険の支払い査定業務において、支払い申請書に記載の症状が手足麻痺に関するものかどうかを判定するための辞書を作成する場合を例として、上記各部(100〜700)の説明を行う。
上記査定業務のための用語辞書を作成するに際して、該用語辞書の分類カテゴリは「手足麻痺」である。よって、分類カテゴリ辞書(1225)は「手足麻痺」に関する辞書である。該用語辞書の作成において、「麻痺」という語(トークン)をテキスト・データ(1000)から網羅的にチェックし、手足麻痺に関する語のための分類カテゴリ辞書(1225)を用いる。また、登録候補語として抽出される語(トークン又はトークン列)の数を減らすために、麻痺に関係する語であるが手足麻痺に関係のない語のための対象外カテゴリ辞書(1250)及び麻痺に関係する対象外トークン列リスト(1600)を用いる。ここで、対象外とは、分類カテゴリ辞書(1225)に登録される対象外であることを意味する。
形態素解析部(100)は、テキスト・データ(1000)の入力に応じて、該入力されたテキスト・データ(1000)の各文について形態素解析を行う。
テキスト・データ(1000)の例は、下記の通りである。
例1:4月1日顔面麻痺で来院
例2:4月1日拇指麻痺で来院
例3:診察の結果麻痺で来院
例4:再度麻痺で来院
なお、上記例では、テキスト・データ(1000)は意味をなす文であるが、テキスト・データによっては、誤字、脱字、不要なスペースなどを含みうる場合もある。
例えば、「4月1日顔面魔痺で来院」(麻の誤字)、「4月1日顔面痺で来院」(麻の脱字)、「4月1日顔面麻 痺で来院」(麻と痺との間にスペース)である。
形態素解析部(100)は、形態素解析の結果として、各文についてトークン列データ(1100)を出力する。形態素解析では、形態素解析部(100)の確聞の解釈によって、或いは形態素解析部(100)の技術的制限によってトークン列の区切り方が変わる。形態素解析部(100)は、形態素のみが解析対象であり、形態素のカテゴリは解析対象でない。
トークン列データ(1100)の出力では、用言の活用が正規化されて出力される。該出力は、品詞情報をさらに含んでいてもよい。品詞情報は、例えば、日付、名詞、形容詞、副詞、動詞語幹、活用語尾、助詞、助動詞、又は未知語である。未知語とは、辞書に登録されていない新しい表現である。
上記出力が、トークン列データと各トークンに対応する品詞情報とである場合、トークンと品詞情報とのペアの配列として出力される。
トークン列データ(1100)の例は、下記の通りである。
・品詞情報を含まない場合
例1:4月1日/顔面/麻痺/で/来院
例2:4月1日/拇指麻痺/で/来院
例3:診察/の/結果/麻痺/で/来院
例4:再度/麻痺/で/来院
・品詞情報を含む場合
例1:4月1日(日付)/顔面(名詞)/麻痺(名詞)/で(助詞)/来院(名詞)
例2:4月1日(日付)/拇指麻痺(未知語)/で(助詞)/来院(名詞)
例3:診察(名詞)/の(助詞)/結果(名詞)/麻痺(名詞)/で(助詞)/来院(名詞)
例4:再度(副詞)/麻痺(名詞)/で(助詞)/来院(名詞)
形態素解析部(100)は、トークン又はトークンと品詞情報とのペアからなるトークン列データ(1100)を、カテゴリ判別部(200)及びトークン列照合部(400)に渡す。カテゴリ判別部(200)及びトークン列照合部(400)での各処理は、並列に行われうる。
カテゴリ判別部(200)では、トークン列データ(1100)の全てのトークンについてカテゴリ辞書(1200)のエントリと照合し、該エントリと合致しない未カテゴリ語の抽出を行う。カテゴリ辞書(1200)は、例えば、分類カテゴリ辞書(1225)及び対象外カテゴリ辞書(1250)の機能を含む。
分類カテゴリ辞書(1225)は、所定のカテゴリに属するトークンを含み、該トークンに対応する品詞情報を任意に含むエントリの集合である。分類カテゴリ辞書(1225)は、「両腕麻痺」などの、分類カテゴリ「手足麻痺」に属するトークンを有する。
対象外カテゴリ辞書(1250)は、分類カテゴリ辞書(1225)の登録対象でないトークンを含み、該トークンに対応する品詞情報を任意に含むエントリの集合である。
カテゴリ辞書(1200)のカテゴリは、例えば、「手足麻痺」である。
カテゴリ判別部(200)は、トークン列データ(1100)の各トークンがカテゴリ辞書のエントリと一致しない場合に、該トークンを未カテゴリ語として抽出する。代替的には、カテゴリ辞書(1200)が分類カテゴリ辞書(1225)及び対象外カテゴリ辞書(1250)の機能を含む場合には、カテゴリ判別部(200)は、トークン列データ(1100)の各トークンが分類カテゴリ辞書(1225)及び対象外カテゴリ辞書(1250)の各エントリと一致しない場合に、該トークンを未カテゴリ語として抽出する。
カテゴリ判別部(200)は、抽出した未カテゴリ語を未カテゴリ語リスト(1300)に追加する。
未カテゴリ語リスト(1300)の例は、下記の通りである。なお、トークン「麻痺」は、カテゴリ辞書(1200)に対象外のトークンとしてフラグ付きで登録されているか、又は対象外カテゴリ辞書(1250)に登録されているとする。
例1:4月1日/顔面/で/来院
例2:4月1日/拇指麻痺/で/来院
例3:診察/の/結果/で/来院
例4:再度/で/来院
未カテゴリ語照合部(300)は、未カテゴリ語リスト(1300)の各未カテゴリ語を未カテゴリ語照合ルール(1400)と照合し、各未カテゴリ語が該未カテゴリ語照合ルール(1400)に合致するか否かを判定する。
未カテゴリ語照合ルール(1400)は、文字列及び正規表現の組み合わせからなるトークンであれば、該組み合わせ内での文字列と正規表現との順序は問わない。未カテゴリ語照合ルールは、トークン単位(この場合、トークン単位は語単位と同じである)のルール、トークン単位の一部分(すなわち部分文字列である)からなるルールを含む。未カテゴリ語照合ルール(1400)は、分類カテゴリに入るトークンに包括的に合致するトークンを抽出するために使用される。但し、任意文字列に合致した箇所は、後述の確信度計算部(500)において説明するように、専門用語又はその他の単語であることを想定しているので、該想定を前提として未カテゴリ語照合ルール(1400)を用意することが望まれる。
未カテゴリ語照合ルール(1400)の例は、下記の通りである。
・[あ-ん]*麻痺
[あ-ん]*麻痺は、1つの正規表現と1つの文字列からなる未カテゴリ語照合ルールである。
該未カテゴリ語照合ルールでは、0文字以上の平仮名に「麻痺」が続くトークンが合致する。「 [○-△] 」は、文字コードが○から△の間にある任意の一文字を表す。「*」は、前の文字の0文字以上の連続を表す。
・合致する例: 「がんめん麻痺」、「麻痺」、「りょううで麻痺」
・合致しない例: 「顔面麻痺」、「ベル麻痺」、「がんめん」
・*麻痺
*麻痺は、1つの正規表現(この例ではアスタリスクである)と1つの文字列とからなる未カテゴリ語照合ルールである。アスタリスクは、任意の文字列であることを意味する。
・合致する例: 「母趾麻痺」、「顔面麻痺」
・合致しない例: 「母趾マヒ」、「顔面まひ」
・*マヒ
*麻痺は、1つの正規表現(この例ではアスタリスクである)と1つの文字列とからなる未カテゴリ語照合ルールである。
・合致する例: 「母趾マヒ」
・合致しない例: 「母趾麻痺」、「顔面麻痺」、「顔面まひ」
・[ア-ン|ー]++[0-9]{1,3}+mg
[ア-ン|ー]++[0-9]{1,3}+mgは、複数の正規表現と複数の文字列とからなる未カテゴリ語照合ルールである。
該未カテゴリ語照合ルールでは、1文字以上の長音記号を含むカタカナ文字列に続き、1文字以上3文字以下の数字が出現し、最後に「mg」が出現する文字列が合致する。「 | 」は、「または」の意味である。「 ++ 」は、前の文字の1文字以上の連続を表す。「 {1,3}+ 」は、前の文字の1〜3回の連続を表す。
・合致する例: 「グルコース120mg」、「アスピリン500mg」
・合致しない例: 「100mg」、「アスピリンmg」、「ブドウ糖120mg」
未カテゴリ語照合ルール(1400)では、未カテゴリ語照合ルールは単語に対するルールであるので、未カテゴリ語の前後はみない。
未カテゴリ語照合部(300)は、未カテゴリ語照合ルール(1400)と合致した未カテゴリ語を登録候補語(1700)として出力する。
未カテゴリ語照合の結果の例は、下記の通りである。
例1:該当なし
例2:拇指麻痺
例3:該当なし
例4:該当なし
上記例では、「拇指麻痺」が、登録候補語(1700)である。
トークン列照合部(400)は、トークン列データ(1100)の各トークン列を逐次読み込み、該各トークン列をトークン列照合ルール(1500)と照合し、各トークン列が該トークン列照合ルール(1500)に合致するか否かを判定する。次に、トークン列照合部(400)は、合致したトークン列のエントリ(例えば、「両腕/麻痺」)が対象外トークン列リスト(1600)中に存在するかどうかを判定する。トークン列照合部(400)は、上記エントリが対象外トークン列リスト(1600)中に存在しなかった場合に、当該トークン列を登録候補語(1700)として出力する。
トークン列照合ルール(1500)は、文字列のトークンと正規表現のトークンとを含むトークン列であれば、トークン列内での文字列のトークンと正規表現のトークンとの順序は問わない。トークン列照合ルール(1500)は、分類カテゴリに入るトークン列に包括的に合致するトークン列を抽出するために使用される。
トークン列照合ルール(1500)の例は、下記の通りである。
・[あ-ん] +麻痺
[あ-ん] +麻痺は、1つの正規表現のトークンと1つの文字列のトークンとを含むトークン列からなるトークン列照合ルールである。該未カテゴリ語照合ルールでは、0文字以上の平仮名と「麻痺」とを含むトークン列が合致する。「+」は、前のトークンと後のトークンとの接続を表す。
・合致する例: 「がんめん麻痺」、「りょううで麻痺」
・合致しない例: 「顔面麻痺」、「ベル麻痺」、「がんめん」
・(名詞)+麻痺
(名詞)+麻痺は、トークン(名詞)とトークン(麻痺)とを含むトークン列からなるトークン列照合ルールである。(名詞)は、名詞という品詞を示す。
トークン列照合部(400)が、トークンの品詞の品詞についても考慮するようにトークン列照合ルール(1500)を用意してもよい。但し、トークン列照合部(400)は、カテゴリを考慮しない。
トークン列照合部(400)は、トークン列照合ルール(1500)と合致したトークン列を登録候補語(1700)として出力する。
トークン列照合の結果の例は、下記の通りである。
・品詞情報を含まない場合
例1:顔面/麻痺
例2:該当なし
例3:結果/麻痺
例4:該当なし
・品詞情報を含む場合
例1:顔面(名詞)/麻痺
例2:該当なし
例3:結果(名詞)/麻痺
例4:該当なし
以上より、登録候補語(1700)は、未カテゴリ語照合部(300)からの結果及びトークン列照合部(400)からの結果を含む。
登録候補語(1700)は、次の通りである。
未カテゴリ語照合部(300)からの結果
例2:拇指麻痺
トークン列照合部(400)からの結果
例1:顔面/麻痺 または、顔面(名詞)/麻痺
例3:結果/麻痺 または、結果(名詞)/麻痺
確信度計算部(500)では、未カテゴリ語照合部(300)及びトークン列照合部(400)それぞれにおいて出力された登録候補語(1700)の確信度を計算する。
確信度の算出には、外部辞書(1800)又はその他の辞書の情報、文字数又は文字種などの様々な情報を使用することが可能である。該情報の例は、下記の通りである。
1.登録候補語(1700)が、外部辞書(1800)、例えば特定の専門用語辞書の単語であるか又は該単語を含む単語かどうか。
専門用語辞書は、例えば、体の部位を示す語を含む。例えば、体の部位を示す用語である、声帯、拇指、顔面、四肢などである。
2.登録候補語(1700)が、特定のカテゴリに属する単語であるか又は該単語を含む単語かどうか。
例A:「記号+麻痺」であれば、確信度スコアを下げる(例:#麻痺)
例B:「ひらがな1文字+麻痺」であれば、確信度スコアを下げる(例:て麻痺)
例C:「数字+麻痺」であれば、確信度スコアを下げる(例:31麻痺)
3.登録候補語(1700)が、一般語辞書の単語であるか又は該単語を含むか単語かどうか。
例:一般名詞+「麻痺」
一般語辞書を用いて、一般名詞+「麻痺」の形式の登録候補語にも確信度を加算することで、スペースの混入、又は誤字若しくは脱字により未カテゴリ語となったノイズ・トークンを区別することができる。
また、確信度の算出には、重み付けを利用することが可能である。該重み付けの例は、下記の通りである。
1.手足麻痺の語彙取得における「*麻痺」のケースでは、一般解剖学の用語辞書などの体の部位を表す用語、例えば{腕、足、頭、心臓、…}を含む辞書を用いることで、体の部位+「麻痺」の形式の登録候補語の確信度を上げることが可能である。例えば、重み付けとして、確信度のスコアを一定数加算する。
許可部(600)は、図2に示すような登録候補語のリストと、各登録候補語をカテゴリ辞書(1200)に登録するか否かをユーザが設定することを許すためのインターフェースを少なくとも提供する。該インターフェースは、例えばグラフィカル・ユーザ・インターフェース(GUI)画面である。カテゴリ辞書(1200)が分類カテゴリ辞書(1225)と対象外カテゴリ辞書(1250)に分かれている場合、許可部(600)は、上記登録候補語のリストと、各登録候補語を分類カテゴリ辞書(1225)に登録するか否かをユーザが設定することを許すためのインターフェースを少なくとも提供する。該インターフェースは、登録候補語又は確信度付き登録候補語(1900)を人手でチェックし、分類カテゴリ辞書(1225)へ登録するかどうかの選択を促す。
登録部(700)は、上記GUI画面から入力された分類判定のユーザ選択の入力に応じて、下記処理を行う。
・登録候補語をカテゴリ辞書(1200)に登録する場合、すなわちユーザの選択が登録候補語を分類カテゴリ「手足麻痺」に登録することを選択した場合、登録フラグfにYESを与える。
代替的に、登録候補語を分類カテゴリ辞書(1225)に登録する場合、すなわちユーザの選択が登録候補語を分類カテゴリ「手足麻痺」に登録することを選択した場合、登録フラグfにYESを与える。
・登録候補語をカテゴリ辞書(1200)に登録しない場合、すなわちユーザの選択が登録候補語を分類カテゴリ「手足麻痺」に登録することを選択しない場合、登録フラグfにNOを与える。
代替的に、登録候補語を分類カテゴリ辞書(1225)に登録しない場合、すなわちユーザの選択が登録候補語を分類カテゴリ「手足麻痺」に登録することを選択しない場合、登録フラグfにNOを与える。
登録部(700)は、登録フラグfとしてYesを受け取ると、登録候補語を分類カテゴリ辞書(1225)に登録する。
登録部(700)は、登録フラグfとしてNoを受け取ると、登録候補語が未カテゴリ語の場合に、登録候補語を対象外カテゴリ辞書(1250)に登録し、登録候補語がトークン列の場合に、対象外トークン列リスト(1600)に登録する。
上記例では、登録部(700)は、登録候補語「拇指麻痺」についてfとしてYesが与えられると、該登録候補語を分類カテゴリ辞書(1225)に登録する。また、登録部(700)は、登録候補語「顔面麻痺」についてfとしてNoが与えられると、該登録候補語を対象外トークン列リスト(1600)に登録する。さらに、登録部(700)は、登録候補語「結果麻痺」についてfとしてNoが与えられると、該登録候補語を対象外トークン列リスト(1600)に登録する。
カテゴリ判別部(200)は、上記「拇指麻痺」が分類カテゴリ辞書(1225)に登録されたので、該登録以降のトークン列データ(1100)の判別において、「拇指麻痺」をトークン列データ(1100)から未カテゴリ語として抽出しないので、結果的に「拇指麻痺」は登録候補語として抽出されない。すなわち、カテゴリ判別部(200)は、分類カテゴリ辞書(1225)に登録された登録候補語を以降の処理において抽出しない。これによって、登録候補語を登録するかどうかのユーザによる選択の作業の軽減が可能である。
同様に、カテゴリ判別部(200)は、対象外カテゴリ辞書(1250)に登録された登録候補語を以降の処理において抽出しない。これによって、同様に、登録候補語を登録するかどうかのユーザによる選択の作業の軽減が可能である。
また、トークン列照合部(400)は、上記「顔面麻痺」及び上記「結果麻痺」が分類カテゴリ辞書(1225)に登録されたので、該登録以降のトークン列データ(1100)の判別において、「拇指麻痺」及び「結果麻痺」をトークン列データ(1100)から未カテゴリ語として抽出しないので、結果的に「拇指麻痺」及び「結果麻痺」は登録候補語として抽出されない。すなわち、トークン列照合部(400)は、トークン列データ(1100)に登録された登録候補語を以降の処理において抽出しない。これによって、上記と同様に、登録候補語を登録するかどうかのユーザによる選択の作業の軽減が可能である。
図1Bは、本発明の実施態様である、カテゴリ辞書、分類カテゴリ辞書、対象外カテゴリ辞書、及び用語辞書の関係を示す。
Aは、カテゴリ辞書(1200)が分類カテゴリ辞書(1225)及び対象外カテゴリ辞書(1250)の機能を含む場合である。
カテゴリ辞書(1200)のうち、分類カテゴリ辞書の機能を有する部分に登録されているトークン又はトークン列、又は分類カテゴリ辞書の機能を有する部分に登録されうるトークン又はトークン列が、用語辞書(1260)に登録される。
Bは、分類カテゴリ辞書(1225)と対象外カテゴリ辞書(1250)が分かれている場合である。
分類カテゴリ辞書に登録されているトークン又はトークン列、又は分類カテゴリ辞書に登録されうるトークン又はトークン列が、用語辞書(1260)に登録される。
なお、分類カテゴリ辞書そのものが用語辞書を兼ねてもよい。
図2は、本発明の実施形態である、確信度付き登録候補語のリストの例を示す。
該リストは、少なくとも登録候補語、及び分類判定選択のためのインターフェースを含む。該リストはまた、任意に、登録候補語の分類若しくは確信度、又はそれらの組み合わせを含む。確信度とともに登録候補語が表示される場合、確信度付き登録候補語(1900)ともいう。確信度付き登録候補語(1900)は、各登録候補語(1700)に付与された確信度以外に、確信度の根拠となった情報を含んでもよい。確信度の根拠になった情報は、例えば、登録候補語の分類、登録候補語がトークン列又は未カテゴリ語のいずれであるかである。
該リストでは、登録候補語の分類として、体の部位+「麻痺」、一般名詞+「麻痺」、その他の分類が付与されている。
該リストでは、確信度として、高、中、低が付与されている。代替的に、確信度として、確信度に応じて数値、例えば、3(高に対応する)、2(中に対応する)、1(低に対応する)の順に与えられてよい。そして、該確信度に従い、登録候補語がソートされている。このように、ソートした該結果をユーザに表示することによって、ユーザは、登録候補語をカテゴリ辞書(1200)に登録するか否かの判断が容易になる。また、登録候補語毎に登録するかどうかの判定を行うのではなく、確信度毎に登録するかどうかをまとめて判定ができるようにしてもよい。まとめて判定を行うことによって、対象外カテゴリ辞書(1250)又は対象外トークン列リスト(1600)への登録操作が容易になる。さらに、一見難解な固有表現又は専門用語があった場合でも、該表現又は用語が体の部位を示すことを予測しやすくなる。
該リストでは、登録候補語が、確信度順にソートされている。代替的に、登録候補語が、確信度のグループごとにソートされているようにしてもよい。
該リストでは、未カテゴリ語照合部(300)からの結果「拇指麻痺」は、確信度が「高」であり、上から2番目に表示されている。また、該リストでは、トークン列照合部(400)からの結果「顔面麻痺」は、確信度が「高」であり、上から3番目に表示されている。さらに、該リストでは、トークン列照合部(400)からの結果「結果麻痺」は、確信度が「中」であり、上から9番目に表示されている。
分類判定選択は、GUI画面を使用して表示される。該GUI画面は、分類判定の選択を可能にする。分類判定の選択は、例えば、選択する場合○、選択しない場合×をプルダウンメニューから選択して行われる。代替的に、GUI画面は、例えばオプション・メニューを選択することによって表示される。
図3は、本発明の実施形態である、テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのフローチャートの例を示す。
ステップ301では、形態素解析部(100)は、テキスト・データ(1000)の入力に応じて、該入力されたテキスト・データの各文を形態素解析を行い、該形態素解析の結果として、各文についてトークン列データを出力する。トークン列データ(1100)を出力する。
ステップ302では、カテゴリ判別部(200)は、トークン列データ(1100)の全てのトークンについて、カテゴリ辞書(1200)のエントリと合致しない未カテゴリ語の抽出を行う。代替的には、カテゴリ判別部(200)は、トークン列データ(1100)の全てのトークンについて、分類カテゴリ辞書(1225)及び対象外カテゴリ辞書(1250)のエントリと照合し、いずれのエントリにも合致しない未カテゴリ語の抽出を行う。該抽出された未カテゴリ語は、未カテゴリ語リスト(1300)として出力される。
ステップ303では、未カテゴリ語照合部(300)は、未カテゴリ語リスト(1300)の各未カテゴリ語を未カテゴリ語照合ルール(1400)と照合し、該未カテゴリ語照合ルール(1400)に合致するか否かを判定する。そして、未カテゴリ語照合部(300)は、該未カテゴリ語照合ルール(1400)に合致する未カテゴリ語を登録候補語(1700)として出力する。
ステップ304では、トークン列照合部(400)は、トークン列データ(1100)の各トークンを逐次読み込み、該各トークンをトークン列照合ルール(1500)と照合し、該トークン列照合ルール(1500)に合致するか否かを判定する。次に、トークン列照合部(400)は、合致したトークン列のエントリが対象外トークン列リスト(1600)中に存在するかどうかを判定する。トークン列照合部(400)は、上記エントリが対象外トークン列リスト(1600)中に存在しなかった場合に、当該トークン列を登録候補語(1700)として出力する。
コンピュータシステム(図1A、10)は、ステップ302〜303とステップ304とを同時並行で行わせることができる。
ステップ305では、確信度計算部(500)は、外部辞書(1800)の情報を用いて、登録候補語(1700)を分類カテゴリへ登録判断の観点から作業しやすい順に並べ替える。そして、該並べ替えた登録候補語が、確信度付き登録候補語(1900)として出力される。なお、ステップ305は任意のステップであり、ステップ303及びステップ304から下記に述べるステップ306に直接進んでもよい。
ステップ306では、許可部(600)は、各登録候補語を、カテゴリ辞書(1200)に登録するか否かをユーザが設定することを許すためのインターフェースを少なくとも提供する。代替的に、許可部(600)は、各登録候補語を、分類カテゴリ辞書(1225)に登録するか否かをユーザが設定することを許すためのインターフェースを少なくとも用意する。該インターフェースはまた、確信度を用意してもよい。該インターフェースはさらに、登録候補語の分類を用意してもよい。
ステップ307では、登録部(700)は、ユーザによって登録すると判定された登録候補語をカテゴリ辞書(1200)に、ユーザによって選択されたことを示すフラグ付きで登録する。一方、登録部(700)は、ユーザによって登録しないと判定された登録候補語であって、未カテゴリ語照合部(300)によって抽出された登録候補語を、カテゴリ辞書(1200)に、ユーザによって選択されなかったことを示すフラグ付きで登録する。また、登録部(700)は、ユーザによって登録しないと判定された登録候補語であって、トークン列照合部(400)によって抽出された登録候補語を、対象外トークン列リスト(1600)に登録する。
代替的に、登録部(700)は、ユーザによって登録すると判定された登録候補語を分類カテゴリ辞書(1225)に登録する。一方、登録部(700)は、ユーザによって登録しないと判断された登録候補語であって、未カテゴリ語照合部(300)によって抽出された登録候補語を、対象外カテゴリ辞書(1250)に登録する。また、登録部(700)は、ユーザによって登録しないと判定された登録候補語であって、トークン列照合部(400)によって抽出された登録候補語を、対象外トークン列リスト(1600)に登録する。
上記登録処理によって、次回からの辞書登録のために登録候補語(1700)の数を減らしつつ、分類カテゴリ辞書(1225)の作成作業を支援する。
以上の通り、本発明の実施形態では、一般語としての単語ではなく、特定のカテゴリに属するトークンのみを未カテゴリ語リスト(1300)から抽出するために、下記の構成を採用する。
本発明の上記実施形態では、上記に説明したように、トークン列データ(1100)のトークンについて、未カテゴリ語照合部(300)による照合及びトークン列照合部(400)による照合を行い、登録候補語を抽出す自動化段階と、該登録候補語について、ヒトが意味レベルの確認を許可部(600)を通じて行う手動化段階の2段階の仕組みを採用する。該2段階の仕組みを採用することによって、トークン列データ(1100)を漏れなく検査することが可能である。
図1Aの説明では、日本語を例にして説明した。しかし、テキスト・データ(1000)が英語である場合にも、本発明を適用することが可能である。
テキスト・データ(1000)が英語である場合、形態素解析部(100)は、品詞情報を各トークン列データに与える。なぜならば、英語の場合、各トークンはスペースによってすでに区切られているために、日本語のように形態素として切り出す必要がないからである。
テキスト・データ(1000)が英語の場合、未カテゴリ語照合ルール(1400)は、下記の通りである。未カテゴリ語照合ルールは、単語単位のルール、単語の一部分(すなわち部分文字列である)からなるルールを含む。
・*paralysis (注記 日本語訳「*麻痺」)
*paralysisは、1つの正規表現(この例ではアスタリスクである)と1つの文字列とからなる未カテゴリ語照合ルールである。アスタリスクは、任意の文字列であることを意味する。
・合致する例: 「angioparalysis」、「crystoparalysis」
・合致しない例: 「paralyzed」
・*plegic* (日本語訳「*麻痺の*」)
・合致する例: 「quadriplegic handicap」
・合致しない例: 「quadriplegia」
テキスト・データ(1000)が英語の場合、トークン列照合ルール(1500)は、下記の通りである。英語のトークン列照合ルール(1500)は、日本語のトークン列照合ルール(1500)と同様にトークン列(複数のトークン)からなる表現を抽出するためのルールである。
・[a〜z]+paralysis
[a〜z]+麻痺は、1つの正規表現と1つの文字列とを含むトークン列からなるトークン列照合ルールである。「+」は、前のトークンと後のトークンとの接続を表す。
・合致する例: 「internus paralysis」、「anticus paralysis」、「facial paralysis」
・合致しない例: 「quadriplegic handicap」
該実施例では、手足麻痺カテゴリについて辞書登録をする場合について説明する。
生命保険支払い査定業務では、症状の記述が手足麻痺に関するものかどうかを判定するケースがある。そこで、生命保険支払い査定用の辞書作成者は、「麻痺」という言葉を含む単語を網羅的にチェックし、手足に関する分類カテゴリの辞書を作成する必要がある。
分類カテゴリ辞書(1225)、対象外カテゴリ辞書(1250)及びトークン列リスト(1600)のリソースの初期状態は、空である。また、未カテゴリ語照合ルール(1400)は、一文字以上の任意の文字列に続いて「麻痺」が出現する文字列に合致する正規表現と文字列の組み合わせである「.+麻痺」からなるルールである。ここで、正規表現のピリオド(.)は改行を除く任意の1文字を表し、正規表現のプラス(+)は直前のパターンの1回以上の繰り返しを表す。トークン列照合ルール(1500)は、(名詞)という正規表現と、「麻痺」という文字列とを含むトークン列である。
(1)初回の辞書登録処理
初回の辞書登録処理において、「拇指麻痺」、「両腕麻痺」又は「顔面麻痺」を含むテキスト・データ(複数文書の文書でありうる)が形態素解析部(100)に投入された。形態素解析部(100)の形態素解析エンジンは、「拇指麻痺」、「両腕麻痺」及び「顔面麻痺」をトークン又はトークン列として切り出し、トークン列データ(1100)を出力する。
形態素解析部(100)は、「両腕麻痺」を「両腕/麻痺」として二語として切り出し、「拇指麻痺」及び「顔面麻痺」を一つの単語として切り出した。よって、「両腕/麻痺」はトークン列(複数の語)であり、「拇指麻痺」及び「顔面麻痺」はそれぞれトークン(1つの語)である。
カテゴリ判別部(200)は、上記トークン列データを受け取り、「両腕」及び「麻痺」、並びに「拇指麻痺」及び「顔面麻痺」が分類カテゴリ辞書(1225)及び対象外カテゴリ辞書(1250)のいずれにも登録されていないために、「拇指麻痺」及び「顔面麻痺」を未カテゴリ語として抽出し、未カテゴリ語リスト(1300)に追加する。
未カテゴリ語照合部(300)は、未カテゴリ語リスト(1300)を読み取り、「両腕」及び「麻痺」、並びに「拇指麻痺」及び「顔面麻痺」について未カテゴリ語照合ルール(1400)と照合する。未カテゴリ語照合部(300)は、照会の結果、「両腕」及び「麻痺」、並びに「拇指麻痺」及び「顔面麻痺」を未カテゴリ語と判定する。なお、トークン列「両腕/麻痺」のうちのトークン「両腕」は、上記未カテゴリ語照合ルール(1400)のうちの「麻痺」を含んでいたいために、登録候補語(1700)として抽出されない。同様に、トークン列「両腕/麻痺」のうちのトークン「麻痺」は、上記未カテゴリ語照合ルール(1400)のうちの「一文字以上の任意の文字列」に合致しないために、登録候補語(1700)として抽出されない。よって、未カテゴリ語照合ルール(1400)に合致するトークン「拇指麻痺」及び「顔面麻痺」が、登録候補語(1700)である。
トークン列照合部(400)は、トークン列データを読み取り、「拇指麻痺」、「顔面麻痺」及び「両腕麻痺」についてトークン列照合ルール(1500)と照合する。トークン列照合部(400)は、照会の結果、「両腕麻痺」(別の表現で表すと「両腕/麻痺」である)がトークン列照合ルール(1500)に合致すると判定し、且つトークン列リスト(1600)に登録されていないことを確認する。該トークン列照合ルール(1500)に合致し且つトークン列リスト(1600)に登録されていないトークン列「両腕/麻痺」が登録候補語として抽出される。
その後、ユーザによって、登録候補語のうち、「拇指麻痺」及び「両腕麻痺」は登録し、「顔面麻痺」は、手足麻痺カテゴリに属しないので登録しないと判定された。よって、登録部(700)は、「拇指麻痺」及び「両腕麻痺」を分類カテゴリ辞書(1225)に登録する。また、登録部(700)は、「顔面麻痺」が未カテゴリ語であるので対象外カテゴリ辞書(1250)に登録する。
(2)2回目以降の辞書登録処理
2回目の登録処理で、「拇指麻痺」、「両腕麻痺」、「顔面麻痺」又は「神経麻痺」を含むテキスト・データ(複数文書の文書でありうる)が形態素解析部(100)に投入された。形態素解析部(100)の形態素解析エンジンは、「拇指麻痺」(トークン)、「両腕麻痺」(トークン)、「顔面麻痺」(トークン)及び「神経麻痺」(トークン又はトークン列)をトークン又はトークン列として切り出し、トークン列データ(1100)を出力する。
カテゴリ判別部(200)は、上記トークン列データを受け取り、「拇指麻痺」、「両腕麻痺」がトークンとして切り出されているけれども、「拇指麻痺」、「両腕麻痺」が分類カテゴリ辞書(1225)に登録されているので未カテゴリ語として抽出しない。同様に、カテゴリ判別部(200)は、「顔面麻痺」がトークンとして切り出されているけれども、「顔面麻痺」が対象外カテゴリ辞書(1250)に登録されているので、未カテゴリ語として抽出しない。
“神経麻痺”が1つのトークン、すなわち「神経麻痺」として切り出された場合、カテゴリ判別部(200)は、上記1つのトークン「神経麻痺」が分類カテゴリ辞書(1225)及び対象外カテゴリ辞書(1250)のいずれにも登録されていないために、「神経麻痺」を未カテゴリ語として抽出し、未カテゴリ語リスト(1300)に追加する。未カテゴリ語照合部(300)は、未カテゴリ語リスト(1300)を読み取り、「神経麻痺」について、未カテゴリ語照合ルール(1400)と照合する。未カテゴリ語照合部(300)は、照会の結果、「神経麻痺」を未カテゴリ語と判定する。該未カテゴリ語照合ルール(1400)に合致するトークン「神経麻痺」が登録候補語(1700)である。
“神経麻痺”がトークン列、すなわち「神経/麻痺」として切り出された場合、トークン列照合部(400)は、トークン列データを読み取り、該トークン列照合ルール(1500)と照合する。トークン列照合部(400)は、照会の結果、「神経麻痺」(別の表現で表すと「神経/麻痺」である)がトークン列照合ルール(1500)に合致すると判定し、且つトークン列リスト(1600)に登録されていないことを確認する。該トークン列照合ルール(1500)に合致し且つトークン列リスト(1600)に登録されていないトークン列「神経/麻痺」が、登録候補語(1700)として抽出される。
その後、ユーザによって、登録候補語「神経麻痺」は手足麻痺カテゴリに属しないので登録しないと判定された。
よって、登録部(700)は、“神経麻痺”が1つのトークンとして切り出されていた場合に該「神経麻痺」を対象外カテゴリ辞書(1250)に登録する。或いは、登録部(700)は、“神経麻痺”がトークン列として切り出されていた場合に該「神経/麻痺」を対象外トークン列リスト(1600)に追加する。
このようにして、ユーザは、一度判定した登録候補語を次の辞書登録処理の以降の処理において再び判定する必要がなくなる。さらに、ユーザは、初出のトークン又はトークン列について、未カテゴリ語照合ルール(1400)又はトークン列照合ルール(1500)に合致するもののみを判定すればよい。従って、本発明の実施形態では、形態素解析部(100)による形態素の切り出しの結果によらず、ユーザは、登録候補語として抽出されてきた「麻痺」を含むトークン又はトークン列を確認のみすればよい。
図4は、本発明の実施形態における、コンピュータ・システムのブロック図を示す。
上記実施形態のコンピュータ・システム(401)は、メイン・メモリ(402)とCPU(403)と含み、これらはバス(404)に接続されている。CPU(403)は好ましくは、32ビットまたは64ビットのアーキテクチャに基づくものであり、例えば、インテル社のXeon(商標)シリーズ、Core(商標)シリーズ、ATOM(商標)シリーズ、Pentium(商標)シリーズ、Celeron(商標)シリーズ、AMD社のPhenom(商標)シリーズ、Athlon(商標)シリーズ、Turion(商標)シリーズ及びSempron(商標)を使用することができる。バス(404)には、ディスプレイ・コントローラ(405)を介して、LCDモニターなどのディスプレイ(406)が接続される。ディスプレイ(406)は、コンピュータ・システムの管理のために、通信回線を介してネットワークに接続されたコンピュータについての情報と、そのコンピュータ上で動作中のソフトウェアについての情報を、適当なグラフィック・インターフェースで表示するために使用される。バス(404)にはまた、IDE又はSATAコントローラ(407)を介して、ハードディスク又はシリコン・ディスク(408)と、CD−ROM、DVDドライブ又はBDドライブ(409)が接続される。
ハードディスク又はシリコン・ディスク(408)には、オペレーティング・システム、本発明の実施形態に従うコンピュータ・プログラム、その他のプログラム及びデータが、メイン・メモリ(402)にロード可能に記憶されている。
CD−ROM、DVD又はBDドライブ(409)は、必要に応じて、CD−ROM、DVD−ROM又はBDからプログラムをハードディスク又はシリコン・ディスク(408)に追加導入するために使用される。バス(404)には更に、キーボード・マウス・コントローラ(410)を介して、キーボード(411)及びマウス(412)が接続されている。
通信インターフェース(414)は、例えばイーサネット(商標)プロトコルに従うものであり、通信コントローラ(413)を介してバス(404)に接続され、コンピュータ・システム(401)及び通信回線(415)を物理的に接続する役割を担い、コンピュータ・システム(401)のオペレーティング・システムの通信機能のTCP/IP通信プロトコルに対して、ネットワーク・インターフェース層を提供する。尚、通信回線は、有線LAN環境、或いは例えばIEEE802.11a/b/g/nなどの無線LAN接続規格に基づく無線LAN環境であってもよい。
以上、実施形態に基づき本発明を説明してきたが、本実施形態に記載されている内容は、本発明の一例であり、当業者なら、本発明の技術的範囲を逸脱することなく、さまざまな変形例に想到できることが、明らかであろう

Claims (25)

  1. テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システムであって、
    前記テキスト・データの形態素解析を行い、トークン列データを取得する形態素解析部と、
    前記トークン列データの各トークンをカテゴリ辞書を用いて判別し、未カテゴリ語を抽出するカテゴリ判別部と、
    抽出した未カテゴリ語を未カテゴリ語照合ルールと照合し、該未カテゴリ語照合ルールに合致する未カテゴリ語を登録候補語として抽出する未カテゴリ語照合部であって、前記未カテゴリ語照合ルールは、前記合致する未カテゴリ語を抽出するための第1の文字列及び第1の正規表現からなるトークンを含む、前記未カテゴリ照合部と、
    前記トークン列データのトークン列をトークン列照合ルールと照合し、該トークン列照合ルールに合致するトークン列を登録候補語として抽出するトークン列照合部であって、前記トークン列照合ルールが、前記合致するトークン列を抽出するための第2の文字列と第2の正規表現とを含むトークン列を含む、前記トークン列照合部と、
    前記カテゴリ辞書に前記登録候補語を登録するかどうかの選択をユーザに許す許可部と
    を含む、前記コンピュータ・システム。
  2. 前記登録候補語の確信度を計算する確信度計算部であって、該確信度は、前記登録候補語が前記カテゴリ辞書に登録され可能性を示す、前記確信度計算部と、
    をさらに含み、
    前記許可部が、前記確信度を前記登録候補語及び該登録候補語に対応する確信度を表示装置上に表示すること、又は、前記登録候補語を前記確信度に従いソートして表示装置上に表示することをさらに含む、
    請求項1に記載のコンピュータ・システム。
  3. 前記確信度計算部が、外部辞書の情報を使用して前記確信度を計算する、請求項2に記載のコンピュータ・システム。
  4. 前記確信度計算部が、文字数又は文字種の情報を使用して前記確信度を計算する、請求項2に記載のコンピュータ・システム。
  5. 前記確信度計算部が、前記第1又は第2の正規表現に合致するトークン中の文字列が専門用語辞書の語彙として存在する場合に、該文字列が一般用語辞書の語彙として存在する場合よりも高いスコアを与える、請求項2に記載のコンピュータ・システム。
  6. 前記登録候補語として抽出された未カテゴリ語であって、前記ユーザによって選択された未カテゴリ語を前記カテゴリ辞書に登録する登録部
    をさらに含む、請求項1に記載のコンピュータ・システム。
  7. 前記登録部が、前記登録候補語として抽出されたトークン列であって、前記ユーザによって選択されなかったトークン列を、固有表現又は専門用語として辞書に登録したくないトークン列をリストした辞書であるトークン列リストに追加する、請求項に記載のコンピュータ・システム。
  8. 前記カテゴリ判別部が、前記トークン列データからのトークンが前記カテゴリ辞書に登録されている場合に、該トークンを抽出しない、請求項1に記載のコンピュータ・システム。
  9. 前記形態素解析部が、前記トークン列データの各トークンに対応する品詞情報をさらに取得し、
    前記カテゴリ判別部が、前記トークン列データからのトークン及び該トークンに対応する品詞情報が前記カテゴリ辞書に登録されているトークン及び該トークンに対応する品詞情報に合致する場合に、前記トークン列データからの前記トークンを抽出しない、請求項1に記載のコンピュータ・システム。
  10. 前記トークン列データからのトークン列が固有表現又は専門用語として辞書に登録したくないトークン列をリストした辞書であるトークン列リストに登録されている場合に、前記トークン列照合部が該トークン列を抽出しない、請求項1〜9のいずれか一項に記載のコンピュータ・システム。
  11. 前記形態素解析部が、前記トークン列データの各トークンに対応する品詞情報をさらに取得し、
    前記トークン列データからのトークン列及び該トークン列の各トークンに対応する品詞情報が固有表現又は専門用語として辞書に登録したくないトークン列をリストした辞書であるトークン列リストに登録されているトークン列及び該トークン列の各トークンに対応する品詞情報に合致する場合に、前記トークン列照合部が前記トークン列データからの前記トークン列を抽出しない、請求項1〜10のいずれか一項に記載のコンピュータ・システム。
  12. 前記形態素解析部が、前記トークン列データの各トークンに対応する品詞情報をさらに取得し、
    前記カテゴリ辞書が分類カテゴリ辞書及び対象外カテゴリ辞書を含み、
    前記分類カテゴリ辞書が、前記用語辞書に登録されるトークン含み、
    前記対象外カテゴリ辞書が、前記用語辞書に登録されないトークン含む、請求項1に記載のコンピュータ・システム。
  13. 前記分類カテゴリ辞書が、前記用語辞書に登録される前記トークンの品詞情報をさらに含み、
    前記対象外カテゴリ辞書が、前記用語辞書に登録されない前記トークンの品詞情報をさらに含む、請求項12に記載のコンピュータ・システム。
  14. 前記カテゴリ判別部が、前記トークン列データの各トークンを前記分類カテゴリ辞書を用いて判別し、
    前記許可部が、前記分類カテゴリ辞書に前記登録候補語を登録するかどうかの選択をユーザに許し、
    前記登録部が、前記登録候補語として抽出された未カテゴリ語であって、前記ユーザによって選択された未カテゴリ語を前記分類カテゴリ辞書に登録する、
    請求項13に記載のコンピュータ・システム。
  15. 前記登録部が、前記登録候補語として抽出されたトークンであって、前記ユーザによって選択されなかったトークンを前記対象外カテゴリ辞書に登録する、請求項12に記載のコンピュータ・システム。
  16. 前記カテゴリ判別部が、前記トークン列データからのトークン及び該トークンに対応する品詞情報が前記分類カテゴリ辞書に登録されているトークン及び該トークンに対応する品詞情報に合致する場合に、前記トークン列データからの前記トークンを抽出しない、請求項14に記載のコンピュータ・システム。
  17. 前記第1又は第2の文字列が、単語又は単語の一部である、請求項1に記載のコンピュータ・システム。
  18. テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成する方法であって、コンピュータ・システムが、
    前記テキスト・データの形態素解析を行い、トークン列データを取得するステップと、
    前記トークン列データの各トークンをカテゴリ辞書を用いて判別し、未カテゴリ語を抽出するステップと、
    抽出した未カテゴリ語を未カテゴリ語照合ルールと照合し、該未カテゴリ語照合ルールに合致する未カテゴリ語を登録候補語として抽出するステップであって、前記未カテゴリ語照合ルールは、前記合致する未カテゴリ語を抽出するための第1の文字列及び第1の正規表現からなるトークンを含む、前記抽出するステップと、
    前記トークン列データのトークン列をトークン列照合ルールと照合し、該トークン列照合ルールに合致するトークン列を登録候補語として抽出するステップであって、前記トークン列照合ルールが、前記合致するトークン列を抽出するための第2の文字列と第2の正規表現とを含むトークン列を含む、前記抽出するステップと、
    前記カテゴリ辞書に前記登録候補語を登録するかどうかの選択をユーザに許すステップと
    実行することを含む、前記方法。
  19. 前記コンピュータ・システムが、
    前記登録候補語の確信度を計算するステップであって、該確信度は、前記登録候補語が前記カテゴリ辞書に登録される可能性を示す、前記計算するステップ
    をさらに実行することをみ、
    前記許すステップが、前記確信度を前記登録候補語及び該登録候補語に対応する確信度を表示装置上に表示すること、又は、前記登録候補語を前記確信度に従いソートして表示装置上に表示することをさらに含む、請求項18に記載の方法。
  20. 前記コンピュータ・システムが、
    前記登録候補語として抽出された未カテゴリ語であって、前記ユーザによって選択された未カテゴリ語を前記カテゴリ辞書に登録するステップ
    をさらに実行することを含む、請求項18に記載の方法。
  21. 前記カテゴリ辞書が分類カテゴリ辞書及び対象外カテゴリ辞書を含み、
    前記未カテゴリ語を抽出するステップが、前記トークン列データの各トークンを前記分類カテゴリ辞書及び前記対象外カテゴリ辞書を用いて判別するステップを含み、前記分類カテゴリ辞書が、前記用語辞書に登録されるトークン含み、及び前記対象外カテゴリ辞書が、前記用語辞書に登録されないトークン含む、
    前記ユーザに許すステップが、
    前記登録候補語として抽出された未カテゴリ語であって、前記ユーザによって選択された未カテゴリ語を前記分類カテゴリ辞書に登録するステップ、
    前記登録候補語として抽出された未カテゴリ語であって、前記ユーザによって選択されなかった未カテゴリ語を前記対象外カテゴリ辞書に登録するステップ、又は
    前記登録候補語として抽出されたトークン列であって、前記ユーザによって選択されなかったトークン列を、固有表現又は専門用語として辞書に登録したくないトークン列をリストした辞書であるトークン列リストに追加するステップ、
    を含む、請求項18に記載の方法。
  22. 前記分類カテゴリ辞書が、前記用語辞書に登録されるトークンの品詞情報をさらに含み、及び
    前記対象外カテゴリ辞書が、前記用語辞書に登録されないトークンの品詞情報をさらに含む、
    請求項21に記載の方法。
  23. テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成する方法であって、コンピュータ・システムが、
    前記テキスト・データの形態素解析を行い、トークン列データ及び該トークン列データの各トークンに対応する品詞情報を取得するステップと、
    前記トークン列データの各トークンを分類カテゴリ辞書及び対象外カテゴリ辞書を用いて判別し、そして未カテゴリ語を抽出するステップであって、前記分類カテゴリ辞書が、前記用語辞書に登録されるトークン含み、前記対象外カテゴリ辞書が、前記用語辞書に登録されないトークン含む、前記抽出するステップと、
    抽出した未カテゴリ語を未カテゴリ語照合ルールと照合し、該未カテゴリ語照合ルールに合致する未カテゴリ語を登録候補語として抽出するステップであって、前記未カテゴリ語照合ルールは、前記合致する未カテゴリ語を抽出するための第1の文字列及び第1の正規表現からなるトークンを含む、前記抽出するステップと、
    前記トークン列データのトークン列をトークン列照合ルールと照合し、該トークン列照合ルールに合致するトークン列を登録候補語として抽出するステップであって、前記トークン列照合ルールが、前記合致するトークン列を抽出するための第2の文字列と第2の正規表現とを含むトークン列を含む、前記抽出するステップと、
    前記登録候補語の確信度を計算するステップであって、該確信度は、前記登録候補語が前記カテゴリ辞書に登録される可能性を示す、前記計算するステップと、
    前記分類カテゴリ辞書に前記登録候補語を登録するかどうかの選択をユーザに許すステップであって、前記確信度を前記登録候補語及び該登録候補語に対応する確信度を表示装置上に表示すること、又は、前記登録候補語を前記確信度に従いソートして表示装置上に表示することをさらに含み、前記対象外カテゴリ辞書が、テキスト・データから特定のカテゴリのトークンとして検索されないようにするために使用する該トークン含む、前記許すステップと、
    前記ユーザの選択に応じて、
    前記登録候補語として抽出された未カテゴリ語であって、前記ユーザによって選択された未カテゴリ語を前記分類カテゴリ辞書に登録し、
    前記登録候補語として抽出された未カテゴリ語であって、前記ユーザによって選択されなかった未カテゴリ語を前記対象外カテゴリ辞書に登録し、又は
    前記登録候補語として抽出されたトークン列であって、前記ユーザによって選択されなかったトークン列を、固有表現又は専門用語として辞書に登録したくないトークン列をリストした辞書であるトークン列リストに追加するステップと
    実行することを含む、前記方法。
  24. 前記分類カテゴリ辞書が、前記用語辞書に登録される前記トークンの品詞情報をさらに含み、
    前記対象外カテゴリ辞書が、前記用語辞書に登録されない前記トークンの品詞情報をさらに含み、及び
    前記対象外カテゴリ辞書が、テキスト・データから特定のカテゴリのトークンとして検索されないようにするために使用する前記トークンの品詞情報をさらに含む、請求項23に記載の方法。
  25. テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・プログラムであって、コンピュータ・システムに、請求項18〜24のいずれか一項に記載の方法の各ステップを実行させる、前記コンピュータ・プログラム。
JP2009000192A 2009-01-05 2009-01-05 テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム Expired - Fee Related JP4701292B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2009000192A JP4701292B2 (ja) 2009-01-05 2009-01-05 テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
US12/651,509 US8538745B2 (en) 2009-01-05 2010-01-04 Creating a terms dictionary with named entities or terminologies included in text data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009000192A JP4701292B2 (ja) 2009-01-05 2009-01-05 テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム

Publications (2)

Publication Number Publication Date
JP2010157178A JP2010157178A (ja) 2010-07-15
JP4701292B2 true JP4701292B2 (ja) 2011-06-15

Family

ID=42312264

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009000192A Expired - Fee Related JP4701292B2 (ja) 2009-01-05 2009-01-05 テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム

Country Status (2)

Country Link
US (1) US8538745B2 (ja)
JP (1) JP4701292B2 (ja)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8656039B2 (en) 2003-12-10 2014-02-18 Mcafee, Inc. Rule parser
US8548170B2 (en) 2003-12-10 2013-10-01 Mcafee, Inc. Document de-registration
US7984175B2 (en) 2003-12-10 2011-07-19 Mcafee, Inc. Method and apparatus for data capture and analysis system
US7962591B2 (en) * 2004-06-23 2011-06-14 Mcafee, Inc. Object classification in a capture system
US8560534B2 (en) 2004-08-23 2013-10-15 Mcafee, Inc. Database for a capture system
US7949849B2 (en) 2004-08-24 2011-05-24 Mcafee, Inc. File system for a capture system
US7907608B2 (en) 2005-08-12 2011-03-15 Mcafee, Inc. High speed packet capture
US7818326B2 (en) 2005-08-31 2010-10-19 Mcafee, Inc. System and method for word indexing in a capture system and querying thereof
US7730011B1 (en) 2005-10-19 2010-06-01 Mcafee, Inc. Attributes of captured objects in a capture system
US8504537B2 (en) 2006-03-24 2013-08-06 Mcafee, Inc. Signature distribution in a document registration system
US7958227B2 (en) 2006-05-22 2011-06-07 Mcafee, Inc. Attributes of captured objects in a capture system
US8205242B2 (en) 2008-07-10 2012-06-19 Mcafee, Inc. System and method for data mining and security policy management
US9253154B2 (en) 2008-08-12 2016-02-02 Mcafee, Inc. Configuration management for a capture/registration system
US8850591B2 (en) 2009-01-13 2014-09-30 Mcafee, Inc. System and method for concept building
US8706709B2 (en) 2009-01-15 2014-04-22 Mcafee, Inc. System and method for intelligent term grouping
US8473442B1 (en) 2009-02-25 2013-06-25 Mcafee, Inc. System and method for intelligent state management
US8447722B1 (en) 2009-03-25 2013-05-21 Mcafee, Inc. System and method for data mining and security policy management
US8667121B2 (en) 2009-03-25 2014-03-04 Mcafee, Inc. System and method for managing data and policies
CN102411563B (zh) * 2010-09-26 2015-06-17 阿里巴巴集团控股有限公司 一种识别目标词的方法、装置及系统
US8806615B2 (en) * 2010-11-04 2014-08-12 Mcafee, Inc. System and method for protecting specified data combinations
US20130246336A1 (en) 2011-12-27 2013-09-19 Mcafee, Inc. System and method for providing data protection workflows in a network environment
US8880989B2 (en) 2012-01-30 2014-11-04 Microsoft Corporation Educating users and enforcing data dissemination policies
US9087039B2 (en) 2012-02-07 2015-07-21 Microsoft Technology Licensing, Llc Language independent probabilistic content matching
GB201216640D0 (en) * 2012-09-18 2012-10-31 Touchtype Ltd Formatting module, system and method for formatting an electronic character sequence
US20150088493A1 (en) * 2013-09-20 2015-03-26 Amazon Technologies, Inc. Providing descriptive information associated with objects
KR101509727B1 (ko) * 2013-10-02 2015-04-07 주식회사 시스트란인터내셔널 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법
US9542456B1 (en) * 2013-12-31 2017-01-10 Emc Corporation Automated name standardization for big data
US9196244B2 (en) * 2014-01-08 2015-11-24 Nuance Communications, Inc. Methodology for enhanced voice search experience
US9880997B2 (en) * 2014-07-23 2018-01-30 Accenture Global Services Limited Inferring type classifications from natural language text
US10110533B2 (en) * 2014-10-28 2018-10-23 Salesforce.Com, Inc. Identifying entities in email signature blocks
KR20160056983A (ko) * 2014-11-12 2016-05-23 한국전자통신연구원 미등록어 자동 추출에 기반한 형태소 사전 구축 시스템 및 방법
CN107203542A (zh) * 2016-03-17 2017-09-26 阿里巴巴集团控股有限公司 词组提取方法及装置
JP6722483B2 (ja) * 2016-03-23 2020-07-15 クラリオン株式会社 サーバ装置、情報システム、車載装置
US10628522B2 (en) * 2016-06-27 2020-04-21 International Business Machines Corporation Creating rules and dictionaries in a cyclical pattern matching process
CN108763225A (zh) * 2016-06-28 2018-11-06 大连民族大学 属性信息多语机器翻译子系统的翻译方法
US11003655B2 (en) 2016-09-22 2021-05-11 Hartford Fire Insurance Company System for uploading information into a metadata repository
US11023679B2 (en) * 2017-02-27 2021-06-01 Medidata Solutions, Inc. Apparatus and method for automatically mapping verbatim narratives to terms in a terminology dictionary
US10896222B1 (en) * 2017-06-28 2021-01-19 Amazon Technologies, Inc. Subject-specific data set for named entity resolution
FR3077656A1 (fr) * 2018-02-07 2019-08-09 Christophe Leveque Procede de transformation d’une sequence pour la rendre executable par une machine
US11030402B2 (en) 2019-05-03 2021-06-08 International Business Machines Corporation Dictionary expansion using neural language models
CN111222323B (zh) * 2019-12-30 2024-05-03 深圳市优必选科技股份有限公司 一种词槽抽取方法、词槽抽取装置及电子设备
CN111143569B (zh) * 2019-12-31 2023-05-02 腾讯科技(深圳)有限公司 一种数据处理方法、装置及计算机可读存储介质
CN112347765B (zh) * 2020-10-10 2022-06-07 清华大学 基于词典匹配的实体标注方法、模块及装置
JP7481999B2 (ja) 2020-11-05 2024-05-13 株式会社東芝 辞書編集装置、辞書編集方法及び辞書編集プログラム
JP7467314B2 (ja) * 2020-11-05 2024-04-15 株式会社東芝 辞書編集装置、辞書編集方法、及びプログラム
CN112632969B (zh) * 2020-12-13 2022-06-21 复旦大学 一种增量式行业词典更新方法和系统
CN114090722B (zh) * 2022-01-19 2022-04-22 支付宝(杭州)信息技术有限公司 查询内容自动补全的方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008003656A (ja) * 2006-06-20 2008-01-10 Omron Corp 概念辞書生成装置、文書分類装置、概念辞書生成方法および文書分類方法
JP2008198132A (ja) * 2007-02-15 2008-08-28 Fujitsu Ltd 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3748322B2 (ja) * 1997-10-29 2006-02-22 富士通株式会社 単語登録装置及び記録媒体
KR100481580B1 (ko) * 2002-10-09 2005-04-08 한국전자통신연구원 문서에서 이벤트 문장을 추출하는 장치 및 그 방법
JP2004341791A (ja) 2003-05-15 2004-12-02 Nec Corp 辞書登録支援装置および方法ならびにプログラム
GB2424977A (en) * 2003-12-31 2006-10-11 Agency Science Tech & Res System For Recognising And Classifying Named Entities
JP2004265440A (ja) 2004-04-28 2004-09-24 A I Soft Inc 未知語登録装置および方法並びに記録媒体
US20060047500A1 (en) * 2004-08-31 2006-03-02 Microsoft Corporation Named entity recognition using compiler methods
JP4148247B2 (ja) 2005-07-01 2008-09-10 日本電信電話株式会社 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
US7672833B2 (en) * 2005-09-22 2010-03-02 Fair Isaac Corporation Method and apparatus for automatic entity disambiguation
US7822701B2 (en) * 2006-06-30 2010-10-26 Battelle Memorial Institute Lexicon generation methods, lexicon generation devices, and lexicon generation articles of manufacture
US8812296B2 (en) * 2007-06-27 2014-08-19 Abbyy Infopoisk Llc Method and system for natural language dictionary generation
US8510097B2 (en) * 2008-12-18 2013-08-13 Palo Alto Research Center Incorporated Region-matching transducers for text-characterization

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008003656A (ja) * 2006-06-20 2008-01-10 Omron Corp 概念辞書生成装置、文書分類装置、概念辞書生成方法および文書分類方法
JP2008198132A (ja) * 2007-02-15 2008-08-28 Fujitsu Ltd 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置

Also Published As

Publication number Publication date
JP2010157178A (ja) 2010-07-15
US8538745B2 (en) 2013-09-17
US20100174528A1 (en) 2010-07-08

Similar Documents

Publication Publication Date Title
JP4701292B2 (ja) テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
Amjad et al. “Bend the truth”: Benchmark dataset for fake news detection in Urdu language and its evaluation
KR102020756B1 (ko) 머신러닝을 이용한 리뷰 분석 방법
Stamatatos A survey of modern authorship attribution methods
US20210350080A1 (en) Systems and methods for deviation detection, information extraction and obligation deviation detection
JP5321583B2 (ja) 共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法及びプログラム
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
EP1941399A2 (en) Method and apparatus for automatic entity disambiguation
Azmi et al. Real-word errors in Arabic texts: A better algorithm for detection and correction
Atia et al. Increasing the accuracy of opinion mining in Arabic
US20090112845A1 (en) System and method for language sensitive contextual searching
Yalcin et al. An external plagiarism detection system based on part-of-speech (POS) tag n-grams and word embedding
WO2011072172A1 (en) System and method for quickly determining a subset of irrelevant data from large data content
Perevalov et al. Augmentation-based Answer Type Classification of the SMART dataset.
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
Ceballos Delgado et al. Deception detection using machine learning
Alqahtani et al. Survey of authorship identification tasks on Arabic texts
Salah et al. Arabic rule-based named entity recognition systems progress and challenges
Mekki et al. Tokenization of Tunisian Arabic: a comparison between three Machine Learning models
Onyenwe et al. Toward an effective igbo part-of-speech tagger
Grover et al. Adapting a relation extraction pipeline for the BioCreAtIvE II task
Demilie et al. Automated all in one misspelling detection and correction system for Ethiopian languages
CN106250354B (zh) 处理文书的信息处理装置、信息处理方法以及程序
Chou et al. On the Construction of Web NER Model Training Tool based on Distant Supervision
Sawalha et al. Linguistically informed and corpus informed morphological analysis of Arabic

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110120

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110125

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110125

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110217

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110217

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20110217

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110307

LAPS Cancellation because of no payment of annual fees