JP4701292B2 - テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム - Google Patents
テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム Download PDFInfo
- Publication number
- JP4701292B2 JP4701292B2 JP2009000192A JP2009000192A JP4701292B2 JP 4701292 B2 JP4701292 B2 JP 4701292B2 JP 2009000192 A JP2009000192 A JP 2009000192A JP 2009000192 A JP2009000192 A JP 2009000192A JP 4701292 B2 JP4701292 B2 JP 4701292B2
- Authority
- JP
- Japan
- Prior art keywords
- token
- dictionary
- word
- string
- registered
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
上記テキスト・データの形態素解析を行い、トークン列データを取得する形態素解析部と、
上記トークン列データの各トークンをカテゴリ辞書を用いて判別し、未カテゴリ語を抽出するカテゴリ判別部と、
抽出した未カテゴリ語を未カテゴリ語照合ルールと照合し、該未カテゴリ語照合ルールに合致する未カテゴリ語を登録候補語として抽出する未カテゴリ語照合部であって、上記未カテゴリ語照合ルールは、上記合致する未カテゴリ語を抽出するための第1の文字列及び第1の正規表現からなるトークンを含む、上記未カテゴリ照合部と、
上記トークン列データのトークン列をトークン列照合ルールと照合し、該トークン列照合ルールに合致するトークン列を登録候補語として抽出するトークン列照合部であって、上記トークン列照合ルールが、上記合致するトークン列を抽出するための第2の文字列と第2の正規表現とを含むトークン列を含む、上記トークン列照合部と、
上記カテゴリ辞書に上記登録候補語を登録するかどうかの選択をユーザに許す許可部と
を含む。
上記ユーザによって選択された登録候補語が用語辞書に登録される。代替的には、上記カテゴリ辞書のうちの、上記ユーザによって選択された登録候補語が用語辞書に登録される。
上記登録候補語の確信度を計算する確信度計算部であって、該確信度は、上記登録候補語が上記カテゴリ辞書に登録される又は上記トークン列照合ルールに追加される可能性を示す、上記確信度計算部
をさらに含む。
をさらに含む。
上記カテゴリ判別部が、上記トークン列データからのトークン及び該トークンに対応する品詞情報が上記カテゴリ辞書に登録されているトークン及び該トークンに対応する品詞情報に合致する場合に、上記トークン列データからの上記トークンを抽出しない。
上記トークン列照合部が、上記トークン列データからのトークン列及び該トークン列の各トークンに対応する品詞情報が上記トークン列リストに登録されているトークン列及び該トークン列の各トークンに対応する品詞情報に合致する場合に、上記トークン列データからの上記トークン列を抽出しない。
上記カテゴリ辞書が分類カテゴリ辞書及び対象外カテゴリ辞書を含み、
上記分類カテゴリ辞書が、テキスト・データから特定のカテゴリのトークンを検索するために使用する該トークン及び任意的に該トークンの品詞情報を含み、
上記対象外カテゴリ辞書が、テキスト・データから特定のカテゴリのトークンとして検索されないようにするために使用する該トークン及び任意的に該トークンの品詞情報を含む。
上記許可部が、上記分類カテゴリ辞書に上記登録候補語を登録するかどうかの選択をユーザに許し、
上記登録部が、上記登録候補語として抽出された未カテゴリ語であって、上記ユーザによって選択された未カテゴリ語を上記分類カテゴリ辞書に登録する。
上記テキスト・データの形態素解析を行い、トークン列データを取得するステップと、
上記トークン列データの各トークンをカテゴリ辞書を用いて判別し、未カテゴリ語を抽出するステップと、
抽出した未カテゴリ語を未カテゴリ語照合ルールと照合し、該未カテゴリ語照合ルールに合致する未カテゴリ語を登録候補語として抽出するステップであって、上記未カテゴリ語照合ルールは、上記合致する未カテゴリ語を抽出するための第1の文字列及び第1の正規表現からなるトークンを含む、上記抽出するステップと、
上記トークン列データのトークン列をトークン列照合ルールと照合し、該トークン列照合ルールに合致するトークン列を登録候補語として抽出するステップであって、上記トークン列照合ルールが、上記合致するトークン列を抽出するための第2の文字列と第2の正規表現とを含むトークン列を含む、上記抽出するステップと、
上記カテゴリ辞書に上記登録候補語を登録するかどうかの選択をユーザに許すステップと
を含む。
上記ユーザによって選択された登録候補語が用語辞書に登録される。代替的には、上記カテゴリ辞書のうちの、上記ユーザによって選択された登録候補語が用語辞書に登録される。
本発明の1つの実施形態では、上記許すステップが、上記分類カテゴリ辞書に上記登録候補語を登録するかどうかの選択をユーザに許すステップを含む。
本発明の1つの実施形態では、上記登録するステップが、上記登録候補語として抽出された未カテゴリ語であって、上記ユーザによって選択された未カテゴリ語を上記分類カテゴリ辞書に登録するステップを含む。
上記ユーザに許すステップが、
上記登録候補語として抽出された未カテゴリ語であって、上記ユーザによって選択された未カテゴリ語を上記分類カテゴリ辞書に登録するステップ、
上記登録候補語として抽出された未カテゴリ語であって、上記ユーザによって選択されなかった未カテゴリ語を上記対象外カテゴリ辞書に登録するステップ、又は
上記登録候補語として抽出されたトークン列であって、上記ユーザによって選択されなかったトークン列を上記トークン列リストに追加するステップ、
を含む。
上記テキスト・データの形態素解析を行い、トークン列データ及び該トークン列データの各トークンに対応する品詞情報を取得するステップと、
上記トークン列データの各トークンを分類カテゴリ辞書及び対象外カテゴリ辞書を用いて判別し、そして未カテゴリ語を抽出するステップであって、上記分類カテゴリ辞書が、テキスト・データから特定のカテゴリのトークンを検索するために使用する該トークン及び任意的に該トークンの品詞情報を含み、上記対象外カテゴリ辞書が、テキスト・データから特定のカテゴリのトークンとして検索されないようにするために使用する該トークン及び任意的に該トークンの品詞情報を含む、上記抽出するステップと、
抽出した未カテゴリ語を未カテゴリ語照合ルールと照合し、該未カテゴリ語照合ルールに合致する未カテゴリ語を登録候補語として抽出するステップであって、上記未カテゴリ語照合ルールは、上記合致する未カテゴリ語を抽出するための第1の文字列及び第1の正規表現からなるトークンを含む、上記抽出するステップと、
上記トークン列データのトークン列をトークン列照合ルールと照合し、該トークン列照合ルールに合致するトークン列を登録候補語として抽出するステップであって、上記トークン列照合ルールが、上記合致するトークン列を抽出するための第2の文字列と第2の正規表現とを含むトークン列を含む、上記抽出するステップと、
上記登録候補語の確信度を計算するステップであって、該確信度は、上記登録候補語が上記カテゴリ辞書に登録し又は上記トークン列照合ルールに追加する可能性を示す、上記計算するステップと、
上記分類カテゴリ辞書に上記登録候補語を登録するかどうかの選択をユーザに許すステップであって、上記対象外カテゴリ辞書が、テキスト・データから特定のカテゴリのトークンとして検索されないようにするために使用する該トークン及び任意的に該トークンの品詞情報を含む、上記許すステップと、
上記ユーザの選択に応じて、
上記登録候補語として抽出された未カテゴリ語であって、上記ユーザによって選択された未カテゴリ語を上記分類カテゴリ辞書に登録し、
上記登録候補語として抽出された未カテゴリ語であって、上記ユーザによって選択されなかった未カテゴリ語を上記対象外カテゴリ辞書に登録し、又は
上記登録候補語として抽出されたトークン列であって、上記ユーザによって選択されなかったトークン列を上記トークン列リストに追加するステップと
を含む。
上記分類カテゴリ辞書に登録された登録候補語が、上記用語辞書に登録される。代替的には、上記登録候補語として抽出された未カテゴリ語であって、上記ユーザによって選択された未カテゴリ語が用語辞書に登録される。
例1:4月1日顔面麻痺で来院
例2:4月1日拇指麻痺で来院
例3:診察の結果麻痺で来院
例4:再度麻痺で来院
・品詞情報を含まない場合
例1:4月1日/顔面/麻痺/で/来院
例2:4月1日/拇指麻痺/で/来院
例3:診察/の/結果/麻痺/で/来院
例4:再度/麻痺/で/来院
・品詞情報を含む場合
例1:4月1日(日付)/顔面(名詞)/麻痺(名詞)/で(助詞)/来院(名詞)
例2:4月1日(日付)/拇指麻痺(未知語)/で(助詞)/来院(名詞)
例3:診察(名詞)/の(助詞)/結果(名詞)/麻痺(名詞)/で(助詞)/来院(名詞)
例4:再度(副詞)/麻痺(名詞)/で(助詞)/来院(名詞)
例1:4月1日/顔面/で/来院
例2:4月1日/拇指麻痺/で/来院
例3:診察/の/結果/で/来院
例4:再度/で/来院
・[あ-ん]*麻痺
[あ-ん]*麻痺は、1つの正規表現と1つの文字列からなる未カテゴリ語照合ルールである。
該未カテゴリ語照合ルールでは、0文字以上の平仮名に「麻痺」が続くトークンが合致する。「 [○-△] 」は、文字コードが○から△の間にある任意の一文字を表す。「*」は、前の文字の0文字以上の連続を表す。
・合致する例: 「がんめん麻痺」、「麻痺」、「りょううで麻痺」
・合致しない例: 「顔面麻痺」、「ベル麻痺」、「がんめん」
・*麻痺
*麻痺は、1つの正規表現(この例ではアスタリスクである)と1つの文字列とからなる未カテゴリ語照合ルールである。アスタリスクは、任意の文字列であることを意味する。
・合致する例: 「母趾麻痺」、「顔面麻痺」
・合致しない例: 「母趾マヒ」、「顔面まひ」
・*マヒ
*麻痺は、1つの正規表現(この例ではアスタリスクである)と1つの文字列とからなる未カテゴリ語照合ルールである。
・合致する例: 「母趾マヒ」
・合致しない例: 「母趾麻痺」、「顔面麻痺」、「顔面まひ」
・[ア-ン|ー]++[0-9]{1,3}+mg
[ア-ン|ー]++[0-9]{1,3}+mgは、複数の正規表現と複数の文字列とからなる未カテゴリ語照合ルールである。
該未カテゴリ語照合ルールでは、1文字以上の長音記号を含むカタカナ文字列に続き、1文字以上3文字以下の数字が出現し、最後に「mg」が出現する文字列が合致する。「 | 」は、「または」の意味である。「 ++ 」は、前の文字の1文字以上の連続を表す。「 {1,3}+ 」は、前の文字の1〜3回の連続を表す。
・合致する例: 「グルコース120mg」、「アスピリン500mg」
・合致しない例: 「100mg」、「アスピリンmg」、「ブドウ糖120mg」
例1:該当なし
例2:拇指麻痺
例3:該当なし
例4:該当なし
上記例では、「拇指麻痺」が、登録候補語(1700)である。
・[あ-ん] +麻痺
[あ-ん] +麻痺は、1つの正規表現のトークンと1つの文字列のトークンとを含むトークン列からなるトークン列照合ルールである。該未カテゴリ語照合ルールでは、0文字以上の平仮名と「麻痺」とを含むトークン列が合致する。「+」は、前のトークンと後のトークンとの接続を表す。
・合致する例: 「がんめん麻痺」、「りょううで麻痺」
・合致しない例: 「顔面麻痺」、「ベル麻痺」、「がんめん」
・(名詞)+麻痺
(名詞)+麻痺は、トークン(名詞)とトークン(麻痺)とを含むトークン列からなるトークン列照合ルールである。(名詞)は、名詞という品詞を示す。
・品詞情報を含まない場合
例1:顔面/麻痺
例2:該当なし
例3:結果/麻痺
例4:該当なし
・品詞情報を含む場合
例1:顔面(名詞)/麻痺
例2:該当なし
例3:結果(名詞)/麻痺
例4:該当なし
未カテゴリ語照合部(300)からの結果
例2:拇指麻痺
トークン列照合部(400)からの結果
例1:顔面/麻痺 または、顔面(名詞)/麻痺
例3:結果/麻痺 または、結果(名詞)/麻痺
専門用語辞書は、例えば、体の部位を示す語を含む。例えば、体の部位を示す用語である、声帯、拇指、顔面、四肢などである。
例A:「記号+麻痺」であれば、確信度スコアを下げる(例:#麻痺)
例B:「ひらがな1文字+麻痺」であれば、確信度スコアを下げる(例:て麻痺)
例C:「数字+麻痺」であれば、確信度スコアを下げる(例:31麻痺)
例:一般名詞+「麻痺」
一般語辞書を用いて、一般名詞+「麻痺」の形式の登録候補語にも確信度を加算することで、スペースの混入、又は誤字若しくは脱字により未カテゴリ語となったノイズ・トークンを区別することができる。
1.手足麻痺の語彙取得における「*麻痺」のケースでは、一般解剖学の用語辞書などの体の部位を表す用語、例えば{腕、足、頭、心臓、…}を含む辞書を用いることで、体の部位+「麻痺」の形式の登録候補語の確信度を上げることが可能である。例えば、重み付けとして、確信度のスコアを一定数加算する。
・登録候補語をカテゴリ辞書(1200)に登録する場合、すなわちユーザの選択が登録候補語を分類カテゴリ「手足麻痺」に登録することを選択した場合、登録フラグfにYESを与える。
該リストは、少なくとも登録候補語、及び分類判定選択のためのインターフェースを含む。該リストはまた、任意に、登録候補語の分類若しくは確信度、又はそれらの組み合わせを含む。確信度とともに登録候補語が表示される場合、確信度付き登録候補語(1900)ともいう。確信度付き登録候補語(1900)は、各登録候補語(1700)に付与された確信度以外に、確信度の根拠となった情報を含んでもよい。確信度の根拠になった情報は、例えば、登録候補語の分類、登録候補語がトークン列又は未カテゴリ語のいずれであるかである。
・*paralysis (注記 日本語訳「*麻痺」)
*paralysisは、1つの正規表現(この例ではアスタリスクである)と1つの文字列とからなる未カテゴリ語照合ルールである。アスタリスクは、任意の文字列であることを意味する。
・合致する例: 「angioparalysis」、「crystoparalysis」
・合致しない例: 「paralyzed」
・*plegic* (日本語訳「*麻痺の*」)
・合致する例: 「quadriplegic handicap」
・合致しない例: 「quadriplegia」
・[a〜z]+paralysis
[a〜z]+麻痺は、1つの正規表現と1つの文字列とを含むトークン列からなるトークン列照合ルールである。「+」は、前のトークンと後のトークンとの接続を表す。
・合致する例: 「internus paralysis」、「anticus paralysis」、「facial paralysis」
・合致しない例: 「quadriplegic handicap」
初回の辞書登録処理において、「拇指麻痺」、「両腕麻痺」又は「顔面麻痺」を含むテキスト・データ(複数文書の文書でありうる)が形態素解析部(100)に投入された。形態素解析部(100)の形態素解析エンジンは、「拇指麻痺」、「両腕麻痺」及び「顔面麻痺」をトークン又はトークン列として切り出し、トークン列データ(1100)を出力する。
2回目の登録処理で、「拇指麻痺」、「両腕麻痺」、「顔面麻痺」又は「神経麻痺」を含むテキスト・データ(複数文書の文書でありうる)が形態素解析部(100)に投入された。形態素解析部(100)の形態素解析エンジンは、「拇指麻痺」(トークン)、「両腕麻痺」(トークン)、「顔面麻痺」(トークン)及び「神経麻痺」(トークン又はトークン列)をトークン又はトークン列として切り出し、トークン列データ(1100)を出力する。
Claims (25)
- テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システムであって、
前記テキスト・データの形態素解析を行い、トークン列データを取得する形態素解析部と、
前記トークン列データの各トークンをカテゴリ辞書を用いて判別し、未カテゴリ語を抽出するカテゴリ判別部と、
抽出した未カテゴリ語を未カテゴリ語照合ルールと照合し、該未カテゴリ語照合ルールに合致する未カテゴリ語を登録候補語として抽出する未カテゴリ語照合部であって、前記未カテゴリ語照合ルールは、前記合致する未カテゴリ語を抽出するための第1の文字列及び第1の正規表現からなるトークンを含む、前記未カテゴリ照合部と、
前記トークン列データのトークン列をトークン列照合ルールと照合し、該トークン列照合ルールに合致するトークン列を登録候補語として抽出するトークン列照合部であって、前記トークン列照合ルールが、前記合致するトークン列を抽出するための第2の文字列と第2の正規表現とを含むトークン列を含む、前記トークン列照合部と、
前記カテゴリ辞書に前記登録候補語を登録するかどうかの選択をユーザに許す許可部と
を含む、前記コンピュータ・システム。 - 前記登録候補語の確信度を計算する確信度計算部であって、該確信度は、前記登録候補語が前記カテゴリ辞書に登録される可能性を示す、前記確信度計算部と、
をさらに含み、
前記許可部が、前記確信度を前記登録候補語及び該登録候補語に対応する確信度を表示装置上に表示すること、又は、前記登録候補語を前記確信度に従いソートして表示装置上に表示することをさらに含む、
請求項1に記載のコンピュータ・システム。 - 前記確信度計算部が、外部辞書の情報を使用して前記確信度を計算する、請求項2に記載のコンピュータ・システム。
- 前記確信度計算部が、文字数又は文字種の情報を使用して前記確信度を計算する、請求項2に記載のコンピュータ・システム。
- 前記確信度計算部が、前記第1又は第2の正規表現に合致するトークン中の文字列が専門用語辞書の語彙として存在する場合に、該文字列が一般用語辞書の語彙として存在する場合よりも高いスコアを与える、請求項2に記載のコンピュータ・システム。
- 前記登録候補語として抽出された未カテゴリ語であって、前記ユーザによって選択された未カテゴリ語を前記カテゴリ辞書に登録する登録部
をさらに含む、請求項1に記載のコンピュータ・システム。 - 前記登録部が、前記登録候補語として抽出されたトークン列であって、前記ユーザによって選択されなかったトークン列を、固有表現又は専門用語として辞書に登録したくないトークン列をリストした辞書であるトークン列リストに追加する、請求項6に記載のコンピュータ・システム。
- 前記カテゴリ判別部が、前記トークン列データからのトークンが前記カテゴリ辞書に登録されている場合に、該トークンを抽出しない、請求項1に記載のコンピュータ・システム。
- 前記形態素解析部が、前記トークン列データの各トークンに対応する品詞情報をさらに取得し、
前記カテゴリ判別部が、前記トークン列データからのトークン及び該トークンに対応する品詞情報が前記カテゴリ辞書に登録されているトークン及び該トークンに対応する品詞情報に合致する場合に、前記トークン列データからの前記トークンを抽出しない、請求項1に記載のコンピュータ・システム。 - 前記トークン列データからのトークン列が固有表現又は専門用語として辞書に登録したくないトークン列をリストした辞書であるトークン列リストに登録されている場合に、前記トークン列照合部が該トークン列を抽出しない、請求項1〜9のいずれか一項に記載のコンピュータ・システム。
- 前記形態素解析部が、前記トークン列データの各トークンに対応する品詞情報をさらに取得し、
前記トークン列データからのトークン列及び該トークン列の各トークンに対応する品詞情報が固有表現又は専門用語として辞書に登録したくないトークン列をリストした辞書であるトークン列リストに登録されているトークン列及び該トークン列の各トークンに対応する品詞情報に合致する場合に、前記トークン列照合部が前記トークン列データからの前記トークン列を抽出しない、請求項1〜10のいずれか一項に記載のコンピュータ・システム。 - 前記形態素解析部が、前記トークン列データの各トークンに対応する品詞情報をさらに取得し、
前記カテゴリ辞書が分類カテゴリ辞書及び対象外カテゴリ辞書を含み、
前記分類カテゴリ辞書が、前記用語辞書に登録されるトークンを含み、
前記対象外カテゴリ辞書が、前記用語辞書に登録されないトークンを含む、請求項1に記載のコンピュータ・システム。 - 前記分類カテゴリ辞書が、前記用語辞書に登録される前記トークンの品詞情報をさらに含み、
前記対象外カテゴリ辞書が、前記用語辞書に登録されない前記トークンの品詞情報をさらに含む、請求項12に記載のコンピュータ・システム。 - 前記カテゴリ判別部が、前記トークン列データの各トークンを前記分類カテゴリ辞書を用いて判別し、
前記許可部が、前記分類カテゴリ辞書に前記登録候補語を登録するかどうかの選択をユーザに許し、
前記登録部が、前記登録候補語として抽出された未カテゴリ語であって、前記ユーザによって選択された未カテゴリ語を前記分類カテゴリ辞書に登録する、
請求項13に記載のコンピュータ・システム。 - 前記登録部が、前記登録候補語として抽出されたトークンであって、前記ユーザによって選択されなかったトークンを前記対象外カテゴリ辞書に登録する、請求項12に記載のコンピュータ・システム。
- 前記カテゴリ判別部が、前記トークン列データからのトークン及び該トークンに対応する品詞情報が前記分類カテゴリ辞書に登録されているトークン及び該トークンに対応する品詞情報に合致する場合に、前記トークン列データからの前記トークンを抽出しない、請求項14に記載のコンピュータ・システム。
- 前記第1又は第2の文字列が、単語又は単語の一部である、請求項1に記載のコンピュータ・システム。
- テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成する方法であって、コンピュータ・システムが、
前記テキスト・データの形態素解析を行い、トークン列データを取得するステップと、
前記トークン列データの各トークンをカテゴリ辞書を用いて判別し、未カテゴリ語を抽出するステップと、
抽出した未カテゴリ語を未カテゴリ語照合ルールと照合し、該未カテゴリ語照合ルールに合致する未カテゴリ語を登録候補語として抽出するステップであって、前記未カテゴリ語照合ルールは、前記合致する未カテゴリ語を抽出するための第1の文字列及び第1の正規表現からなるトークンを含む、前記抽出するステップと、
前記トークン列データのトークン列をトークン列照合ルールと照合し、該トークン列照合ルールに合致するトークン列を登録候補語として抽出するステップであって、前記トークン列照合ルールが、前記合致するトークン列を抽出するための第2の文字列と第2の正規表現とを含むトークン列を含む、前記抽出するステップと、
前記カテゴリ辞書に前記登録候補語を登録するかどうかの選択をユーザに許すステップと
を実行することを含む、前記方法。 - 前記コンピュータ・システムが、
前記登録候補語の確信度を計算するステップであって、該確信度は、前記登録候補語が前記カテゴリ辞書に登録される可能性を示す、前記計算するステップ
をさらに実行することを含み、
前記許すステップが、前記確信度を前記登録候補語及び該登録候補語に対応する確信度を表示装置上に表示すること、又は、前記登録候補語を前記確信度に従いソートして表示装置上に表示することをさらに含む、請求項18に記載の方法。 - 前記コンピュータ・システムが、
前記登録候補語として抽出された未カテゴリ語であって、前記ユーザによって選択された未カテゴリ語を前記カテゴリ辞書に登録するステップ
をさらに実行することを含む、請求項18に記載の方法。 - 前記カテゴリ辞書が分類カテゴリ辞書及び対象外カテゴリ辞書を含み、
前記未カテゴリ語を抽出するステップが、前記トークン列データの各トークンを前記分類カテゴリ辞書及び前記対象外カテゴリ辞書を用いて判別するステップを含み、前記分類カテゴリ辞書が、前記用語辞書に登録されるトークンを含み、及び前記対象外カテゴリ辞書が、前記用語辞書に登録されないトークンを含む、
前記ユーザに許すステップが、
前記登録候補語として抽出された未カテゴリ語であって、前記ユーザによって選択された未カテゴリ語を前記分類カテゴリ辞書に登録するステップ、
前記登録候補語として抽出された未カテゴリ語であって、前記ユーザによって選択されなかった未カテゴリ語を前記対象外カテゴリ辞書に登録するステップ、又は
前記登録候補語として抽出されたトークン列であって、前記ユーザによって選択されなかったトークン列を、固有表現又は専門用語として辞書に登録したくないトークン列をリストした辞書であるトークン列リストに追加するステップ、
を含む、請求項18に記載の方法。 - 前記分類カテゴリ辞書が、前記用語辞書に登録されるトークンの品詞情報をさらに含み、及び
前記対象外カテゴリ辞書が、前記用語辞書に登録されないトークンの品詞情報をさらに含む、
請求項21に記載の方法。 - テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成する方法であって、コンピュータ・システムが、
前記テキスト・データの形態素解析を行い、トークン列データ及び該トークン列データの各トークンに対応する品詞情報を取得するステップと、
前記トークン列データの各トークンを分類カテゴリ辞書及び対象外カテゴリ辞書を用いて判別し、そして未カテゴリ語を抽出するステップであって、前記分類カテゴリ辞書が、前記用語辞書に登録されるトークンを含み、前記対象外カテゴリ辞書が、前記用語辞書に登録されないトークンを含む、前記抽出するステップと、
抽出した未カテゴリ語を未カテゴリ語照合ルールと照合し、該未カテゴリ語照合ルールに合致する未カテゴリ語を登録候補語として抽出するステップであって、前記未カテゴリ語照合ルールは、前記合致する未カテゴリ語を抽出するための第1の文字列及び第1の正規表現からなるトークンを含む、前記抽出するステップと、
前記トークン列データのトークン列をトークン列照合ルールと照合し、該トークン列照合ルールに合致するトークン列を登録候補語として抽出するステップであって、前記トークン列照合ルールが、前記合致するトークン列を抽出するための第2の文字列と第2の正規表現とを含むトークン列を含む、前記抽出するステップと、
前記登録候補語の確信度を計算するステップであって、該確信度は、前記登録候補語が前記カテゴリ辞書に登録される可能性を示す、前記計算するステップと、
前記分類カテゴリ辞書に前記登録候補語を登録するかどうかの選択をユーザに許すステップであって、前記確信度を前記登録候補語及び該登録候補語に対応する確信度を表示装置上に表示すること、又は、前記登録候補語を前記確信度に従いソートして表示装置上に表示することをさらに含み、前記対象外カテゴリ辞書が、テキスト・データから特定のカテゴリのトークンとして検索されないようにするために使用する該トークンを含む、前記許すステップと、
前記ユーザの選択に応じて、
前記登録候補語として抽出された未カテゴリ語であって、前記ユーザによって選択された未カテゴリ語を前記分類カテゴリ辞書に登録し、
前記登録候補語として抽出された未カテゴリ語であって、前記ユーザによって選択されなかった未カテゴリ語を前記対象外カテゴリ辞書に登録し、又は
前記登録候補語として抽出されたトークン列であって、前記ユーザによって選択されなかったトークン列を、固有表現又は専門用語として辞書に登録したくないトークン列をリストした辞書であるトークン列リストに追加するステップと
を実行することを含む、前記方法。 - 前記分類カテゴリ辞書が、前記用語辞書に登録される前記トークンの品詞情報をさらに含み、
前記対象外カテゴリ辞書が、前記用語辞書に登録されない前記トークンの品詞情報をさらに含み、及び
前記対象外カテゴリ辞書が、テキスト・データから特定のカテゴリのトークンとして検索されないようにするために使用する前記トークンの品詞情報をさらに含む、請求項23に記載の方法。 - テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・プログラムであって、コンピュータ・システムに、請求項18〜24のいずれか一項に記載の方法の各ステップを実行させる、前記コンピュータ・プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009000192A JP4701292B2 (ja) | 2009-01-05 | 2009-01-05 | テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム |
US12/651,509 US8538745B2 (en) | 2009-01-05 | 2010-01-04 | Creating a terms dictionary with named entities or terminologies included in text data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009000192A JP4701292B2 (ja) | 2009-01-05 | 2009-01-05 | テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010157178A JP2010157178A (ja) | 2010-07-15 |
JP4701292B2 true JP4701292B2 (ja) | 2011-06-15 |
Family
ID=42312264
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009000192A Expired - Fee Related JP4701292B2 (ja) | 2009-01-05 | 2009-01-05 | テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8538745B2 (ja) |
JP (1) | JP4701292B2 (ja) |
Families Citing this family (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8656039B2 (en) | 2003-12-10 | 2014-02-18 | Mcafee, Inc. | Rule parser |
US8548170B2 (en) | 2003-12-10 | 2013-10-01 | Mcafee, Inc. | Document de-registration |
US7984175B2 (en) | 2003-12-10 | 2011-07-19 | Mcafee, Inc. | Method and apparatus for data capture and analysis system |
US7962591B2 (en) * | 2004-06-23 | 2011-06-14 | Mcafee, Inc. | Object classification in a capture system |
US8560534B2 (en) | 2004-08-23 | 2013-10-15 | Mcafee, Inc. | Database for a capture system |
US7949849B2 (en) | 2004-08-24 | 2011-05-24 | Mcafee, Inc. | File system for a capture system |
US7907608B2 (en) | 2005-08-12 | 2011-03-15 | Mcafee, Inc. | High speed packet capture |
US7818326B2 (en) | 2005-08-31 | 2010-10-19 | Mcafee, Inc. | System and method for word indexing in a capture system and querying thereof |
US7730011B1 (en) | 2005-10-19 | 2010-06-01 | Mcafee, Inc. | Attributes of captured objects in a capture system |
US8504537B2 (en) | 2006-03-24 | 2013-08-06 | Mcafee, Inc. | Signature distribution in a document registration system |
US7958227B2 (en) | 2006-05-22 | 2011-06-07 | Mcafee, Inc. | Attributes of captured objects in a capture system |
US8205242B2 (en) | 2008-07-10 | 2012-06-19 | Mcafee, Inc. | System and method for data mining and security policy management |
US9253154B2 (en) | 2008-08-12 | 2016-02-02 | Mcafee, Inc. | Configuration management for a capture/registration system |
US8850591B2 (en) | 2009-01-13 | 2014-09-30 | Mcafee, Inc. | System and method for concept building |
US8706709B2 (en) | 2009-01-15 | 2014-04-22 | Mcafee, Inc. | System and method for intelligent term grouping |
US8473442B1 (en) | 2009-02-25 | 2013-06-25 | Mcafee, Inc. | System and method for intelligent state management |
US8447722B1 (en) | 2009-03-25 | 2013-05-21 | Mcafee, Inc. | System and method for data mining and security policy management |
US8667121B2 (en) | 2009-03-25 | 2014-03-04 | Mcafee, Inc. | System and method for managing data and policies |
CN102411563B (zh) * | 2010-09-26 | 2015-06-17 | 阿里巴巴集团控股有限公司 | 一种识别目标词的方法、装置及系统 |
US8806615B2 (en) * | 2010-11-04 | 2014-08-12 | Mcafee, Inc. | System and method for protecting specified data combinations |
US20130246336A1 (en) | 2011-12-27 | 2013-09-19 | Mcafee, Inc. | System and method for providing data protection workflows in a network environment |
US8880989B2 (en) | 2012-01-30 | 2014-11-04 | Microsoft Corporation | Educating users and enforcing data dissemination policies |
US9087039B2 (en) | 2012-02-07 | 2015-07-21 | Microsoft Technology Licensing, Llc | Language independent probabilistic content matching |
GB201216640D0 (en) * | 2012-09-18 | 2012-10-31 | Touchtype Ltd | Formatting module, system and method for formatting an electronic character sequence |
US20150088493A1 (en) * | 2013-09-20 | 2015-03-26 | Amazon Technologies, Inc. | Providing descriptive information associated with objects |
KR101509727B1 (ko) * | 2013-10-02 | 2015-04-07 | 주식회사 시스트란인터내셔널 | 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법 |
US9542456B1 (en) * | 2013-12-31 | 2017-01-10 | Emc Corporation | Automated name standardization for big data |
US9196244B2 (en) * | 2014-01-08 | 2015-11-24 | Nuance Communications, Inc. | Methodology for enhanced voice search experience |
US9880997B2 (en) * | 2014-07-23 | 2018-01-30 | Accenture Global Services Limited | Inferring type classifications from natural language text |
US10110533B2 (en) * | 2014-10-28 | 2018-10-23 | Salesforce.Com, Inc. | Identifying entities in email signature blocks |
KR20160056983A (ko) * | 2014-11-12 | 2016-05-23 | 한국전자통신연구원 | 미등록어 자동 추출에 기반한 형태소 사전 구축 시스템 및 방법 |
CN107203542A (zh) * | 2016-03-17 | 2017-09-26 | 阿里巴巴集团控股有限公司 | 词组提取方法及装置 |
JP6722483B2 (ja) * | 2016-03-23 | 2020-07-15 | クラリオン株式会社 | サーバ装置、情報システム、車載装置 |
US10628522B2 (en) * | 2016-06-27 | 2020-04-21 | International Business Machines Corporation | Creating rules and dictionaries in a cyclical pattern matching process |
CN108763225A (zh) * | 2016-06-28 | 2018-11-06 | 大连民族大学 | 属性信息多语机器翻译子系统的翻译方法 |
US11003655B2 (en) | 2016-09-22 | 2021-05-11 | Hartford Fire Insurance Company | System for uploading information into a metadata repository |
US11023679B2 (en) * | 2017-02-27 | 2021-06-01 | Medidata Solutions, Inc. | Apparatus and method for automatically mapping verbatim narratives to terms in a terminology dictionary |
US10896222B1 (en) * | 2017-06-28 | 2021-01-19 | Amazon Technologies, Inc. | Subject-specific data set for named entity resolution |
FR3077656A1 (fr) * | 2018-02-07 | 2019-08-09 | Christophe Leveque | Procede de transformation d’une sequence pour la rendre executable par une machine |
US11030402B2 (en) | 2019-05-03 | 2021-06-08 | International Business Machines Corporation | Dictionary expansion using neural language models |
CN111222323B (zh) * | 2019-12-30 | 2024-05-03 | 深圳市优必选科技股份有限公司 | 一种词槽抽取方法、词槽抽取装置及电子设备 |
CN111143569B (zh) * | 2019-12-31 | 2023-05-02 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置及计算机可读存储介质 |
CN112347765B (zh) * | 2020-10-10 | 2022-06-07 | 清华大学 | 基于词典匹配的实体标注方法、模块及装置 |
JP7481999B2 (ja) | 2020-11-05 | 2024-05-13 | 株式会社東芝 | 辞書編集装置、辞書編集方法及び辞書編集プログラム |
JP7467314B2 (ja) * | 2020-11-05 | 2024-04-15 | 株式会社東芝 | 辞書編集装置、辞書編集方法、及びプログラム |
CN112632969B (zh) * | 2020-12-13 | 2022-06-21 | 复旦大学 | 一种增量式行业词典更新方法和系统 |
CN114090722B (zh) * | 2022-01-19 | 2022-04-22 | 支付宝(杭州)信息技术有限公司 | 查询内容自动补全的方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008003656A (ja) * | 2006-06-20 | 2008-01-10 | Omron Corp | 概念辞書生成装置、文書分類装置、概念辞書生成方法および文書分類方法 |
JP2008198132A (ja) * | 2007-02-15 | 2008-08-28 | Fujitsu Ltd | 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3748322B2 (ja) * | 1997-10-29 | 2006-02-22 | 富士通株式会社 | 単語登録装置及び記録媒体 |
KR100481580B1 (ko) * | 2002-10-09 | 2005-04-08 | 한국전자통신연구원 | 문서에서 이벤트 문장을 추출하는 장치 및 그 방법 |
JP2004341791A (ja) | 2003-05-15 | 2004-12-02 | Nec Corp | 辞書登録支援装置および方法ならびにプログラム |
GB2424977A (en) * | 2003-12-31 | 2006-10-11 | Agency Science Tech & Res | System For Recognising And Classifying Named Entities |
JP2004265440A (ja) | 2004-04-28 | 2004-09-24 | A I Soft Inc | 未知語登録装置および方法並びに記録媒体 |
US20060047500A1 (en) * | 2004-08-31 | 2006-03-02 | Microsoft Corporation | Named entity recognition using compiler methods |
JP4148247B2 (ja) | 2005-07-01 | 2008-09-10 | 日本電信電話株式会社 | 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 |
US7672833B2 (en) * | 2005-09-22 | 2010-03-02 | Fair Isaac Corporation | Method and apparatus for automatic entity disambiguation |
US7822701B2 (en) * | 2006-06-30 | 2010-10-26 | Battelle Memorial Institute | Lexicon generation methods, lexicon generation devices, and lexicon generation articles of manufacture |
US8812296B2 (en) * | 2007-06-27 | 2014-08-19 | Abbyy Infopoisk Llc | Method and system for natural language dictionary generation |
US8510097B2 (en) * | 2008-12-18 | 2013-08-13 | Palo Alto Research Center Incorporated | Region-matching transducers for text-characterization |
-
2009
- 2009-01-05 JP JP2009000192A patent/JP4701292B2/ja not_active Expired - Fee Related
-
2010
- 2010-01-04 US US12/651,509 patent/US8538745B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008003656A (ja) * | 2006-06-20 | 2008-01-10 | Omron Corp | 概念辞書生成装置、文書分類装置、概念辞書生成方法および文書分類方法 |
JP2008198132A (ja) * | 2007-02-15 | 2008-08-28 | Fujitsu Ltd | 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2010157178A (ja) | 2010-07-15 |
US8538745B2 (en) | 2013-09-17 |
US20100174528A1 (en) | 2010-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4701292B2 (ja) | テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム | |
Amjad et al. | “Bend the truth”: Benchmark dataset for fake news detection in Urdu language and its evaluation | |
KR102020756B1 (ko) | 머신러닝을 이용한 리뷰 분석 방법 | |
Stamatatos | A survey of modern authorship attribution methods | |
US20210350080A1 (en) | Systems and methods for deviation detection, information extraction and obligation deviation detection | |
JP5321583B2 (ja) | 共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法及びプログラム | |
WO2005059771A1 (ja) | 対訳判断装置、方法及びプログラム | |
EP1941399A2 (en) | Method and apparatus for automatic entity disambiguation | |
Azmi et al. | Real-word errors in Arabic texts: A better algorithm for detection and correction | |
Atia et al. | Increasing the accuracy of opinion mining in Arabic | |
US20090112845A1 (en) | System and method for language sensitive contextual searching | |
Yalcin et al. | An external plagiarism detection system based on part-of-speech (POS) tag n-grams and word embedding | |
WO2011072172A1 (en) | System and method for quickly determining a subset of irrelevant data from large data content | |
Perevalov et al. | Augmentation-based Answer Type Classification of the SMART dataset. | |
JP2002117027A (ja) | 感情情報抽出方法および感情情報抽出プログラムの記録媒体 | |
Ceballos Delgado et al. | Deception detection using machine learning | |
Alqahtani et al. | Survey of authorship identification tasks on Arabic texts | |
Salah et al. | Arabic rule-based named entity recognition systems progress and challenges | |
Mekki et al. | Tokenization of Tunisian Arabic: a comparison between three Machine Learning models | |
Onyenwe et al. | Toward an effective igbo part-of-speech tagger | |
Grover et al. | Adapting a relation extraction pipeline for the BioCreAtIvE II task | |
Demilie et al. | Automated all in one misspelling detection and correction system for Ethiopian languages | |
CN106250354B (zh) | 处理文书的信息处理装置、信息处理方法以及程序 | |
Chou et al. | On the Construction of Web NER Model Training Tool based on Distant Supervision | |
Sawalha et al. | Linguistically informed and corpus informed morphological analysis of Arabic |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110120 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110125 Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110125 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110217 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110217 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20110217 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110307 |
|
LAPS | Cancellation because of no payment of annual fees |