JP4253152B2 - キーワード抽出装置 - Google Patents
キーワード抽出装置 Download PDFInfo
- Publication number
- JP4253152B2 JP4253152B2 JP2001550633A JP2001550633A JP4253152B2 JP 4253152 B2 JP4253152 B2 JP 4253152B2 JP 2001550633 A JP2001550633 A JP 2001550633A JP 2001550633 A JP2001550633 A JP 2001550633A JP 4253152 B2 JP4253152 B2 JP 4253152B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- pattern
- character string
- unnecessary
- component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000605 extraction Methods 0.000 claims description 57
- 230000014509 gene expression Effects 0.000 claims description 36
- 230000010354 integration Effects 0.000 claims description 13
- 239000000470 constituent Substances 0.000 claims description 11
- 238000010586 diagram Methods 0.000 description 20
- 238000000034 method Methods 0.000 description 15
- 239000000284 extract Substances 0.000 description 10
- 239000002131 composite material Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 150000001875 compounds Chemical class 0.000 description 2
- 230000010355 oscillation Effects 0.000 description 2
- 208000011580 syndromic disease Diseases 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/912—Applications of a database
- Y10S707/917—Text
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99934—Query formulation, input preparation, or translation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99936—Pattern matching access
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Description
図1は、この発明を実施するための実施の形態1によるキーワード抽出装置を説明するための図である。
・通常の文字は、それ自身とマッチする正規表現である。
例)正規表現“い”はテキスト「あいうえお」の「い」にマッチする。
・正規表現を連結したものは、各正規表現にマッチする文字列を連結した文字列にマッチする正規表現である。
例)“うえ”は「あいうえお」の「うえ」にマッチする。
・“^”は文字列の先頭にマッチする正規表現である。
例)“^あ”は「あいうえお」の「あ」にマッチする。
・“$”は文字列の末尾にマッチする正規表現である。
例)“お$”は「あいうえお」の「お」にマッチする。
・“[“と”]”の間に通常の文字を並べたものは、それらのいずれか1文字にマッチする正規表現である。“[A−Z]”というようにある範囲の文字を指定することも可能である。また“[“の直後に“^”を置くと、並べた文字以外の1文字とマッチする正規表現となる。
例)“[い−え]”は「あいうえお」の「い」「う」「え」のいずれかにマッチする。
“[^い−え]”は「あいうえお」の「あ」「お」のいずれかにマッチする。
・“と”)”で囲まれた正規表現は括弧内の正規表現と同等の正規表現である。
例)“(うえ)”は「あいうえお」の「うえ」にマッチする。
・“|”をはさんだ正規表現は、その前後の正規表現のいずれかにマッチする文字列にマッチする正規表現である(選択)。
例)“(い|うえ)”は「あいうえお」の「い」「うえ」のいずれかにマッチする。
・正規表現に“{m,n}”(m,nは0以上の整数、m≦n)が後置されたものは、その正規表現のm回以上n回以下の反復を表わす正規表現である。
例)“い{1,3}”は「あいいえお」の「いい」もしくはいずれかの「い」にマッチする。
・正規表現に“{m}”、“{m,}”、“*”、“+”、“?”が後置されたものはそれぞれ、その正規表現に“{m,m}”、“{m,∞}”、“{0,∞}”、“{1,∞}”、“{0,1}”が後置されたものと同等の正規表現である。
例)“い{2}”は「あいいえお」の「いい」にマッチする。
“い*え”は「あいいえお」の「いいえ」「いえ」「え」のいずれかにマッチする。
“い?え”は「あいいえお」の「いえ」「え」のいずれかにマッチする。
・文字列の複数の部分がマッチ可能な場合、文字列の先頭に近い部分がマッチする。
(C1)
・選択において複数の選択肢がマッチ可能な場合、左の選択肢が優先される。 (C2)
・反復を含む正規表現では、より多くの反復によるマッチが優先される。 (C3)
という点に注意が必要である。
“([0−9]+[円銭]|(円|ドル)[高安])” (1)
などといったキーワード構成要素パターンを用意すればよい。
“([亜−瑤]{2,}|[ァ−ヶー−]{2,}|[光熱])” (2)
なお、“[亜−瑤]”はすべての漢字を、“[ァ−ヶー−]”はすべてのカタカナと長音符号を表わすパターンである。また、(C2)に示したようにマッチングでは左の選択肢が優先されるため、“[光熱]”のように短い文字列にマッチする選択肢は右の方に置き、パターン全体としてできるだけ長い文字列にマッチするようにしている。
「15日の東京外国為替市場の円相場は1ドル=106円11銭で、前日に比べ1円15銭円高となった。」 (3)
というテキストに対し、円相場情報に対応したキーワード構成要素パターン(1)を用いれば、
「106円」「11銭」「1円」「15銭」「円高」 (4)
といったキーワード構成要素が抽出される。
「光デバイスを用いた通信装置を開発した。」 (5)
というテキストに対して技術系文書に対応したキーワード構成要素パターン(2)を用いれば、
「光」「デバイス」「通信装置」「開発」 (6)
というキーワード構成要素が抽出される。なお、「用いた」の「用」はこのパターンにマッチしないため、キーワード構成要素とはならない。
「106円11銭」「1円15銭円高」 (7)
というキーワード候補集合が生成される。この方式は複合キーワードを抽出しやすいものの、要素概念を取り出しにくいという側面をもつ。
「106円」「11銭」「1円」「15銭」「円高」「106円11銭」「1円15銭」
「15銭円高」「1円15銭円高」 (8)
というキーワード候補集合が生成される。この方式によるキーワード候補集合は前二者によるものを包含するものであり、要素概念も複合キーワードも抽出可能であるが、不完全な複合キーワードが抽出される場合もある。
図2は、この発明を実施するための実施の形態2によるキーワード抽出装置を説明するための図である。
“1ドル=[0−9]+円([0−9]+銭)?” (9)
といったパターンを格納しておけばよい。
「15日の東京外国為替市場の円相場は###########で、前日に比べ1円15銭円高となった。」 (10)
というテキストに変換される。
「1円」「15銭」「円高」 (11)
というキーワード構成要素が抽出される。
図3は、この発明を実施するための実施の形態3によるキーワード抽出装置を説明するための図である。
“[0−9.−]+” (12)
というような非キーワード候補パターンとしておけば非キーワード候補除去手段70でこれらを除去することが可能である。しかしながらこのようにすると、数字を含んだキーワード構成要素をキーワード構成要素抽出手段40で抽出できなくなる。
“(しきい値|割り込み|[0−9]+(進数|次元))” (13)
というような例外キーワード構成要素パターンを用意する。
「受光素子を2次元に配列した。」 (14)
というテキストに対して例外キーワード構成要素パターン(13)を用いれば、
「2次元」 (15)
という例外キーワード構成要素が抽出されるとともに、もとのテキストは
「受光素子を@@@に配列した。」 (16)
というテキストに変換されて後の処理に移される。
「受光素子」「配列」 (17)
の2つのキーワード構成要素が抽出され、それらと(15)の例外キーワード構成要素から、たとえば実施の形態1で述べた方法のいずれかにより、キーワード候補が生成されることになる。
図4は、この発明を実施するための実施の形態4によるキーワード抽出装置を説明するための図である。
“^([同本次前後][図表式行頁]|開発|利用|…)$” (18)
不要語除去手段90はキーワード候補集合生成手段50が生成した各キーワード候補に対してパターン処理手段20を用い、文字列全体が不要語パターンにマッチするキーワード候補をキーワード候補集合から除去する。なお、パターン(18)の先頭の“^”と末尾の“$”は、各キーワード候補の文字列全体とのマッチングが行なわれることを表わす。
「光」「デバイス」「通信装置」 (19)
の3つがキーワード候補として残ることになる。
“^(同行|…)$” (20)
を用いれば、「同行」はキーワード候補として残される。
図5は、この発明を実施するための実施の形態5によるキーワード抽出装置を説明するための図である。
「電圧を加えた際発振する…」 (21)
というようなテキストにおいて、「際発振」というキーワード構成要素が抽出される。これがそのままキーワード候補となる場合、「際」という文字列を不要先頭文字列と考えることにより、「発振」だけをキーワード候補として残すことが可能である。その他、「実用上」「実際上」など漢字からなる副詞句なども不要先頭文字列として扱う場合、たとえばつぎのような不要先頭パターンが考えられる。
“^((実用|実際|事実|…)上|[各約際…])” (22)
“^(約数|約分|…)” (23)
というような必要先頭パターンを用意すればよい。
図6は、この発明を実施するための実施の形態6によるキーワード抽出装置を説明するための図である。
「共有メモリを有する並列計算機特に…」 (24)
というようなテキストにおいて、「並列計算機特」というキーワード構成要素が抽出される。これがそのままキーワード候補となる場合、「特」という文字列を不要末尾文字列と考えることにより、「並列計算機」だけをキーワード候補として残すことが可能である。その他、「装置」「手段」など漢字からなる一般的な名詞で、特に機能などの説明には不要な部分も不要末尾文字列として扱う場合、たとえばつぎのような不要末尾パターンが考えられる。
“(装置|手段|[等群特…])$” (25)
不要末尾文字列除去手段110は、不要語除去手段90で除去されず、不要先頭文字列除去手段100によっても変更のなかった各キーワード候補の末尾文字列に対してパターン処理手段20を用い、不要末尾パターンにマッチしたキーワード候補に対してはマッチした部分を除去し、その結果が空文字列であればもとのキーワード候補をキーワード候補集合から除去し、空文字列でなければそれをもとのキーワード候補と置換する。置換されたキーワード候補は不要語除去手段90に戻され、再び不要語除去処理、不要先頭文字列除去処理、不要末尾文字列除去処理が行なわれる。なお、(25)の末尾の“$”は、各キーワード候補の末尾文字列とのマッチングが行なわれることを表わす。
“(症候群|…)$” (26)
というような必要末尾パターンを用意すればよい。
このとき“利用手段”を不要語パターンの選択肢に加えておけば、つぎに「各利用手段」というキーワード候補に対して、不要先頭パターン(22)が適用されて「利用手段」が残ると、つぎには新たな不要語パターンを適用することにより、「利用手段」そのものがマッチして不要語として除去される。このようにして冗長な処理を回避することが可能となる。
図7は、この発明を実施するための実施の形態7によるキーワード抽出装置を説明するための図である。
各パターン格納手段は必ずしも同じ種類のパターンをそろえていなくてもよい。
“[0−9]次” (27a)
“[0−9]次元” (27b)
“(書き込み|読み込み)” (27c)
というパターンが格納されている場合、
「3次元データとして書き込みを行なう。」 (28)
というテキストに対しては、(27a)が「3次」にマッチし、(27b)が「3次元」にマッチする一方、(28)は「書き込み」にマッチするが、パターン処理手段20は最も先頭でマッチする最長の文字列を全体のマッチング結果とするので、まず「3次元」がマッチング結果となる。続いて残りの「データとして書き込みを行なう。」に対してマッチングを行なうと、(27c)だけが「書き込み」にマッチするので、「書き込み」がマッチング結果となる。残りの「を行なう。」にマッチするものはないため、結果的に例外キーワード構成要素抽出手段80は
「3次元」「書き込み」 (29)
を例外キーワード構成要素として抽出する。
図9は、この発明を実施するための実施の形態8によるキーワード抽出装置を説明するための図である。
“(a)あ(b)(いう|えお)” (30)
は長さ1のパターン“あ”と長さ2のパターン“(いう|えお)”からなる整列パターンである。
“((いう|えお)|あ)” (31)
という統合パターンとして出力される。
・通常の文字が連続したパターンは、そのパターンをその文字列長に対応してもつ整列パターンとなる。
(例) “あいう” → “(c)あいう”
・“^”や“$”はそれを長さ0に対応してもつ整列パターンとなる。
(例) “^” → “◎^”
・“[”と“]”、もしくは“[^”と“]”との間に通常の文字や文字範囲の並びをもつパターンは、そのパターンを長さ1に対応してもつ整列パターンとなる。
(例) “[あ−お]” → “(a)[あ−お]”
・“(”と“)”で囲まれたパターンは、括弧内のパターンに対応した整列パターンとなる。
(例) “(かきく)” → “(c)かきく”
・“|”をはさんだパターンは、その前後のパターンに対応した整列パターンにおいて、各長さごとに対応したパターンを選択肢とする新たなパターンをもつ整列パターンとなる。
(例) “あいう|[あ−お]|(かきく)”
→ “(c)あいう|(a)[あ−お]|(c)(かきく)”
→ “(a)[あ−お](c)あいう|(かきく)”
・パターンを連結したものは、各パターンに対応する整列パターンについて、それぞれ各長さの組合せに対応したパターンを必要に応じて括弧で囲みながら連結し、連結したパターンを選択肢とする新たなパターンを合計した長さに対応してもつ整列パターンとなる。
(例) “(あ|いう)(か|きく)”
→ “(a)あ(b)いう”“(a)か(b)きく”
→ “(b)あか(c)あきく|いうか(d)いうきく”
・パターンに“{m,n}”(m,nは0以上の整数)が後置されたものは、そのパターンに対応する整列パターンの各長さに対応するパターンを、必要に応じて括弧で囲みながら、“{p}”(m≦p≦n)をそれぞれ後置したものを選択肢とする新たなパターンを、そのパターンに対応する長さのp倍の長さに対応してそれぞれもつ整列パターンとなる。ただしp=0の場合は単に長さ0に対応して空文字列に対応するパターン(たとえば“()”)をもたせる。またp=1の場合は“{1}”の後置を省略できる。また長さ0に対応するパターンには“{p}”を後置しなくてもよい。
(例) “(あ|いう){0,2}”
→ “(a)あ(b)いう”{0,2}
→ “◎()|(a)あ(b)いう|(b)あ{2}(d)(いう){2}”
→ “◎()(a)あ(b)いう|あ{2}(d)(いう){2}”
・パターンに“{m}”、“{m,}”、“*”、“+”、“?”が後置されたものは、それぞれそのパターンに“{m,m}”、“{m,∞}”、“{0,∞}”、“{1,∞}”、“{0,1}”が後置されたものに対応する整列パターンとなる(mは0以上の整数)。
(例) “([あ−お]|いう){2}”
→ “(a)[あ−お](b)いう”{2}
→ “(b)[あ−お]{2}(d)(いう){2}”
図10は、この発明を実施するための実施の形態9によるキーワード抽出装置を説明するための図である。
「暗号装置を用いた」 (32)
というテキストを解析して、
「暗号<名詞>装置<名詞>を<助詞>用い<動詞>た<助動詞>」 (33)
という結果が得られれば、
「暗号装置」 (34)
がキーワード候補となる。ただし(33)では解析結果として各形態素の後に<>で品詞を示している。
「暗号」 (35)
が最終的なキーワード候補となる。
“A cipher device is used ...” (36)
というテキストを解析して、
“A<冠詞> cipher<名詞> device<名詞> is<動詞> used<動詞> ...”
(37)
という結果が得られれば、“cipher device”がキーワード候補として生成される。
“ (device|method)(s|)$” (38)
が用意されていれば、
“cipher” (39)
が最終的なキーワード候補となる。なお(38)では、先頭に単語の区切りを示すスペースが入っているとともに、複数形にも対応したパターンが用いられていることに注意されたい。
“([^< > ]+<名詞> )+” (40)
というパターンにマッチした部分を抽出した上で、<>で囲まれた品詞の部分を削除し、言語に応じて区切りのスペースを適宜削除すればよい。
Claims (19)
- テキストを入力するテキスト入力手段と、
正規表現による文字列のマッチングおよび置換を行なうパターン処理手段と、
キーワードの構成要素となり得る文字列を表わし文字列からなる正規表現で記述されたキーワード構成要素パターン及び不要語を表わす文字列からなる正規表現で記述された不要語パターンとを少なくとも有するパターン格納手段と、
前記パターン処理手段を用いて、前記テキスト中の文字列と前記キーワード構成要素パターンとのマッチングを行い、前記テキストから前記キーワード構成要素パターンにマッチする互いにオーバーラップのないすべての文字列をキーワード構成要素として抽出するキーワード構成要素抽出手段と、
各キーワード構成要素からキーワード候補集合を生成するキーワード候補集合生成手段と、
前記キーワード候補集合の各キーワード候補の文字列全体に対して前記パターン処理手段を用い、不要語パターンにマッチするものをキーワード候補集合から除去する不要語除去手段と、
前記キーワード候補集合の各キーワード候補をキーワードとして出力するキーワード出力手段と、
を有することを特徴とするキーワード抽出装置。 - 前記キーワード候補集合生成手段は、各キーワード構成要素をそのままキーワード候補としてキーワード候補集合を生成することを特徴とする請求項1記載のキーワード抽出装置。
- 前記キーワード構成要素抽出手段は、テキストに対し前記パターン処理手段を用いて、キーワード構成要素パターンにマッチする互いにオーバーラップのないすべての文字列をキーワード構成要素として抽出しながら抽出位置を記録し、
前記キーワード候補集合生成手段は、各キーワード構成要素の文字列長と抽出位置からテキスト上連続していると判定されたキーワード構成要素を連結して1つのキーワード候補として、単独のキーワード構成要素はそのままキーワード候補として、キーワード候補集合を生成することを特徴とする請求項1記載のキーワード抽出装置。 - 前記キーワード候補集合生成手段は、テキスト上連続したキーワード構成要素はそれぞれを単独のキーワード候補とするとともに、前後のキーワード構成要素を連結したものをそれぞれキーワード候補とする一方、単独のキーワード構成要素はそのままキーワード候補として、キーワード候補集合を生成することを特徴とする請求項3記載のキーワード抽出装置。
- 前記キーワード候補集合生成手段は、キーワード候補集合において重複したキーワード候補を1つにまとめることを特徴とする請求項1、2、3または4記載のキーワード抽出装置。
- 前記パターン格納手段は、キーワードの構成要素となり得る文字列を表わすキーワード構成要素パターンと、キーワードの候補となり得ない部分を表わす非キーワード候補パターンとを少なくとも有し、
さらに、テキストに対し前記パターン処理手段を用いて、非キーワード候補パターンにマッチする互いにオーバーラップのないすべての文字列を検索し、どのパターンも決してそれを含む文字列にマッチしない特別な文字列に置換する非キーワード候補除去手段を有することを特徴とする請求項1、2、3、4または5記載のキーワード抽出装置。 - 前記パターン格納手段は、キーワードの構成要素となり得る文字列を表わすキーワード構成要素パターンと、キーワード構成要素パターンで網羅することが困難なキーワード構成要素を表わす例外キーワード構成要素パターンとを少なくとも有し、
さらに、テキストに対して前記パターン処理手段を用いて、例外キーワード構成要素パターンにマッチする互いにオーバーラップのないすべての文字列を例外キーワード構成要素として抽出し、その抽出位置を記録するとともに、テキスト中マッチした各文字列を、どのパターンも決してそれを含む文字列にマッチしない特別な文字列に変換する例外キーワード構成要素抽出手段を有し、
前記キーワード候補集合生成手段は、キーワード構成要素および例外キーワード構成要素からキーワード候補集合を生成することを特徴とする請求項1、2、3、4、5または6記載のキーワード抽出装置。 - 前記パターン格納手段は、キーワードの構成要素となり得る文字列を表わすキーワード構成要素パターンと、必要語を表わす必要語パターンと、不要語を表わす不要語パターンとを少なくとも有し、
前記不要語除去手段は、キーワード候補集合の各キーワード候補の文字列全体に前記パターン処理手段を用い、必要語パターンにマッチせず不要語パターンにマッチするものをキーワード候補集合から除去することを特徴とする請求項1、2、3、4、5、6または7記載のキーワード抽出装置。 - 前記パターン格納手段は、キーワードの構成要素となり得る文字列を表わすキーワード構成要素パターンと、不要な先頭文字列を表わす不要先頭パターンとを少なくとも有し、
さらに、キーワード候補集合の各キーワード候補の先頭文字列に対して前記パターン処理手段を用い、不要先頭パターンにマッチするキーワード候補に対しては、不要先頭パターンにマッチした部分を除去し、その結果が空文字列であればもとのキーワード候補をキーワード候補集合から除去し、空文字列でなければそれをもとのキーワード候補と置換する不要先頭文字列除去手段を有することを特徴とする請求項1、2、3、4、5、6、7または8記載のキーワード抽出装置。 - 前記パターン格納手段は、キーワードの構成要素となり得る文字列を表わすキーワード構成要素パターンと、不要な先頭文字列を表わす不要先頭パターンと、必要な先頭文字列を表わす必要先頭パターンとを少なくとも有し、
前記不要先頭文字列除去手段は、キーワード候補集合の各キーワード候補の先頭文字列に対して前記パターン処理手段を用い、必要先頭パターンにマッチせず不要先頭パターンにマッチするキーワード候補に対しては、不要先頭パターンにマッチした部分を除去し、その結果が空文字列であればもとのキーワード候補をキーワード候補集合から除去し、空文字列でなければそれをもとのキーワード候補と置換することを特徴とする請求項9記載のキーワード抽出装置。 - 前記パターン格納手段は、キーワードの構成要素となり得る文字列を表わすキーワード構成要素パターンと、不要な末尾文字列を表わす不要末尾パターンとを少なくとも有し、
さらに、キーワード候補集合の各キーワード候補の末尾文字列に対して前記パターン処理手段を用い、不要末尾パターンにマッチするキーワード候補に対しては、不要末尾パターンにマッチした部分を除去し、その結果が空文字列であればもとのキーワード候補をキーワード候補集合から除去し、空文字列でなければそれをもとのキーワード候補と置換する不要末尾文字列除去手段を有することを特徴とする請求項1、2、3、4、5、6、7、8、9または10記載のキーワード抽出装置。 - 前記パターン格納手段は、キーワードの構成要素となり得る文字列を表わすキーワード構成要素パターンと、不要な末尾文字列を表わす不要末尾パターンと、必要な末尾文字列を表わす必要末尾パターンとを少なくとも有し、
前記不要末尾文字列除去手段は、キーワード候補集合の各キーワード候補の末尾文字列に対して前記パターン処理手段を用い、必要末尾パターンにマッチせず不要末尾パターンにマッチするキーワード候補に対しては、不要末尾パターンにマッチした部分を除去し、その結果が空文字列であればもとのキーワード候補をキーワード候補集合から除去し、空文字列でなければそれをもとのキーワード候補と置換することを特徴とする請求項11記載のキーワード抽出装置。 - 前記不要語除去手段、不要先頭文字列除去手段、不要末尾文字列除去手段のうち2つ以上を組み合わせて、あるいは不要先頭文字列除去手段、不要末尾文字列除去手段のいずれかを2回以上適用することによって、最終的にキーワード候補集合から除去されたキーワード候補を、不要語パターンの選択肢に付加すること、を特徴とする請求項1、2、3、4、5、6、7、8、9、10、11または12記載のキーワード抽出装置。
- テキストのタイプや分野、格納パターンの種別などに対応した複数のパターン格納手段をさらに有し、
前記パターン処理手段は、各種パターンを適用する際に各パターン格納手段に格納された同種のパターンを並行して適用し、最も先頭でマッチしたもののうち、最長の文字列をマッチング結果とすることを特徴とする請求項1、2、3、4、5、6、7、8、9、10、11、12または13記載のキーワード抽出装置。 - 前記パターン処理手段は、不要語パターンおよび必要語パターンに関しては各パターン格納手段に格納されたパターンを並行して適用し、いずれかのパターンでマッチすればそれをマッチング結果として、他のパターンの適用を中止することを特徴とする請求項14記載のキーワード抽出装置。
- テキストのタイプや分野、格納パターンの種別などに対応した複数のパターン格納手段と、
必要に応じてパターンにおける選択、連結、反復などを展開し、マッチする可能性のある文字列長に関してパターンの構成要素を整列しながら、前記パターン格納手段に格納された各種パターンを種別ごとに統合して出力するパターン統合手段とをさらに有することを特徴とする請求項1、2、3、4、5、6、7、8、9、10、11、12または13記載のキーワード抽出装置。 - 前記パターン統合手段は、マッチする可能性のある文字列長に関して上限を設け、それを超えるパターンの構成要素は除去しながら、前記パターン格納手段に格納された各種パターンを種別ごとに統合して出力することを特徴とする請求項16記載のキーワード抽出装置。
- 前記パターン統合手段は、パターンの反復に関して反復展開回数の上限を設け、それを超えるパターンの反復は除外して、前記パターン格納手段に格納された各種パターンを種別ごとに統合して出力することを特徴とする請求項16または17記載のキーワード抽出装置。
- 前記パターン統合手段は、不要語パターンおよび必要語パターンに関しては各パターン格納手段に格納されたパターンをそれぞれ選択肢とするパターンを出力することを特徴とする請求項16、17または18記載のキーワード抽出装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000000382 | 2000-01-05 | ||
PCT/JP2000/005433 WO2001050343A1 (fr) | 2000-01-05 | 2000-08-14 | Dispositif d'extraction d'un mot-cle |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004352676A Division JP2005063470A (ja) | 2000-01-05 | 2004-12-06 | キーワード抽出装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP4253152B2 true JP4253152B2 (ja) | 2009-04-08 |
Family
ID=18529738
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001550633A Expired - Fee Related JP4253152B2 (ja) | 2000-01-05 | 2000-08-14 | キーワード抽出装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7191177B2 (ja) |
EP (1) | EP1189150A4 (ja) |
JP (1) | JP4253152B2 (ja) |
CA (1) | CA2362416C (ja) |
WO (1) | WO2001050343A1 (ja) |
Families Citing this family (94)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010049707A1 (en) | 2000-02-29 | 2001-12-06 | Tran Bao Q. | Systems and methods for generating intellectual property |
US8590013B2 (en) | 2002-02-25 | 2013-11-19 | C. S. Lee Crawford | Method of managing and communicating data pertaining to software applications for processor-based devices comprising wireless communication circuitry |
JP4040382B2 (ja) * | 2002-07-30 | 2008-01-30 | ソニー株式会社 | キーワードの自動抽出装置及び方法、記録媒体、並びにプログラム |
GB2399983A (en) * | 2003-03-24 | 2004-09-29 | Canon Kk | Picture storage and retrieval system for telecommunication system |
US20050210008A1 (en) * | 2004-03-18 | 2005-09-22 | Bao Tran | Systems and methods for analyzing documents over a network |
JP2006023878A (ja) * | 2004-07-07 | 2006-01-26 | Quin Land Co Ltd | データ抽出システム |
US7444323B2 (en) * | 2004-09-02 | 2008-10-28 | International Business Machines Corporation | System and method for focused routing of content to dynamically determined groups of reviewers |
US7676394B2 (en) | 2005-09-14 | 2010-03-09 | Jumptap, Inc. | Dynamic bidding and expected value |
US8615719B2 (en) | 2005-09-14 | 2013-12-24 | Jumptap, Inc. | Managing sponsored content for delivery to mobile communication facilities |
US10592930B2 (en) | 2005-09-14 | 2020-03-17 | Millenial Media, LLC | Syndication of a behavioral profile using a monetization platform |
US20110313853A1 (en) | 2005-09-14 | 2011-12-22 | Jorey Ramer | System for targeting advertising content to a plurality of mobile communication facilities |
US7912458B2 (en) | 2005-09-14 | 2011-03-22 | Jumptap, Inc. | Interaction analysis and prioritization of mobile content |
US8989718B2 (en) | 2005-09-14 | 2015-03-24 | Millennial Media, Inc. | Idle screen advertising |
US8209344B2 (en) | 2005-09-14 | 2012-06-26 | Jumptap, Inc. | Embedding sponsored content in mobile applications |
US8302030B2 (en) | 2005-09-14 | 2012-10-30 | Jumptap, Inc. | Management of multiple advertising inventories using a monetization platform |
US20070061242A1 (en) * | 2005-09-14 | 2007-03-15 | Jorey Ramer | Implicit searching for mobile content |
US8812526B2 (en) | 2005-09-14 | 2014-08-19 | Millennial Media, Inc. | Mobile content cross-inventory yield optimization |
US7577665B2 (en) | 2005-09-14 | 2009-08-18 | Jumptap, Inc. | User characteristic influenced search results |
US20080214148A1 (en) * | 2005-11-05 | 2008-09-04 | Jorey Ramer | Targeting mobile sponsored content within a social network |
US8805339B2 (en) | 2005-09-14 | 2014-08-12 | Millennial Media, Inc. | Categorization of a mobile user profile based on browse and viewing behavior |
US8433297B2 (en) | 2005-11-05 | 2013-04-30 | Jumptag, Inc. | System for targeting advertising content to a plurality of mobile communication facilities |
US7660581B2 (en) | 2005-09-14 | 2010-02-09 | Jumptap, Inc. | Managing sponsored content based on usage history |
US20090029687A1 (en) * | 2005-09-14 | 2009-01-29 | Jorey Ramer | Combining mobile and transcoded content in a mobile search result |
US9058406B2 (en) | 2005-09-14 | 2015-06-16 | Millennial Media, Inc. | Management of multiple advertising inventories using a monetization platform |
US20070061198A1 (en) * | 2005-09-14 | 2007-03-15 | Jorey Ramer | Mobile pay-per-call campaign creation |
US8229914B2 (en) | 2005-09-14 | 2012-07-24 | Jumptap, Inc. | Mobile content spidering and compatibility determination |
US8364521B2 (en) | 2005-09-14 | 2013-01-29 | Jumptap, Inc. | Rendering targeted advertisement on mobile communication facilities |
US8832100B2 (en) | 2005-09-14 | 2014-09-09 | Millennial Media, Inc. | User transaction history influenced search results |
US20070288427A1 (en) * | 2005-09-14 | 2007-12-13 | Jorey Ramer | Mobile pay-per-call campaign creation |
US8238888B2 (en) | 2006-09-13 | 2012-08-07 | Jumptap, Inc. | Methods and systems for mobile coupon placement |
US20080215623A1 (en) * | 2005-09-14 | 2008-09-04 | Jorey Ramer | Mobile communication facility usage and social network creation |
US8503995B2 (en) | 2005-09-14 | 2013-08-06 | Jumptap, Inc. | Mobile dynamic advertisement creation and placement |
US9471925B2 (en) | 2005-09-14 | 2016-10-18 | Millennial Media Llc | Increasing mobile interactivity |
US10911894B2 (en) | 2005-09-14 | 2021-02-02 | Verizon Media Inc. | Use of dynamic content generation parameters based on previous performance of those parameters |
US20070118533A1 (en) * | 2005-09-14 | 2007-05-24 | Jorey Ramer | On-off handset search box |
US20070061334A1 (en) * | 2005-09-14 | 2007-03-15 | Jorey Ramer | Search query address redirection on a mobile communication facility |
US8156128B2 (en) | 2005-09-14 | 2012-04-10 | Jumptap, Inc. | Contextual mobile content placement on a mobile communication facility |
US8103545B2 (en) | 2005-09-14 | 2012-01-24 | Jumptap, Inc. | Managing payment for sponsored content presented to mobile communication facilities |
US8131271B2 (en) | 2005-11-05 | 2012-03-06 | Jumptap, Inc. | Categorization of a mobile user profile based on browse behavior |
US7769764B2 (en) * | 2005-09-14 | 2010-08-03 | Jumptap, Inc. | Mobile advertisement syndication |
US10038756B2 (en) | 2005-09-14 | 2018-07-31 | Millenial Media LLC | Managing sponsored content based on device characteristics |
US8311888B2 (en) * | 2005-09-14 | 2012-11-13 | Jumptap, Inc. | Revenue models associated with syndication of a behavioral profile using a monetization platform |
US8027879B2 (en) | 2005-11-05 | 2011-09-27 | Jumptap, Inc. | Exclusivity bidding for mobile sponsored content |
US9201979B2 (en) * | 2005-09-14 | 2015-12-01 | Millennial Media, Inc. | Syndication of a behavioral profile associated with an availability condition using a monetization platform |
US20090240568A1 (en) * | 2005-09-14 | 2009-09-24 | Jorey Ramer | Aggregation and enrichment of behavioral profile data using a monetization platform |
US7860871B2 (en) * | 2005-09-14 | 2010-12-28 | Jumptap, Inc. | User history influenced search results |
US9703892B2 (en) | 2005-09-14 | 2017-07-11 | Millennial Media Llc | Predictive text completion for a mobile communication facility |
US8290810B2 (en) | 2005-09-14 | 2012-10-16 | Jumptap, Inc. | Realtime surveying within mobile sponsored content |
US7752209B2 (en) | 2005-09-14 | 2010-07-06 | Jumptap, Inc. | Presenting sponsored content on a mobile communication facility |
US8195133B2 (en) | 2005-09-14 | 2012-06-05 | Jumptap, Inc. | Mobile dynamic advertisement creation and placement |
US8666376B2 (en) | 2005-09-14 | 2014-03-04 | Millennial Media | Location based mobile shopping affinity program |
US8660891B2 (en) | 2005-11-01 | 2014-02-25 | Millennial Media | Interactive mobile advertisement banners |
US8364540B2 (en) * | 2005-09-14 | 2013-01-29 | Jumptap, Inc. | Contextual targeting of content using a monetization platform |
US9076175B2 (en) | 2005-09-14 | 2015-07-07 | Millennial Media, Inc. | Mobile comparison shopping |
US7702318B2 (en) * | 2005-09-14 | 2010-04-20 | Jumptap, Inc. | Presentation of sponsored content based on mobile transaction event |
US8688671B2 (en) | 2005-09-14 | 2014-04-01 | Millennial Media | Managing sponsored content based on geographic region |
US8819659B2 (en) | 2005-09-14 | 2014-08-26 | Millennial Media, Inc. | Mobile search service instant activation |
US8175585B2 (en) | 2005-11-05 | 2012-05-08 | Jumptap, Inc. | System for targeting advertising content to a plurality of mobile communication facilities |
US7502788B2 (en) * | 2005-11-08 | 2009-03-10 | International Business Machines Corporation | Method for retrieving constant values using regular expressions |
US8571999B2 (en) | 2005-11-14 | 2013-10-29 | C. S. Lee Crawford | Method of conducting operations for a social network application including activity list generation |
US7958164B2 (en) * | 2006-02-16 | 2011-06-07 | Microsoft Corporation | Visual design of annotated regular expression |
US7860881B2 (en) * | 2006-03-09 | 2010-12-28 | Microsoft Corporation | Data parsing with annotated patterns |
JP5141560B2 (ja) * | 2007-01-24 | 2013-02-13 | 富士通株式会社 | 情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法 |
EP1962242A1 (en) * | 2007-02-22 | 2008-08-27 | Research In Motion Limited | Community based method and system for creating and subscribing to dynamic push channels |
US7949670B2 (en) * | 2007-03-16 | 2011-05-24 | Microsoft Corporation | Language neutral text verification |
CN101276361B (zh) * | 2007-03-28 | 2010-09-15 | 阿里巴巴集团控股有限公司 | 一种显示相关关键词的方法及系统 |
US7739261B2 (en) * | 2007-06-14 | 2010-06-15 | Microsoft Corporation | Identification of topics for online discussions based on language patterns |
US7814108B2 (en) * | 2007-12-21 | 2010-10-12 | Microsoft Corporation | Search engine platform |
US8417698B2 (en) | 2008-05-06 | 2013-04-09 | Yellowpages.Com Llc | Systems and methods to provide search based on social graphs and affinity groups |
US8145620B2 (en) * | 2008-05-09 | 2012-03-27 | Microsoft Corporation | Keyword expression language for online search and advertising |
KR101498331B1 (ko) * | 2008-10-02 | 2015-03-03 | 인터내셔널 비지네스 머신즈 코포레이션 | 텍스트 세그먼트를 가진 문서로부터 용어를 추출하기 위한 시스템 |
US8370357B1 (en) * | 2009-03-31 | 2013-02-05 | Cellco Partnership | Method and system for grouping multimedia files from plural vendors' servers in media store's catalog |
US9418136B1 (en) * | 2009-03-31 | 2016-08-16 | Cellco Partnership | Method and system for matching descriptive text for a multimedia content in a vendor's catalog with descriptive text for a multimedia content in media store's catalog |
US9405456B2 (en) * | 2009-06-08 | 2016-08-02 | Xerox Corporation | Manipulation of displayed objects by virtual magnetism |
US8595297B2 (en) | 2010-02-08 | 2013-11-26 | At&T Intellectual Property I, L.P. | Searching data in a social network to provide an answer to an information request |
JPWO2011118428A1 (ja) * | 2010-03-26 | 2013-07-04 | 日本電気株式会社 | 要求獲得システム、要求獲得方法、及び要求獲得用プログラム |
US8892580B2 (en) * | 2010-11-03 | 2014-11-18 | Microsoft Corporation | Transformation of regular expressions |
CN104137043A (zh) * | 2011-09-30 | 2014-11-05 | 瑞艾利缇盖特(Pty)有限公司 | 用于在图形用户界面(gui)上进行人机交互的方法 |
WO2013137864A1 (en) * | 2012-03-13 | 2013-09-19 | Hewlett-Packard Development Company, L.P. | Submatch extraction |
US9524751B2 (en) | 2012-05-01 | 2016-12-20 | Wochit, Inc. | Semi-automatic generation of multimedia content |
US20130294746A1 (en) * | 2012-05-01 | 2013-11-07 | Wochit, Inc. | System and method of generating multimedia content |
US9396758B2 (en) | 2012-05-01 | 2016-07-19 | Wochit, Inc. | Semi-automatic generation of multimedia content |
CN103870442A (zh) * | 2012-12-17 | 2014-06-18 | 鸿富锦精密工业(深圳)有限公司 | 中文简繁体转换系统及方法 |
US9678993B2 (en) | 2013-03-14 | 2017-06-13 | Shutterstock, Inc. | Context based systems and methods for presenting media file annotation recommendations |
JP5930228B2 (ja) | 2014-02-25 | 2016-06-08 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 情報処理装置、方法及びプログラム |
US9553904B2 (en) | 2014-03-16 | 2017-01-24 | Wochit, Inc. | Automatic pre-processing of moderation tasks for moderator-assisted generation of video clips |
KR102274391B1 (ko) * | 2014-10-07 | 2021-07-26 | 인포뱅크 주식회사 | 정보 검색 장치 및 방법 |
CN104462552B (zh) * | 2014-12-25 | 2018-07-17 | 北京奇虎科技有限公司 | 问答页面核心词提取方法和装置 |
CN104462553B (zh) * | 2014-12-25 | 2019-02-26 | 北京奇虎科技有限公司 | 问答页面相关问题推荐方法及装置 |
US9659219B2 (en) | 2015-02-18 | 2017-05-23 | Wochit Inc. | Computer-aided video production triggered by media availability |
CN105426360B (zh) * | 2015-11-12 | 2018-08-07 | 中国建设银行股份有限公司 | 一种关键词抽取方法及装置 |
CN108804487A (zh) * | 2017-12-28 | 2018-11-13 | 中国移动通信集团公司 | 一种提取目标字符的方法及装置 |
US11250842B2 (en) * | 2019-01-27 | 2022-02-15 | Min Ku Kim | Multi-dimensional parsing method and system for natural language processing |
US11551674B2 (en) * | 2020-08-18 | 2023-01-10 | Bank Of America Corporation | Multi-pipeline language processing platform |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03278176A (ja) * | 1990-03-27 | 1991-12-09 | Nippon Telegr & Teleph Corp <Ntt> | 日本文固有用語抽出処理装置 |
JPH0773200A (ja) * | 1993-09-07 | 1995-03-17 | Ricoh Co Ltd | キーワード抽出方法 |
JPH08329108A (ja) * | 1995-06-01 | 1996-12-13 | Hitachi Ltd | テキストのハイパーテキスト化方法 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6850252B1 (en) * | 1999-10-05 | 2005-02-01 | Steven M. Hoffberg | Intelligent electronic appliance system and method |
JP3189186B2 (ja) * | 1992-03-23 | 2001-07-16 | インターナショナル・ビジネス・マシーンズ・コーポレ−ション | パターンに基づく翻訳装置 |
US5675815A (en) * | 1992-11-09 | 1997-10-07 | Ricoh Company, Ltd. | Language conversion system and text creating system using such |
DE69432575T2 (de) * | 1993-01-28 | 2004-03-18 | Kabushiki Kaisha Toshiba, Kawasaki | Dokumentenerkennungssystem mit verbesserter Wirksamkeit der Dokumentenerkennung |
US5576954A (en) * | 1993-11-05 | 1996-11-19 | University Of Central Florida | Process for determination of text relevancy |
JPH07282055A (ja) * | 1994-04-06 | 1995-10-27 | Fujitsu Ltd | 文解析方法および装置 |
JP3986098B2 (ja) * | 1994-08-16 | 2007-10-03 | 富士通株式会社 | 文字列検索方法及び文字列検索装置 |
JPH08221440A (ja) * | 1995-02-15 | 1996-08-30 | Oki Electric Ind Co Ltd | ネットワークニュース記事からのキーワード抽出方法および装置 |
US5963940A (en) * | 1995-08-16 | 1999-10-05 | Syracuse University | Natural language information retrieval system and method |
JPH09128399A (ja) * | 1995-11-02 | 1997-05-16 | Techno Res Kk | 特許データベースのキーワードデータ抽出方法及びキーワードデータ抽出装置 |
JP3231673B2 (ja) * | 1996-11-21 | 2001-11-26 | シャープ株式会社 | 文字,文字列検索方法及び該方法に用いる記録媒体 |
JPH10283355A (ja) * | 1997-04-02 | 1998-10-23 | Nippon Telegr & Teleph Corp <Ntt> | 企業名解析方法及び装置 |
US6314410B1 (en) * | 1997-06-04 | 2001-11-06 | Nativeminds, Inc. | System and method for identifying the context of a statement made to a virtual robot |
US6470307B1 (en) * | 1997-06-23 | 2002-10-22 | National Research Council Of Canada | Method and apparatus for automatically identifying keywords within a document |
JPH1153384A (ja) | 1997-08-05 | 1999-02-26 | Mitsubishi Electric Corp | キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体 |
JPH11259524A (ja) * | 1998-03-06 | 1999-09-24 | Omron Corp | 情報検索システム、情報検索システムにおける情報処理方法および記録媒体 |
US6446076B1 (en) * | 1998-11-12 | 2002-09-03 | Accenture Llp. | Voice interactive web-based agent system responsive to a user location for prioritizing and formatting information |
US6826553B1 (en) * | 1998-12-18 | 2004-11-30 | Knowmadic, Inc. | System for providing database functions for multiple internet sources |
US6654741B1 (en) * | 1999-05-03 | 2003-11-25 | Microsoft Corporation | URL mapping methods and systems |
US6327561B1 (en) * | 1999-07-07 | 2001-12-04 | International Business Machines Corp. | Customized tokenization of domain specific text via rules corresponding to a speech recognition vocabulary |
-
2000
- 2000-08-14 JP JP2001550633A patent/JP4253152B2/ja not_active Expired - Fee Related
- 2000-08-14 CA CA002362416A patent/CA2362416C/en not_active Expired - Lifetime
- 2000-08-14 WO PCT/JP2000/005433 patent/WO2001050343A1/ja active Application Filing
- 2000-08-14 EP EP00951977A patent/EP1189150A4/en not_active Withdrawn
-
2001
- 2001-09-05 US US09/945,677 patent/US7191177B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03278176A (ja) * | 1990-03-27 | 1991-12-09 | Nippon Telegr & Teleph Corp <Ntt> | 日本文固有用語抽出処理装置 |
JPH0773200A (ja) * | 1993-09-07 | 1995-03-17 | Ricoh Co Ltd | キーワード抽出方法 |
JPH08329108A (ja) * | 1995-06-01 | 1996-12-13 | Hitachi Ltd | テキストのハイパーテキスト化方法 |
Also Published As
Publication number | Publication date |
---|---|
EP1189150A1 (en) | 2002-03-20 |
WO2001050343A1 (fr) | 2001-07-12 |
CA2362416A1 (en) | 2001-07-12 |
US7191177B2 (en) | 2007-03-13 |
CA2362416C (en) | 2009-08-04 |
EP1189150A4 (en) | 2004-10-06 |
US20020042794A1 (en) | 2002-04-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4253152B2 (ja) | キーワード抽出装置 | |
Nelken et al. | Arabic diacritization using weighted finite-state transducers | |
Habash et al. | MAGEAD: A morphological analyzer and generator for the Arabic dialects | |
Asahara et al. | Japanese named entity extraction with redundant morphological analysis | |
US8484238B2 (en) | Automatically generating regular expressions for relaxed matching of text patterns | |
US5136503A (en) | Machine translation system | |
US20030125928A1 (en) | Method for retrieving similar sentence in translation aid system | |
JP2009534743A (ja) | 非構造化リソースの構文解析方法 | |
GB2449516A (en) | Transliteration of roman text to Arabic | |
JP2006252428A (ja) | マルチリンガル翻訳メモリ、翻訳方法および翻訳プログラム | |
Mosavi Miangah | FarsiSpell: A spell-checking system for Persian using a large monolingual corpus | |
JP2005063470A (ja) | キーワード抽出装置 | |
CN112632214A (zh) | 一种创建清单数据索引的方法和装置 | |
JP7247460B2 (ja) | 対応関係生成プログラム、対応関係生成装置、対応関係生成方法、及び翻訳プログラム | |
Jayan | Implementation of Malayalam morphological analyzer based on hybrid approach | |
Nongmeikapam et al. | A transliteration of CRF based Manipuri POS tagging | |
Fisseha | Development of Stemming Algorithm for Tigrigna Text | |
Diewald | Matrix and double-array representations for efficient finite state tokenization | |
JP7396608B2 (ja) | 翻訳装置、翻訳装置の制御プログラム、および翻訳装置を用いた翻訳方法 | |
Goyal et al. | Forward-backward transliteration of punjabi gurmukhi script using n-gram language model | |
JP5380566B2 (ja) | 言語処理装置、プログラムおよび方法 | |
JP5795302B2 (ja) | 形態素解析装置、方法、及びプログラム | |
Ramakrishnan et al. | Entity annotation based on inverse index operations | |
Obrebski et al. | UAM Text Tools-a flexible NLP architecture. | |
Kaur et al. | Named entity recognition for punjabi: A conditional random field approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040413 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040614 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20041005 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041206 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20041209 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20050121 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090123 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4253152 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120130 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130130 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130130 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |