JP2002342321A - 用語抽出装置と用語抽出方法及びそのプログラムを格納した記憶媒体 - Google Patents

用語抽出装置と用語抽出方法及びそのプログラムを格納した記憶媒体

Info

Publication number
JP2002342321A
JP2002342321A JP2001147719A JP2001147719A JP2002342321A JP 2002342321 A JP2002342321 A JP 2002342321A JP 2001147719 A JP2001147719 A JP 2001147719A JP 2001147719 A JP2001147719 A JP 2001147719A JP 2002342321 A JP2002342321 A JP 2002342321A
Authority
JP
Japan
Prior art keywords
term
document
morphological analysis
word
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001147719A
Other languages
English (en)
Inventor
Masako Bosu
雅子 望主
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2001147719A priority Critical patent/JP2002342321A/ja
Publication of JP2002342321A publication Critical patent/JP2002342321A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】文書あるいは文書集合中で特定の品詞や字種な
どの並びで頻出する文字列について辞書に未登録の用語
として抽出するとともに正確な用語を抽出する。 【解決手段】文書入力部2に入力した文書の形態素解析
を形態素解析部3で行い、形態素解析結果中の特定の単
語の並びを用語抽出部4で抽出し、同一対象文書あるい
は同一対象文書集合中で同じ単語の並びが特定数以上出
現したものを用語として抽出し、専門的な分野や特定の
組織内でのみ使われる略称のように辞書に未登録の場合
が多く、正しく解析できない用語を正確に抽出すること
ができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、文書中から専門
用語や特定の組織内でのみ使われる略称等を抽出する用
語抽出装置と用語抽出方法及びそのプログラムを格納し
た記憶媒体に関するものである。
【0002】
【従来の技術】文書中から専門用語等を抽出する用語抽
出,情報抽出技術が開発されてきている。用語抽出の際
に、一般的な方法として、まず、形態素解析によって単
語と品詞を認定することが多い。文書中の表現を自動的
に単語の単位に解析する形態素解析では、表記と品詞の
情報をもつ単語の辞書と単語どうしが隣接可能かどうか
をチェックする接続表によって解析を行う。しかし、対
象文書中に単語辞書に未登録の単語が出現すると、解析
系は辞書に登録されていることを前提として解析を行う
ため、未登録部分の範囲を認定し損なう場合が多い。
【0003】カタカナやアルファベット表記の語は字種
が異なるため、単語の範囲を同定することは比較的可能
である。しかし、漢字あるいはひらがな混じりの2文字
あるいは3文字の単語の場合は、漢字あるいはひらがな
1文字の語が辞書に存在することも多く、1字ごとに分
割されてしまう場合があった。特に特定の専門分野の場
合など、専門的な単語が頻出することが多く、これらは
必ずしも既存の語の組み合わせによる複合語や、カタカ
ナ又はアルファベットといった単語の範囲のわかりやす
い字種とは限らない。また、特定の組織内で使用される
略称などの用語は一般的な辞書では未登録な単語である
場合も多い。このため本来の抽出の目的である専門用語
に限ってうまく解析できないという問題がある。
【0004】このような現象について、例えば特開平10
−240736号公報に示された形態素解析装置は、入力され
た文字列を、単語に関する情報を登録した単語辞書と品
詞の接続の可否を登録した品詞接続表とを参照して解析
して単語に分割する。そして分割した単語と統計情報格
納手段に登録された未登録の単語である可能性の高い並
びの情報である単語の表記と単語の品詞と単語長及び字
種の統計情報とを比較し、未登録語の可能性の高い範囲
を認定している。また、特開平7−85071号公報に示さ
れた情報抽出装置は、辞書に未登録の単語とその意味を
単語間の構文構造から推定している。
【0005】
【発明が解決しようとする課題】特開平10−240736号公
報に示された形態素解析装置では、あらかじめ未登録語
を含まない形態素解析済み結果によって未登録の単語で
ある可能性の高い並びの統計情報を得る必要がある。し
かしながら、特定の専門分野等の特殊な分野において
は、正しい形態素解析結果を得ることは困難である。ま
た、特開平7−85071号公報に示された情報抽出装置の
ように、用語の出現している構文構造で未登録の単語と
その意味を推定する場合、未登録の単語は必ずしも構文
構造が明確な位置に出現するとは限らない。また、未登
録の語の範囲の認定は正しいものとしているが、実際に
は単語の範囲が誤りの場合がり、未登録の単語とその意
味を正確に推定することは困難である。
【0006】この発明は係る短所を改善し、文書あるい
は文書集合中で特定の品詞や字種などの並びで頻出する
文字列について辞書に未登録の用語として抽出すること
ができるとともに正確な用語を抽出することができる用
語抽出装置と用語抽出方法及びそのプログラムを格納し
た記憶媒体を提供することを目的とするものである。
【0007】
【課題を解決するための手段】この発明に係る用語抽出
装置は、文書入力部と形態素解析部及び用語抽出部を有
し、文書入力部は文書を入力として受け付け、形態素解
析部は入力した文書の形態素解析を行い、用語抽出部は
形態素解析結果中の特定の単語の並びを抽出し、同一対
象文書あるいは同一対象文書集合中で同じ単語の並びが
特定数以上出現したものを用語として抽出することを特
徴とする。
【0008】この発明に係る他の用語抽出装置は、文書
入力部と形態素解析部と用語抽出部及び用語提示部を有
し、文書入力部は文書を入力として受け付け、形態素解
析部は入力した文書の形態素解析を行い、用語抽出部は
形態素解析結果中の特定の単語の並びを抽出し、同一対
象文書あるいは同一対象文書集合中で同じ単語の並びが
特定数以上出現したものを用語として抽出し、用語提示
部は抽出した用語を提示してユーザに選択を求めること
を特徴とする。
【0009】この発明に係る用語抽出方法は、入力した
文書の形態素解析を行い、形態素解析結果中の特定の単
語の並びを抽出し、同一対象文書あるいは同一対象文書
集合中で同じ単語の並びが特定数以上出現したものを用
語として抽出することを特徴とする。
【0010】この発明に係る他の用語抽出方法は、入力
した文書の形態素解析を行い、形態素解析結果中の特定
の単語の並びを抽出し、同一対象文書あるいは同一対象
文書集合中で同じ単語の並びが特定数以上出現したもの
を用語として抽出し、抽出した用語を提示してユーザに
選択を求めることを特徴とする。
【0011】この形態素解析結果中の特定の単語の並び
を抽出するときに、単語の品詞と単語長及び字種を照合
の条件としたり、単語長の1か2でかつ字種が漢字ある
いはひらがなであるものを照合の条件とすると良い。
【0012】また、抽出された用語について対象文書あ
るいは文書集合中の頻度と、他の文書あるいは他の文書
集合中での頻度とを考慮した数値によって用語として抽
出するかどうか決定することが望ましい。
【0013】さらに、形態素解析結果中の特定の単語の
並びを抽出するときに、照合条件の末尾を専門用語及び
新規の用語が共起する表現を指定して照合すると良い。
そして照合条件の末尾に表記が開き括弧の語を規定して
照合することが望ましい。
【0014】
【発明の実施の形態】図1はこの発明の用語抽出装置の
構成を示すブロック図である。図に示すように、用語抽
出装置1は、文書入力部2と、形態素解析部3と、用語
抽出部4と、表記と品詞を記述した単語辞書5と、品詞
間の接続の可否を記述した接続表6及び用語パタンルー
ルを記述した抽出パターンルール格納部7を有する。文
書入力部2は文書を入力として受け付ける。形態素解析
部2は入力した文書を、単語辞書5に記述してある表記
と品詞と、接続表6に記述してある品詞間の接続の可否
とを参照して形態素解析を行う。用語抽出部4は形態素
解析部2で形態素解析された文書中の単語の全てについ
て、抽出パターンルール格納部7に記述用語パターンル
ールを参照して用語抽出を行う。
【0015】抽出パターンルール格納部7には、例えば
図2に示すように、文書中の出現する順序と出現した際
の条件が記述された各種パターン10を有する。このパ
ターン10では、品詞と長さと字種といった条件が指定
できる。例では、品詞が名詞か接尾辞か接頭辞で長さが
1の語で字種が漢字のものがあり、そのひとつ後ろにも
同じ条件の語が位置するということを表す。
【0016】上記のように構成した用語抽出装置1の文
書入力部2に入力した文書の用語を抽出処理するときの
動作を図3のフローチャートを参照して説明する。
【0017】文書入力部2に文書が入力すると、文書入
力部2は入力した文書を形態素解析部3に送る(ステッ
プS1)。形態素解析部3は送られた文書を、単語辞書
5に記述してある表記と品詞と、接続表6に記述してあ
る品詞間の接続の可否とを参照して形態素解析を行い用
語抽出部4に送る(ステップS2)。用語抽出部3は形
態素解析を行った文書中の単語について抽出パターンル
ール格納部7に格納されている各種パターン10と照合
する(ステップS3)。この文書中の単語について各種
パターン10と照合するときに、抽出パターンルール格
納部7に格納されている全てのパターン10を照合して
いるかどうか調べ、未照合のパターンがあるかどうかを
確認し(ステップS4)、未照合のパターンがある場合
は、未照合のパターンを対象文書中で照合する(ステッ
プS5)。この照合の結果、一致した単語の並びがあれ
ば、一致した単語列を抽出する(ステップS6,S
7)。この入力した文書中の単語について各パターンと
の照合を繰り返し(ステップS4〜S7)、全てのパタ
ーンとの照合が終わったら(ステップS4)、抽出した
単語列の頻度を算出する(ステップS8)。そして抽出
した単語列の頻度があらかじめ定めた規定値以上の単語
列を用語として抽出する(ステップS9)。また、入力
した文書が複数ある場合は、全ての文書の単語を照合し
てから、抽出した単語列の頻度を算出し、規定値以上の
単語列を用語として抽出する。
【0018】例えば文書入力部2に、次に示すような文
書が入力したとする。ここで鍵括弧は文切り出し単位と
なる。 「人開本からのお知らせ」 「人開本では以下の研修を設定しました。」 「 ・撮像プロセスの処理について」 「 撮像の基礎的な知識を習得するための講座で
す」 「申し込みは人開本の担当までお願いします」 この入力した文書を形態素解析部3で形態素解析した結
果、「人開本からのお知らせ」は名詞の「人」と、接尾辞
の「開」と、名詞の「本」と、助詞の「から」と、助詞の
「の」及び名詞の「お知らせ」と解析され、各文書は次
のように解析される。 「人|開|本|から|の|お知らせ」(名詞|接尾辞|名詞|助
詞|助詞|名詞)。 「人|開|本|で|は|以下|の|研修|を|設定|し|まし|た
|。」(名詞|接尾辞|名詞|助詞|助詞|名詞|助詞|サ変名
詞|助詞サ変|名詞|助動詞|助動詞|助動詞)。 「 ・|撮|像|プロセス|の|処理|に|ついて」(記号|名
詞|名詞|名詞|助詞|サ変名詞|助詞|助詞)。 「撮|像|の|基礎|的|な|知識|を|習得|する|講座|で
す」(名詞|名詞|助詞|名詞|接尾辞|助動詞|名詞|助詞|
サ変名詞|助動詞|名詞|助動詞)。 「申し込み|は|人|開|本|の|担当|まで|お|願い|し|ま
す」(名詞|助詞|名詞|接尾辞|名詞|助詞|サ変名詞|助詞
|接頭辞|動詞連用形|助動詞|助動詞)。 この形態素解析結果について用語抽出部4で抽出パタン
ルール格納部7に格納した各種パターン10と照合す
る。この照合の結果と、パターン10のNo.1パター
ンである品詞が名詞か接尾辞か接頭辞のどれかで長さが
1字の漢字が3単語連続する表現が「人開本」と一致す
る。また、No2.パターンの品詞が名詞か接尾辞か接
頭辞のどれかで長さが1字の漢字が2単語連続する表現
が「撮像」と一致する。このようにして全てのパターン
について照合し、抽出した単語列の頻度を算出すると、
図4に示すように、「人開本」が3回、「撮像」が2回
である。例えば頻度が2回以上出現したものを用語とし
て抽出すると、「人開本」と「撮像」が最終的な抽出結
果となる。
【0019】このように単語のパターンとして、形態素
解析では誤り結果として頻出するパターンを字種、品
詞、文字列長で規定することにより、専門的な分野や特
定の組織内でのみ使われる略称、例では「人材開発本
部」の略称である「人開本」や、あるいは専門用語であ
る「撮像」のように辞書に未登録の場合が多く、正しく
解析できない用語を抽出することができる。また、形態
素解析では誤り結果として頻出する1字の漢字の連続す
る部分を、辞書に未登録であるが、用語の可能性がある
として抽出することができる。
【0020】上記説明では、対象文書あるいは対象文書
集合(文書DB)で抽出された各単語の頻度を算出して
用語を抽出した場合について説明したが、対象文書ある
いは対象文書集合(文書DB)で抽出された各単語の頻
度を算出したのち、処理対象文書あるいは文書集合以外
の文書あるいは文書集合での頻度を加味して用語として
抽出するかどうかを決定するようにしても良い。
【0021】この場合、現在処理中の対象文書あるい文
書集合の頻度が高いあるいは一定数以上だが、現在着目
している対象以外の文書では出現数が低いあるいは一定
数以下のものを用語として選択する。すなわち、専門用
語はある特定の分野では頻出するが、それ以外では出現
しないことが多いためである。この場合、対象文書集合
中での頻度と対象文書集合以外での各集合での出現の有
無例えば1回以上出現すれば1とするなどの逆数をかけ
るといった評価式で算出すれば良い。
【0022】例えば前記文書が文書入力部2に入力し、
形態素解析した結果を用語抽出部4で抽出パターンルー
ル格納部7に格納した全てのパターン10と照合し、抽
出した単語列の頻度を算出した結果、「人開本」が3
回、「撮像」が2回であったとき、対象の文書及び文書
集合での頻度と、対象外の文書での頻度を加味する。こ
の加味する方法としては、現在対象となっている文書以
外での頻度を調べ、0回あるいは少ない頻度の場合に、
対象文書中では頻度が多いかある数以上で出現した場合
に、その語を用語として抽出する。例えば図5に、当該
文書集合での出現数と、1文書出現を頻度1とした他文
書での出現合計の例を示す。図5に示すように、「撮
像」という単語の他文書での出現合計が「0」あるいは
少ない場合は、「撮像」を用語として抽出する。
【0023】このように対象文書あるいは文書集合以外
での出現を考慮するため、広く様々な分野で出現する語
を抽出用語から排除することができる。すなわち、広く
様々な分野で出現する語の場合は、その語が一般的な語
であるにも関わらず、単に誤解析した場合が多いとい
え、そのような候補を用語から排除し、より正確な用語
抽出を行うことができる。
【0024】また、形態素解析結果中の特定の単語の並
びを抽出する際、照合条件の末尾に、専門用語及び新規
の用語が共起する表現を開き括弧として規定して照合す
ると良い。すなわち専門用語や新規の概念を表わす語に
はその語の意味や正式名を表わす表現が後続の括弧の内
部にいれられることがあり、それを利用したものであ
る。この場合、抽出パターンルール格納部7に格納され
たパターン10は、図6に示すように、各パターンの末
尾に品詞を「記号開き括弧」とした「括弧」の指定があ
る。この「括弧」の指定には、マッチした際にその語を
用語として含めるかという処理内容として、「処理:抽
出しない」とあるので、この「括弧」の部分は抽出しな
いようにする。また、品詞は解析処理系によって異なる
ので、パターンの記述に「表記」自体を指定してもよい
し、字種として指定してもよい。
【0025】例えば文書入力部2に入力した文書中に以
下の表現があったとする。 タイトル「中教審の答申結果」 「中教審(中央教育審議会)は近年の少年犯罪について以
下のような答申をおこなった。」 「審議会の代表○○氏が○○文部大臣に提出した。」 上記文書では、「中教審」が「中|教|審」(品詞:接尾
辞|接尾辞|接尾辞)と解析される。この「中教審」の直
後に開き括弧があるので、図6に示すNo.1のパター
ン「中教審(」が一致する。そこで「中教審」を用語と
して抽出する。
【0026】このようにして専門用語や新規の用語とと
もによく出現する表現をパターンに規定することによ
り、より正確に用語を抽出することができる。特に括弧
表現は、本文に注釈等をつける際に使用される表現であ
り、専門用語や新規の用語とともによく出現するので、
これを用いて用語をより正確に抽出することができる。
【0027】図7は用語抽出装置1の他の構成を示すブ
ロック図である。図に示すように、用語抽出部4で抽出
した用語をユーザに提示する用語提示部8を有する。用
語提示部8は、用語を提示する表示装置と、用語を選択
するキーボードあるいはマウス又はタッチパネル等を有
し、図8のフローチャートに示すように、用語抽出部4
で抽出された用語をユーザに提示し(ステップS11,
S12)、ユーザが選択したものだけを用語として抽出
する(ステップS13)。この用語提示部8で抽出した
用語を提示するときに、抽出した用語だけを提示しても
良いが、例えば図9に示すように、抽出した用語ととも
に頻度を提示することにより、ユーザが提示した用語の
妥当性を判定する資料とすることができる。そして図9
(a)に示すように、表示した末尾を選択個所の入力位
置とし、図9(b)に示すように、ユーザがキーボード
等で記号や指定のキーを入力することにより、ユーザが
選択した用語、例えば「撮像」だけを用語として抽出す
る。
【0028】このように抽出した用語をユーザに提示し
て選択させることにより、自動的に得られた用語につい
て妥当な用語であるかどうかを正確に判定することがで
きる。
【0029】
【発明の効果】この発明は以上説明したように、入力し
た文書の形態素解析を行い、形態素解析結果中の特定の
単語の並びを抽出し、同一対象文書あるいは同一対象文
書集合中で同じ単語の並びが特定数以上出現したものを
用語として抽出することにより、専門的な分野や特定の
組織内でのみ使われる略称のように辞書に未登録の場合
が多く、正しく解析できない用語を正確に抽出すること
ができる。
【0030】また、抽出した用語を提示してユーザに選
択を求めることにより、自動的に得られた用語について
妥当な用語であるかどうかを正確に判定することができ
る。
【0031】さらに、形態素解析結果中の特定の単語の
並びを抽出するときに、単語の品詞と単語長及び字種を
照合の条件としたり、単語長の1か2でかつ字種が漢字
あるいはひらがなであるものを照合の条件とすることに
より、辞書に未登録の語を正確に抽出することができる
とともに、形態素解析では誤り結果として頻出する1字
の漢字の連続する部分も用語の可能性があるとして抽出
することができる。
【0032】また、抽出された用語について対象文書あ
るいは文書集合中の頻度と、他の文書あるいは他の文書
集合中での頻度とを考慮した数値によって用語として抽
出するかどうか決定することにより、広く様々な分野で
出現する語を抽出用語から排除でき、より正確に用語を
抽出することができる。
【0033】さらに、形態素解析結果中の特定の単語の
並びを抽出するときに、照合条件の末尾を専門用語及び
新規の用語が共起する表現を指定して照合することによ
り、専門用語及び新規の用語を正確に抽出することがで
きる。
【0034】また、照合条件の末尾に表記が開き括弧の
語を規定して照合することにより、専門用語及び新規の
用語をより正確に抽出することができる。
【0035】さらに、この発明の用語抽出方法のプログ
ラムを格納した記録媒体を使用することにより、専門用
語及び新規の用語を正確に抽出することができる。
【図面の簡単な説明】
【図1】この発明の用語抽出装置の構成を示すブロック
図である。
【図2】記述用語パターンルールのパターンの構成図で
ある。
【図3】用語抽出処理を示すフローチャートである。
【図4】抽出した単語列の頻度を示す説明図である。
【図5】抽出した単語列の頻度を示す他の説明図であ
る。
【図6】記述用語パターンルールの他のパターンの構成
図である。
【図7】用語抽出装置の他の構成を示すブロック図であ
る。
【図8】抽出した用語の提示処理を示すフローチャート
である。
【図9】抽出した用語を提示して選択したときの表示図
である。
【符号の説明】
1;用語抽出装置、2;文書入力部、3;形態素解析
部、4;用語抽出部、5;単語辞書、6;接続表、7;
抽出パターンルール格納部、8;用語提示部。

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 文書入力部と形態素解析部及び用語抽出
    部を有し、 文書入力部は文書を入力として受け付け、形態素解析部
    は入力した文書の形態素解析を行い、用語抽出部は形態
    素解析結果中の特定の単語の並びを抽出し、同一対象文
    書あるいは同一対象文書集合中で同じ単語の並びが特定
    数以上出現したものを用語として抽出することを特徴と
    する用語抽出装置。
  2. 【請求項2】 文書入力部と形態素解析部と用語抽出部
    及び用語提示部を有し、 文書入力部は文書を入力として受け付け、形態素解析部
    は入力した文書の形態素解析を行い、用語抽出部は形態
    素解析結果中の特定の単語の並びを抽出し、同一対象文
    書あるいは同一対象文書集合中で同じ単語の並びが特定
    数以上出現したものを用語として抽出し、用語提示部は
    抽出した用語を提示してユーザに選択を求めることを特
    徴とする用語抽出装置。
  3. 【請求項3】 前記用語抽出部は、形態素解析結果中の
    特定の単語の並びを抽出するときに、単語の品詞と単語
    長及び字種を照合の条件とする請求項1又は2記載の用
    語抽出装置。
  4. 【請求項4】 前記用語抽出部は、形態素解析結果中の
    特定の単語の並びを抽出するときに、単語長の1か2で
    かつ字種が漢字あるいはひらがなであるものを照合の条
    件とする請求項1又は2記載の用語抽出装置。
  5. 【請求項5】 前記用語抽出部は、抽出された用語につ
    いて対象文書あるいは文書集合中の頻度と、他の文書あ
    るいは他の文書集合中での頻度とを考慮した数値によっ
    て用語として抽出するかどうか決定する請求項1乃至4
    のいずれかに記載の用語抽出装置。
  6. 【請求項6】 前記用語抽出部は、形態素解析結果中の
    特定の単語の並びを抽出するときに、照合条件の末尾を
    専門用語及び新規の用語が共起する表現を指定して照合
    する請求項1乃至5のいずれかに記載の用語抽出装置。
  7. 【請求項7】 前記用語抽出部は、形態素解析結果中の
    特定の単語の並びを抽出するときに、照合条件の末尾に
    表記が開き括弧の語を規定して照合する請求項6記載の
    用語抽出装置
  8. 【請求項8】 入力した文書の形態素解析を行い、形態
    素解析結果中の特定の単語の並びを抽出し、同一対象文
    書あるいは同一対象文書集合中で同じ単語の並びが特定
    数以上出現したものを用語として抽出することを特徴と
    する用語抽出方法。
  9. 【請求項9】 入力した文書の形態素解析を行い、形態
    素解析結果中の特定の単語の並びを抽出し、同一対象文
    書あるいは同一対象文書集合中で同じ単語の並びが特定
    数以上出現したものを用語として抽出し、抽出した用語
    を提示してユーザに選択を求めることを特徴とする用語
    抽出方法。
  10. 【請求項10】 前記形態素解析結果中の特定の単語の
    並びを抽出するときに、単語の品詞と単語長及び字種を
    照合の条件とする請求項8又は9記載の用語抽出方法。
  11. 【請求項11】 前記形態素解析結果中の特定の単語の
    並びを抽出するときに、単語長の1か2でかつ字種が漢
    字あるいはひらがなであるものを照合の条件とする請求
    項8又は9記載の用語抽出方法。
  12. 【請求項12】 前記抽出された用語について対象文書
    あるいは文書集合中の頻度と、他の文書あるいは他の文
    書集合中での頻度とを考慮した数値によって用語として
    抽出するかどうか決定する請求項8乃至11のいずれか
    に記載の用語抽出方法。
  13. 【請求項13】 前記形態素解析結果中の特定の単語の
    並びを抽出するときに、照合条件の末尾を専門用語及び
    新規の用語が共起する表現を指定して照合する請求項8
    乃至12のいずれかに記載の用語抽出方法。
  14. 【請求項14】 前記形態素解析結果中の特定の単語の
    並びを抽出するときに、照合条件の末尾に表記が開き括
    弧の語を規定して照合する請求項13記載の用語抽出方
    法。
  15. 【請求項15】 請求項8乃至14のいずれかに記載の
    用語抽出方法のプログラムを格納したことを特徴とする
    記憶媒体。
JP2001147719A 2001-05-17 2001-05-17 用語抽出装置と用語抽出方法及びそのプログラムを格納した記憶媒体 Pending JP2002342321A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001147719A JP2002342321A (ja) 2001-05-17 2001-05-17 用語抽出装置と用語抽出方法及びそのプログラムを格納した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001147719A JP2002342321A (ja) 2001-05-17 2001-05-17 用語抽出装置と用語抽出方法及びそのプログラムを格納した記憶媒体

Publications (1)

Publication Number Publication Date
JP2002342321A true JP2002342321A (ja) 2002-11-29

Family

ID=18993154

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001147719A Pending JP2002342321A (ja) 2001-05-17 2001-05-17 用語抽出装置と用語抽出方法及びそのプログラムを格納した記憶媒体

Country Status (1)

Country Link
JP (1) JP2002342321A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8644527B2 (en) 2007-12-19 2014-02-04 Panasonic Corporation Piezoelectric acoustic transducer
JP2016018279A (ja) * 2014-07-04 2016-02-01 富士通株式会社 文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法
JP2019159814A (ja) * 2018-03-13 2019-09-19 大日本印刷株式会社 情報処理装置、情報処理方法及びプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8644527B2 (en) 2007-12-19 2014-02-04 Panasonic Corporation Piezoelectric acoustic transducer
JP2016018279A (ja) * 2014-07-04 2016-02-01 富士通株式会社 文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法
JP2019159814A (ja) * 2018-03-13 2019-09-19 大日本印刷株式会社 情報処理装置、情報処理方法及びプログラム
JP7040155B2 (ja) 2018-03-13 2022-03-23 大日本印刷株式会社 情報処理装置、情報処理方法及びプログラム

Similar Documents

Publication Publication Date Title
Leacock et al. Automated grammatical error detection for language learners
JP3981734B2 (ja) 質問応答システムおよび質問応答処理方法
Wong et al. Exploiting parse structures for native language identification
Jacobs et al. SCISOR: Extracting information from on-line news
US7234942B2 (en) Summarisation representation apparatus
HaCohen-Kerner Automatic extraction of keywords from abstracts
US6876963B1 (en) Machine translation method and apparatus capable of automatically switching dictionaries
Grover et al. Named Entity Recognition for Digitised Historical Texts.
Maynard et al. Towards a semantic extraction of named entities
US9646512B2 (en) System and method for automated teaching of languages based on frequency of syntactic models
JP2003223437A (ja) 正解語の候補の表示方法、スペルチェック方法、コンピュータ装置、プログラム
Glass et al. A naive salience-based method for speaker identification in fiction books
Koka et al. Automatic identification of keywords in lecture video segments
JP2005115468A (ja) テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム
JP2002342321A (ja) 用語抽出装置と用語抽出方法及びそのプログラムを格納した記憶媒体
Ji et al. Analysis and repair of name tagger errors
JP2006119697A (ja) 質問応答システム、質疑応答方法および質疑応答プログラム
JP2004334699A (ja) テキスト評価装置、テキスト評価方法、プログラム及び記憶媒体
Althobaiti Minimally-supervised Methods for Arabic Named Entity Recognition
Nagata et al. Recognizing article errors in the writing of Japanese learners of English
JP2002366556A (ja) 情報検索方法
Fehri¹ et al. Check for Construction of an Educational Game" CONJ_NOOJ" Héla Fehri¹ (~) and Nizar Jarray² MIRACL Laboratory, University of Sfax, Sfax, Tunisia
HAMZAOUI An Introduction to Corpus Linguistics (Master Two Level)
JP3118880B2 (ja) 日本語文章処理装置
Branny et al. Text summarizing in Polish

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070724

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070904

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070925