JP2001022752A - 文字組抽出方法、文字組抽出装置および文字組抽出のための記録媒体 - Google Patents

文字組抽出方法、文字組抽出装置および文字組抽出のための記録媒体

Info

Publication number
JP2001022752A
JP2001022752A JP11189651A JP18965199A JP2001022752A JP 2001022752 A JP2001022752 A JP 2001022752A JP 11189651 A JP11189651 A JP 11189651A JP 18965199 A JP18965199 A JP 18965199A JP 2001022752 A JP2001022752 A JP 2001022752A
Authority
JP
Japan
Prior art keywords
character
character set
extracting
storing
sets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11189651A
Other languages
English (en)
Inventor
Tomoya Tsukahara
朋哉 塚原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Solutions East Japan Ltd
Original Assignee
Hitachi Tohoku Software Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Tohoku Software Ltd filed Critical Hitachi Tohoku Software Ltd
Priority to JP11189651A priority Critical patent/JP2001022752A/ja
Publication of JP2001022752A publication Critical patent/JP2001022752A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】従来の形態素解析のように単語辞書や文法のル
ールを必要とせず、文字の接続確率などの学習も必要と
せず、文書のみから単語・文節を抽出できるようにす
る。 【解決手段】処理対象の入力文書から一文ずつ抽出し、
その一文の先頭から始まる文字組と、それまでの入力文
を蓄えている蓄積文書中の文字組となるべく長く一致す
る文字組を抽出し、文字組データベースに登録する。そ
の際、抽出された文字組としては登録されておらず、よ
り短い文字組として登録されている文字組がある場合に
はその頻度カウンタによるカウントを減らしておく。入
力文書は上記の処理の後、一文字ずつ蓄積文書記憶装置
に登録され、入力文書がなくなると次の一文を入力す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書を単語等の文
字組に分解し抽出する文字組抽出方法、文字組抽出装置
および文字組抽出のための記録媒体に関する。
【0002】
【従来の技術】コンピュータで文書の検索、翻訳、要約
などを行う際に、文の解析が必要になる。解析を行う際
には、形態素解析の手段によって文書の構成を知る必要
がある。このとき問題になるのが、単語辞書に登録され
ていない単語(未知語)が出現する場合と、解析用の文
法のルールに従わない文法が存在する場合である。
【0003】従来技術として、特開平10-240736号公報
では、形態素解析を行った結果、漢字・ひらがな・カタ
ナカの単語の並びを統計情報として持つことにより、未
知語を推定する手段が開示されている。
【0004】特開平10-326275号公報では、単語辞書を
用いずに、文字を単位として文字の接続確率であるN−
gramを用いて単語の区切りを見つける技術が開示さ
れている。
【0005】また、未知語の抽出方法としても使えると
思われる、キーワードの自動抽出を行うものがある(特
開平6-19970号公報)。キーワードの候補の単語や、キ
ーワード候補の区切りを示すストップワードをあらかじ
め準備しておき、対象文書中にそれらの言葉が出現する
ときにキーワード候補単語の頻度カウンタを増加させ、
ある程度出現したキーワード候補単語をキーワードとす
るものである。
【0006】特開平8-329106号公報の辞書生成方法で
は、テキスト中に出現する文字列の中から、その文字列
よりも出現頻度が低くなく、かつ、その文字列を含みそ
の文字列よりも長い文字列が存在しないという条件を満
たす文字列を抽出する方法により、単語辞書を用いずに
文書中から単語の切り出しを行っている。
【0007】
【発明が解決しようとする課題】従来技術では、未知語
を含む文書の形態素解析を行うために、単語辞書を必要
(特開平10-240736号公報)としたり、文字の接続確率
の学習を必要(特開平10-326275号公報)としたり、単
語の区切りなどを定めた文法のルールを必要(特開平6-
19970号公報)としたりしている。
【0008】しかし、単語辞書やルール化された文法や
学習された文字の接続確率に頼って行うと、単語辞書に
登録されている語ならばほとんど抽出が行えるが、未知
語や文法のルールに当てはまらない文に対する単語抽出
の精度は落ちる。これを避けるためには精度のよい単語
辞書を用意したり、N−gramなどの十分な学習が必
要であるが、単語の正しい意味の候補や正しい文法のル
ールの候補が増え、解析精度が劣化するトレードオフが
生じたり、処理時間の増大を招く。さらに単語辞書・文
法のルールとも人手によるためコストがかかる。文字の
接続確率や共起確率を用いる場合にも事前の学習が必要
であり、学習を行わなかった文字の組み合わせや単語の
組み合わせに対しては良好に動作しない。
【0009】また、特開平8-329106号公報に示す方法で
は、一文字の単語の切り出しが不可能であるとともに、
短い文字列の出現頻度が多くカウントされすぎるという
問題が起こる。例えば、「あからさま」、「やるから」
が複数回文書中に出現すると、本来それらの文字組に含
まれているため出現頻度がカウントされない「から」と
いう文字組も抽出されてしまう。
【0010】本発明は、このような従来の問題点に着目
してなされたもので、単語辞書や文法のルールを必要と
せず、文字の接続確率などの学習も必要とせず、幼児が
言語を獲得するように、文書のみから適切な単語・文節
を切り出すことが可能な文字組抽出方法、文字組抽出装
置および文字組抽出のための記録媒体を提供することを
目的としている。
【0011】
【課題を解決するための手段】上記目的を達成するため
に、本発明に係る文字組抽出方法は、文字列を入力する
ステップと;入力した文字列を蓄積するステップと;蓄
積した文字列からそれぞれ一致する文字組のうち最も長
い文字数の文字組を抽出するステップと;抽出した文字
組を記憶するステップとを、有することを特徴とする。
【0012】本発明に係る他の文字組抽出方法は、文字
列を入力するステップと;入力した文字列を蓄積するス
テップと;新たに入力した文字列を蓄積した文字列と比
較してそれぞれ一致する文字組のうち最も長い文字数の
文字組を抽出するステップと;抽出した文字組を記憶す
るステップと;抽出した文字組の各個数を計数するステ
ップと;記憶した文字組の中から、新たに抽出した文字
組に含まれる、より短い文字数の文字組を検索するステ
ップと;検索した文字組の各個数を計数するステップ
と;抽出した文字組の計数した各個数から検索した文字
組の計数した各個数を減算するステップと;計数および
減算後の文字組の各個数を記憶するステップとを、有す
ることを特徴とする。
【0013】本発明に係る文字組抽出装置は、文字列を
入力するための入力手段と;前記入力手段により入力さ
れた文字列を蓄積する文字列蓄積手段と;前記文字列蓄
積手段に蓄積された文字列からそれぞれ一致する文字組
のうち最も長い文字数の文字組を抽出する文字組抽出手
段と;前記文字組抽出手段により抽出された文字組を記
憶する文字組記憶手段とを、有することを特徴とする。
【0014】本発明に係る他の文字組抽出装置は、文字
列を入力するための入力手段と;前記入力手段により入
力された文字列を蓄積する文字列蓄積手段と;前記入力
手段により新たに入力された文字列を前記文字列蓄積手
段に蓄積された文字列と比較し、それぞれ一致する文字
組のうち最も長い文字数の文字組を抽出する文字組抽出
手段と;前記文字組抽出手段により抽出された文字組を
記憶する文字組記憶手段と;前記文字組抽出手段により
抽出された文字組の各個数を計数する抽出計数手段と;
前記文字組記憶手段に記憶される文字組の中から、前記
文字組抽出手段により抽出された文字組に含まれる、よ
り短い文字数の文字組を検索する検索手段と;前記検索
手段により検索された文字組の各個数を計数する検索計
数手段と;前記抽出計数手段により計数された文字組の
各個数から前記検索計数手段により計数された文字組の
各個数を減算する減算手段と;前記抽出計数手段による
計数および前記減算手段による減算後の文字組の各個数
を記憶する個数記憶手段とを、有することを特徴とす
る。
【0015】本発明に係る文字組抽出装置では、前記文
字列蓄積手段は、入力された文字列のほか、単語辞書に
含まれる文字列を蓄積してあってもよい。
【0016】本発明に係るプログラムを記録したコンピ
ュータ読み取り可能な記録媒体は、文字組抽出のための
プログラムを記録した記録媒体であって;文字列を入力
する手順と;入力した文字列を蓄積する手順と;蓄積し
た文字列からそれぞれ一致する文字組のうち最も長い文
字数の文字組を抽出する手順と;抽出した文字組を記憶
する手順とを、コンピュータに実行させることを特徴と
する。
【0017】本発明に係る他の、プログラムを記録した
コンピュータ読み取り可能な記録媒体は、文字組抽出の
ためのプログラムを記録した記録媒体であって;文字列
を入力する手順と;入力した文字列を蓄積する手順と;
新たに入力した文字列を蓄積した文字列と比較してそれ
ぞれ一致する文字組のうち最も長い文字数の文字組を抽
出する手順と;抽出した文字組を記憶する手順と;抽出
した文字組の各個数を計数する手順と;記憶した文字組
の中から、新たに抽出した文字組に含まれる、より短い
文字数の文字組を検索する手順と;検索した文字組の各
個数を計数する手順と;抽出した文字組の計数した各個
数から検索した文字組の計数した各個数を減算する手順
と;計数および減算後の文字組の各個数を記憶する手順
とを、コンピュータに実行させることを特徴とする。
【0018】入力される文字列は、文書が好ましい。文
字列は、日本語であっても、日本語以外の言語であって
もよい。文字組は、例えば、単語や文節、未知語などで
ある。入力した文字列を蓄積するときには、入力した文
字列を文ごとに分ける処理をした後に蓄積することが好
ましい。
【0019】
【発明の実施の形態】以下、図面に基づき本発明の実施
の形態について説明する。図1は本発明の実施の形態の
文字組抽出装置を示すシステム構成図である。文字組抽
出装置は、一般のコンピュータを構成するCPU、主記
憶装置、外部記憶装置、入力手段101としてのマウス
およびキーボード、ならびに表示手段としてのディスプ
レイにより実現される。文字組抽出装置は、そのプログ
ラムを記録したCD−ROM、フロッピーディスクなど
のコンピュータ読み取り可能な記録媒体によりコンピュ
ータに実行させることができる。
【0020】図1に示すように、文字組抽出装置は、C
PUの機能として、一文抽出手段102と、文字組抽出
手段103とを有する。外部記憶装置は、蓄積文書記憶
装置(文字列蓄積手段)105と、文字組データベース
(文字組DB、文字組記憶手段)106とを有してい
る。さらに、図7に示すように、文字組抽出装置は、C
PUの機能として、検索手段111と、頻度カウンタ
(抽出計数手段、検索計数手段、減算手段)112と、
個数記憶手段113とを有している。
【0021】入力手段101は、文書などの文字列を入
力するための手段である。文字列は、日本語であって
も、他のいかなる外国語であってもよい。一文抽出手段
102は、入力手段101により入力された文字列を文
ごとに分ける手段である。蓄積文書記憶装置105は、
一文抽出手段102により分けられた文を蓄積する。文
字組抽出手段103は、一文抽出手段102により分け
られた文を蓄積文書記憶装置105に蓄積された文字列
と比較し、それぞれ一致する文字組のうち最も長い文字
数の文字組を抽出する手段である。文字組データベース
106は、文字組抽出手段103により抽出された文字
組を記憶・格納する手段である。
【0022】図7を参照すれば、検索手段111は、文
字組データベース106に記憶される文字組の中から、
文字組抽出手段103により抽出された文字組に含まれ
る、より短い文字数の文字組を検索する手段である。頻
度カウンタ112は、文字組抽出手段103により抽出
された文字組の各個数を計数する手段(抽出計数手段)
と、検索手段111により検索された文字組の各個数を
計数する手段(検索計数手段)と、抽出した文字組の計
数した各個数から検索した文字組の計数した各個数を減
算する手段(減算手段)とを兼ねている。個数記憶手段
113は、頻度カウンタ112による計数および減算後
の文字組の各個数を記憶する手段である。
【0023】文字組抽出装置は、形態素解析のための単
語辞書や定義されている文法のルールを持たず、また、
文字や単語の共起確率を蓄えておくデータベースを持た
ない。
【0024】図1に示すように、入力文書104から入
力手段101に文書が入力されると、一文抽出手段10
2により入力文書が一文ずつ文字組抽出手段103へ送
られる。文字組抽出手段103では、蓄積文書記憶装置
105と文字組データベース106とを用いて文字組の
比較・抽出を行う。
【0025】図2は、図1に示す文字組抽出装置の動作
を示す。入力手段101によりテキストデータを入力し
(201)、一文抽出手段102により入力文書から読
点などの区切り記号で区切られた一文を文字組抽出回路
(図3参照)に出力する(203)。条件判定202で
入力文書がなくなったら終了する。
【0026】図3は、文書から単語・文節などの特定の
文字組を抽出するアルゴリズムの流れ図である。この動
作を、入力文書例を示す図4と、そのときの文字組デー
タベース106の頻度カウントの状態を示す図5を用い
て説明する。
【0027】ステップ301で、入力される一文の文字
列をIN(図4の入力文書(1)が入力されると「たこ
やきがたべたい」がINとなる)とし、入力文の区切り
位置を示す変数Pを0とする。変数Pについては、図4
の入力文書(2)の説明箇所で後述する。
【0028】ステップ302では、文字組抽出手段10
3により、入力文の先頭の言葉からなる文字列(例では
「たこや…」)と、蓄積文書との一致している文を検索
するが、はじめは蓄積文書がないため、ステップ308
で「た」が蓄積文書記憶装置105に登録される。
【0029】続く「こやきが」まではステップ302に
よって一致する文字組が見つからないため、ステップ3
08で蓄積文書記憶装置105に登録される。その次の
「た」がINの先頭文字になると、蓄積文書中の「た」
が一致するため、ステップ303,304,305,3
10と処理が進む。
【0030】ステップ310から315までの処理31
7については、入力文書(4)の説明箇所で後述する。
ステップ316によりFWである「た」が文字組データ
ベース106に登録され、頻度カウンタ(抽出計数手
段)112による初期カウントが2にセットされる。こ
こで、頻度カウンタ(抽出計数手段)112によるカウ
ントは、文書中に現れたその文字組の頻度を表している
ため初期値が2となる。ステップ307については図4
の入力文書(4)の説明箇所で後述する。
【0031】残りの「べたい」の中の、「た」に関して
は、文字組データベース106中にすでに登録されてい
るので、ステップ306により頻度カウンタ(抽出計数
手段)112のカウントが増加され、図5の(1)に示
すように「た」のところのみ頻度カウントが3となる。
【0032】図4の入力文書(2)が入力されると、蓄
積文書中の「たこ」がもっとも長く一致する文字組であ
るため、ステップ303,304,305,310と処
理が進む。それ以降の処理317については、上記した
ように図4の入力文書(4)の説明箇所で後述する。
【0033】その結果、検索手段111により「た」が
「たこ」に含まれる文字として検索され、図5の(2)
の「た」と「たこ」に示すように、頻度カウンタ(減算
手段)112により、「た」の頻度カウントが1減少
し、「たこ」が初期頻度カウント2となる。これによ
り、蓄積文書中に「たこ」が2回、「たこ」に含まれな
い「た」が2回出現していることが示される。ここで、
入力文の区切り位置を示す変数Pは、「たこ」が文字組
データベース106に登録された後、「たこ」の「こ」
が登録されるのを防ぐために設けられている変数であ
る。
【0034】同様に、図4の入力文書(3)までの処理
が終わった時点の文字組データベース106の様子が図
5の(3)に示されている。
【0035】図4の入力文書(4)が入力されると、ス
テップ302,303によりFWが「たこやき」とな
り、ステップ304,305,310と処理が流れる。
【0036】頻度カウンタ112による処理317は、
長い文字組(ここでは「たこやき」)に含まれる、すで
に文字組データベース106に登録されている短い文字
組(ここでは図4の入力文書(1)の「たこ」にあた
る)の頻度を減らす処理である。
【0037】ステップ310ではFWが「たこやき」で
あるため、inには「たこやき」がコピーされる。ステ
ップ311、312により、文字組データベース106
中の「たこ」がfwとなり、「たこ」の頻度カウンタ1
12のカウントを減少する。
【0038】ステップ314、315の処理により、i
nが「やき」になったとき、文字組データベース106
中の「やき」と一致するため、「やき」の頻度カウント
を1減少する。これは、ここに登録されている「やき」
のうち頻度カウント1つ分は「たこやき」の一部である
ためである。
【0039】FWが「たべたい」となると、文字組デー
タベース106中の「た」の頻度カウントが2減少す
る。
【0040】最終的に図4の入力文書(4)に対する処
理が終了した段階では、図5(4)に示すように、「た
こやき」が2回、「やき」が1回、「たこ」が1回抽出
され、「た」の抽出は0となっている。
【0041】以上のようにこの方法では、他の文字組の
一部である文字組(「た」など)など、正しい単語や文
節などではない誤った文字組を抽出、登録される可能性
もあるが、大量の文書を対象として動作させているうち
に単語が繰り返される確率が高くなるため、単語・文節
として正しい文字組に吸収されたり、低頻度語となり正
しい単語・文節の獲得には影響を及ぼさない。従って、
特に、ある特定した分野での使用が効果的である。
【0042】なお、図4の例では「がたべたい」と、助
詞+動詞の文字組が抽出されているが、「たべたい」の
前の助詞としては「が」が適当であるという文法的なル
ールも自動的に抽出される。もちろん、文書をより多く
入力することにより「で」「を」「は」も「たべたい」
の前に来る助詞として適当であり、「にたべたい」は抽
出されないため不適当であることもわかる。
【0043】文字組抽出装置によれば、単語辞書や文法
のルールを用いずに入力文書と蓄積文書との間でもっと
も長く一致する同一の文字組を検索して文字組データベ
ース106に登録することにより、単語や文節や言い回
しやことわざなどを自動的に抽出し登録することができ
る。
【0044】例えば、「魑魅魍魎」や「白衣の天使」な
ど、「魑魅」と「魍魎」、「白衣」と「の」と「天使」
など分析して抽出する必要はなく、それぞれ一まとめの
文字組として記憶しておけばよく、複合名詞的な扱いや
言い回しやことわざも個別の文法ルールを用いなくても
扱うことができる。もちろん、それぞれ「魑魅」と「魍
魎」が別個に出現する場合にも新たなルールを設けずに
扱うことができる。また、ひらがなと漢字など、表記が
違うだけで同じ言葉に対しては、文字組抽出処理、文書
蓄積処理の際にひらがなに変換することで同一の扱いを
行うように対応してもよい。しかしながら、表記の違い
によるニュアンスを保存するのならば、この文字組抽出
装置では、それぞれ別のものとして扱うことも、提案手
法をそのまま用いることにより実現できる。
【0045】以上は日本語を例として説明したが、文字
組抽出装置では、単語辞書を用いず文法のルールも必要
としないため、様々な言語に適用できる。
【0046】以上、単語辞書を用いない文字組の抽出方
法とそれ実現する装置について述べたが、文字組である
単語を抽出する際に単語辞書を用いることを排除してい
るわけではない。母国語を覚えてくると、わからない単
語を単語辞書を用いて検索するように、このアルゴリズ
ムを用いた装置により抽出されなかった蓄積文書中の文
字組を単語辞書を用いて抽出する方法も適用できる。ま
た、はじめから単語辞書も用いて文字組の抽出を行う方
法にも適用できる。その方法を用いた文字組抽出装置
を、図6に示す。図6に示す文字組抽出装置は、図1に
示す文字組抽出装置と同様に、入力手段601のほか、
CPUの機能として、一文抽出手段602と、文字組抽
出手段603とを有し、外部記憶装置として、蓄積文書
記憶装置(文字列蓄積手段)605と、文字組データベ
ース(文字組DB、文字組記憶手段)606とを有する
が、さらに、単語辞書607を有する点で図1に示す文
字組抽出装置と異なっている。図6に示す文字組抽出装
置では、全体のアルゴリズムは図2と同一にすることが
でき、文字組抽出のアルゴリズムは図3のステップ30
2の処理を「INの先頭文字からもっとも長く一致する
文字組を蓄積文書と単語辞書から検索」とおきかえるこ
とにより実現できる。
【0047】この文字組抽出装置では、蓄積文書をその
ままの文字で表現しているが、文字組データベース10
6の各文字組に対してつけられた登録番号を、蓄積文書
の文字のかわりに用いることにより、処理の高速化、蓄
積データの縮小化を行ってもよい。その際、抽出されな
かった文字組も文字組データベース106に登録し、蓄
積文書を文字組データベース106の登録番号のみで表
記する方法も考えられる。
【0048】また、文字組を抽出する際に、蓄積文書の
うち最新の文書からある程度の量のみを抽出対象とし、
残りの文書に対する処理をCPUの空いている時間に行
うことにより、リアルタイムな処理も実現できる。
【0049】また、文書に対して適用した例を示した
が、文字列を入力とするかわりに、音声を周波数領域で
取ったホルマントを入力とし、一致する文字組のかわり
に類似するホルマントを抽出することで音声認識にも応
用できる。また、図形の特徴を入力とすることにより、
基本図形の抽出、図形情報の分類検索に役立てられる。
このように、文書の他の情報源をも扱う対象とすること
によって、情報の区切りを自動的に抽出し情報のまとま
りである情報組を登録することができる。
【0050】
【発明の効果】本発明に係る文字組抽出方法、文字組抽
出装置および文字組抽出のための記録媒体によれば、幼
児が言語を獲得するように、単語辞書や文法のルールを
必要とせず、文字の接続確率などの学習も必要とせず
に、大量の文書から適切な単語・文節などの文字組を自
動的に獲得することができる。これにより、従来の形態
素解析手法と異なり、前もって単語辞書や文法のルール
を設定しておく手間を省くことができる。また、事前の
学習の他に、文字組の抽出処理を行う際にも学習を進ま
せることができるため、単語辞書に対して新しい言葉を
追加する手間がかからず、文法のルールで定義されてい
ない言い回しなどに対しても柔軟に対応して単語・文節
などの文字組を抽出することができる。
【0051】さらに、本発明によれば、助詞と動詞の組
み合わせ、名詞の組み合わせも抽出し登録できることか
ら、文字組を抽出しながら文法規則をも抽出することが
でき、これにより言語の解析などへの利用も可能とな
る。本発明によれば、単語辞書や文法を用いずに文書解
析を行うことができるため、日本語以外の言語に対して
も適用できる。
【図面の簡単な説明】
【図1】本発明の実施の形態の文字組抽出装置を示すシ
ステム構成図である。
【図2】図1に示す文字組抽出装置の動作を示すフロー
チャートである。
【図3】図1に示す文字組抽出装置の文字組抽出手段に
おける入力文一文に対する処理を示すフローチャートで
ある。
【図4】文字組抽出装置への入力文書の一例である。
【図5】図4に示す入力文書に対する文字組データベー
ス中の抽出された文字組の頻度の変化を示す説明図であ
る。
【図6】図1に示す文字組抽出装置の単語辞書を用いた
場合のシステム構成図である。
【図7】図1に示す文字組抽出装置の頻度カウントに関
する構成を示すブロック図である。
【符号の説明】
101 入力手段 102 一文抽出手段 103 文字組抽出手段 104 入力文書 105 蓄積文書記憶装置 106 文字組データベース(文字組DB) 601 入力手段 602 一文抽出手段 603 文字組抽出手段 604 入力文書 605 蓄積文書記憶装置 606 文字組データベース(文字組DB) 607 単語辞書

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】文字列を入力するステップと、 入力した文字列を蓄積するステップと、 蓄積した文字列からそれぞれ一致する文字組のうち最も
    長い文字数の文字組を抽出するステップと、 抽出した文字組を記憶するステップとを、 有することを特徴とする文字組抽出方法。
  2. 【請求項2】文字列を入力するステップと、 入力した文字列を蓄積するステップと、 新たに入力した文字列を蓄積した文字列と比較してそれ
    ぞれ一致する文字組のうち最も長い文字数の文字組を抽
    出するステップと、 抽出した文字組を記憶するステップと、 抽出した文字組の各個数を計数するステップと、 記憶した文字組の中から、新たに抽出した文字組に含ま
    れる、より短い文字数の文字組を検索するステップと、 検索した文字組の各個数を計数するステップと、 抽出した文字組の計数した各個数から検索した文字組の
    計数した各個数を減算するステップと、 計数および減算後の文字組の各個数を記憶するステップ
    とを、 有することを特徴とする文字組抽出方法。
  3. 【請求項3】文字列を入力するための入力手段と、 前記入力手段により入力された文字列を蓄積する文字列
    蓄積手段と、 前記文字列蓄積手段に蓄積された文字列からそれぞれ一
    致する文字組のうち最も長い文字数の文字組を抽出する
    文字組抽出手段と、 前記文字組抽出手段により抽出された文字組を記憶する
    文字組記憶手段とを、有することを特徴とする文字組抽
    出装置。
  4. 【請求項4】文字列を入力するための入力手段と、 前記入力手段により入力された文字列を蓄積する文字列
    蓄積手段と、 前記入力手段により新たに入力された文字列を前記文字
    列蓄積手段に蓄積された文字列と比較し、それぞれ一致
    する文字組のうち最も長い文字数の文字組を抽出する文
    字組抽出手段と、 前記文字組抽出手段により抽出された文字組を記憶する
    文字組記憶手段と、 前記文字組抽出手段により抽出された文字組の各個数を
    計数する抽出計数手段と、 前記文字組記憶手段に記憶される文字組の中から、前記
    文字組抽出手段により抽出された文字組に含まれる、よ
    り短い文字数の文字組を検索する検索手段と、 前記検索手段により検索された文字組の各個数を計数す
    る検索計数手段と、 前記抽出計数手段により計数された文字組の各個数から
    前記検索計数手段により計数された文字組の各個数を減
    算する減算手段と、 前記抽出計数手段による計数および前記減算手段による
    減算後の文字組の各個数を記憶する個数記憶手段とを、 有することを特徴とする文字組抽出装置。
  5. 【請求項5】前記文字列蓄積手段は、入力された文字列
    のほか、単語辞書に含まれる文字列を蓄積してあること
    を特徴とする請求項3または4記載の文字組抽出装置。
  6. 【請求項6】文字組抽出のためのプログラムを記録した
    記録媒体であって、 文字列を入力する手順と、 入力した文字列を蓄積する手順と、 蓄積した文字列からそれぞれ一致する文字組のうち最も
    長い文字数の文字組を抽出する手順と、 抽出した文字組を記憶する手順とを、 コンピュータに実行させるためのプログラムを記録した
    コンピュータ読み取り可能な記録媒体。
  7. 【請求項7】文字組抽出のためのプログラムを記録した
    記録媒体であって、 文字列を入力する手順と、 入力した文字列を蓄積する手順と、 新たに入力した文字列を蓄積した文字列と比較してそれ
    ぞれ一致する文字組のうち最も長い文字数の文字組を抽
    出する手順と、 抽出した文字組を記憶する手順と、 抽出した文字組の各個数を計数する手順と、 記憶した文字組の中から、新たに抽出した文字組に含ま
    れる、より短い文字数の文字組を検索する手順と、 検索した文字組の各個数を計数する手順と、 抽出した文字組の計数した各個数から検索した文字組の
    計数した各個数を減算する手順と、 計数および減算後の文字組の各個数を記憶する手順と
    を、 コンピュータに実行させるためのプログラムを記録した
    コンピュータ読み取り可能な記録媒体。
JP11189651A 1999-07-02 1999-07-02 文字組抽出方法、文字組抽出装置および文字組抽出のための記録媒体 Pending JP2001022752A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11189651A JP2001022752A (ja) 1999-07-02 1999-07-02 文字組抽出方法、文字組抽出装置および文字組抽出のための記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11189651A JP2001022752A (ja) 1999-07-02 1999-07-02 文字組抽出方法、文字組抽出装置および文字組抽出のための記録媒体

Publications (1)

Publication Number Publication Date
JP2001022752A true JP2001022752A (ja) 2001-01-26

Family

ID=16244893

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11189651A Pending JP2001022752A (ja) 1999-07-02 1999-07-02 文字組抽出方法、文字組抽出装置および文字組抽出のための記録媒体

Country Status (1)

Country Link
JP (1) JP2001022752A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011086637A1 (ja) * 2010-01-18 2011-07-21 日本電気株式会社 要求抽出システム、要求抽出方法および要求抽出プログラム
WO2017009900A1 (ja) * 2015-07-10 2017-01-19 株式会社日立製作所 文書処理システム及び文書処理方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011086637A1 (ja) * 2010-01-18 2011-07-21 日本電気株式会社 要求抽出システム、要求抽出方法および要求抽出プログラム
JP5678896B2 (ja) * 2010-01-18 2015-03-04 日本電気株式会社 要求抽出システム、要求抽出方法および要求抽出プログラム
WO2017009900A1 (ja) * 2015-07-10 2017-01-19 株式会社日立製作所 文書処理システム及び文書処理方法
JPWO2017009900A1 (ja) * 2015-07-10 2018-03-08 株式会社日立製作所 文書処理システム及び文書処理方法

Similar Documents

Publication Publication Date Title
US5890103A (en) Method and apparatus for improved tokenization of natural language text
Lita et al. Truecasing
US7478033B2 (en) Systems and methods for translating Chinese pinyin to Chinese characters
US6922809B2 (en) Method and apparatus providing capitalization recovery for text
Mikheev Periods, capitalized words, etc.
JP2583386B2 (ja) キーワード自動抽出装置
US20100332217A1 (en) Method for text improvement via linguistic abstractions
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JP2001034623A (ja) 情報検索方法と情報検索装置
Dahab et al. A comparative study on Arabic stemmers
Patil et al. Issues and challenges in marathi named entity recognition
JPH06301722A (ja) 形態素解析装置及びキーワード抽出装置
Palmer et al. Robust information extraction from automatically generated speech transcriptions
Govilkar et al. Part of speech tagger for Marathi language
Kumar et al. Applications of stemming algorithms in information retrieval-a review
JP2001022752A (ja) 文字組抽出方法、文字組抽出装置および文字組抽出のための記録媒体
Sharma et al. Improving existing punjabi grammar checker
Blanc et al. Segmentation in super-chunks with a finite-state approach
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
JPH11338863A (ja) 未知名詞および表記ゆれカタカナ語自動収集・認定装置、ならびにそのための処理手順を記録した記録媒体
Selvaramalakshmi et al. A novel PSS stemmer for string similarity joins
JPH10177575A (ja) 語句抽出装置および方法、情報記憶媒体
Minn et al. Myanmar word stemming and part-of-speech tagging using rule based approach
Wang et al. Maximum entropy Thai sentence segmentation combined with Thai grammar rules correction
Murawaki et al. Online Japanese Unknown Morpheme Detection using Orthographic Variation.