JP2003296354A - 辞書作成装置 - Google Patents

辞書作成装置

Info

Publication number
JP2003296354A
JP2003296354A JP2002094720A JP2002094720A JP2003296354A JP 2003296354 A JP2003296354 A JP 2003296354A JP 2002094720 A JP2002094720 A JP 2002094720A JP 2002094720 A JP2002094720 A JP 2002094720A JP 2003296354 A JP2003296354 A JP 2003296354A
Authority
JP
Japan
Prior art keywords
word
synonym
expression
character
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002094720A
Other languages
English (en)
Inventor
Takeyuki Aikawa
勇之 相川
Katsushi Suzuki
克志 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2002094720A priority Critical patent/JP2003296354A/ja
Publication of JP2003296354A publication Critical patent/JP2003296354A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 同一文書又は近傍に出現すること
のない隠語表現と単語リストの見出し語との同義語関係
を抽出することが可能であり、多様な隠語表現について
の同義語辞書を自動的に作成する辞書作成装置を得る。 【解決手段】 単語リスト11と、隠語表現と通
常文字との対応関係又は伏字表現を記憶する伏字・隠語
表現リスト13と、上記単語リスト中の見出し語と上記
伏字・隠語表現リストの伏字表現又は隠語表現と入力手
段から出力された入力文書の文字とを照合し入力文書か
ら同義語表現となりうる候補単語を抽出する同義語表現
検索手段103と、この同義語表現検索手段103によ
り抽出された候補単語が同義語であるか否かを入力文書
におけるその出現位置の前後の情報から決定する同義語
識別手段104と、この同義語識別手段104により同
義語と決定された候補単語に上記単語リストの見出し語
とを対応づけて同義語辞書に登録する登録手段105と
を備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、情報検索を行な
うシステムにおいて入力単語の表記ゆれを吸収して検索
するために使用する同義語辞書の作成方法に関するもの
である。特に、企業の風評監視などを行なう情報監視シ
ステムにおいて、伏字などの隠語表現の検索に適した同
義語辞書の作成装置を提供する。
【0002】
【従来の技術】インターネットの普及に伴い、様々な情
報の入手が容易となり、利便性が増す一方で、他者を誹
謗・中傷するような不正情報を発信することも容易とな
っている。そこで、これらの不正な情報発信をいち早く
発見し、対処するための情報監視システムの重要性が増
している。
【0003】不正な情報発信においては、容易に検出さ
れないように伏字や類似文字を使うなどの隠語表現が多
用される。たとえば、「三菱電機」に対する中傷をする
場合には、「○菱電機」や「三×電機」という表現が使
われる。これらの隠語表現は、人間が見れば何を意味し
ているか容易に推測できるが、本来と異なる表記が使用
されるために一般的な辞書を用いた検索処理では、検出
困難である。
【0004】異なる表記を含む文字列を検索可能とする
方法として、複数文字と照合可能なワイルドカードを用
いた検索が知られている。これによれば、「*菱」(*
はいかなる文字とも照合可能なワイルドカード)を入力
として検索することにより「○菱」という隠語を検索可
能だが、ワイルドカード検索ではあらゆる文字が照合可
能であるため、「竹菱」や「山菱」などの「三菱」の隠
語ではない通常の単語も多数検索されてしまうため、隠
語表現の検索には適していない。
【0005】隠語表現は一種の同義語であり、あらかじ
め作成した同義語辞書を用いた検索により検出可能とな
る。たとえば、「取り引き」と「取引き」といった送り
仮名のゆれを同義語辞書に登録しておくことにより、
「取り引き」が含まれた文書と「取引き」が含まれた文
書の両方が検索可能となるような検索システムの構成方
法が多数提案されている。一例として、文献1(特開昭
61−267827)では、上記のような表記ゆれを標
準化した表記を索引として検索する技術が開示されてい
る。
【0006】検索もれを防ぐために同義語辞書は非常に
有用であるが、開発コストが大きいという問題がある。
そこで、文献2(特開平5−298371)および文献
3(特開平6−266769)において、文書データか
ら同義語辞書を自動抽出する方法が提案されている。
【0007】文献2では、文書中の括弧表現に着目して
同義語を自動抽出する方式が示されている。例えば「A
BC総合研究所(ABC総研)」という表現からは「A
BC総合研究所=ABC総研」という同義語関係を抽出
する。
【0008】図21を参照しながら、文献2に開示され
ている検索システムの動作について説明する。入力手段
2101に入力された日本語文書は、形態素解析手段2
102により単語単位に分けられ、各々の単語には品詞
が与えられ、キーワード抽出手段2103で定めた品詞
に該当する単語が、キーワードとして抽出される。この
時、同義語の設定も行なう。同義語の抽出は文書中の特
殊記号である丸かっこに注目して行なう。抽出されたキ
ーワードと同義語情報は、キーワード・同義語ファイル
2103に格納される。検索手段2104は、検索語に
よってキーワード・同義語ファイルを検索する。キーワ
ード・同義語ファイル2107を参照したときに、検索
語が同義語をもつことがわかれば、その同義語を検索語
ファイル2107に格納し、新たに検索語とする。
【0009】文献3では、あらかじめ指定したパタンが
文書中に出現する場合に同義語関係を抽出する。例えば
「AはBのことである」という抽出パタンを定義してお
き、文書中の当該表現から「A=B」という同義語関係
を獲得する。
【0010】
【発明が解決しようとする課題】しかし、文献2および
文献3で開示された従来の同義語辞書作成方式には、以
下のような問題があった。
【0011】まず、同義語関係をもつ単語Waと単語W
bとが、文書中において近傍に出現していなければ、抽
出できないという問題がある。隠語表現の場合、元の単
語を想起させる擬似的な表現であるため、同一文書中に
元の単語が出現する可能性は小さい。「○菱電機」とい
う隠語が出現する文書に「三菱電機」という元の単語が
出現する可能性はきわめて低いため、文献2および文献
3で示されている方法では、「○菱電機=三菱電機」と
いう同義関係を抽出できない場合が多い。
【0012】また、上記で開示されている技術のいずれ
についても、読みが同じで異なる表記を使用する隠語表
現を抽出できないという問題もある。例えば、「防衛
庁」の隠語表現として「某A庁」のような例がある。
【0013】この発明は上記のような問題点を解決する
ためになされたもので、同義語関係をもつ単語の一方を
単語リストとして入力し、これを前処理して照合処理用
索引を生成し、この索引を用いて上記入力単語と文書中
に出現する単語との隠語表現の照合を行ない、近傍に出
現することのない隠語表現と元の単語との同義語関係を
抽出することが可能な辞書作成装置を提供することを目
的とする。
【0014】また、入力単語リストの読み情報をもとに
読み照合用の索引を生成し、文書中の漢字を読みに変換
しながら上記読み照合用の索引と照合することにより、
読みが同じで異なる表記をもつ隠語表現と元の単語との
同義語関係を抽出することが可能な同義語抽出装置を提
供することを目的とする。
【0015】また、上記照合処理の結果集計時に、抽出
された同義語表現の前後の文脈を考慮した重み付け処理
を行なうことにより、的確な同義語抽出結果が得られる
同義語抽出装置を提供することを目的とする。
【0016】
【課題を解決するための手段】本発明に係る辞書作成装
置は、見出し語を含む単語リストと、隠語表現と通常文
字との対応関係又は伏字表現を記憶する伏字・隠語表現
リストと、入力文書を読み込む入力手段と、上記単語リ
スト中の見出し語と上記伏字・隠語表現リストの伏字表
現又は隠語表現と入力手段から出力された入力文書の文
字とを照合して入力文書から同義語表現となりうる候補
単語を抽出する同義語表現検索手段と、この同義語表現
検索手段により抽出された候補単語が同義語であるか否
かを入力文書におけるその出現位置の前後の情報から決
定する同義語識別手段と、この同義語識別手段により同
義語と決定された候補単語に上記単語リストの見出し語
とを対応づけて同義語辞書に登録する登録手段とを備え
るものである。
【0017】また本発明に係る辞書作成装置は、上記伏
字・隠語表現リストを、通常文字と文字形状の類似する
文字又は文字列を隠語表現として記憶する構成としたも
のである。
【0018】また本発明に係る辞書作成装置は、上記同
義語表現検索手段を、入力文書中に出現する伏字を含む
伏字単語の構成文字のうち伏字でない構成文字と上記単
語リストの見出し語のうち上記伏字単語の伏字出現位置
にある文字以外の文字とを同じ出現位置にある文字ごと
に照合し一致した見出し語を同義語となりうる候補単語
として抽出する構成としたものである。
【0019】また本発明に係る辞書作成装置は、上記同
義語識別手段を、上記候補単語の入力文書中における出
現位置の前後の文脈によりこの候補単語の重み付けを行
いこの候補単語の重み付けが所定の閾値以上の場合はこ
の候補単語が同義語であると決定する構成としたもので
ある。
【0020】また本発明に係る辞書作成装置は、上記入
力手段によりHTML文書を入力文書として読み込み、
上記同義語識別手段を、上記同義語表現検索手段が抽出
した伏字を含む候補単語と所定のHTMLタグとが上記
HTML文書中に近接していることを検出してこの候補
単語の重み付けを小さくする構成としたものである。
【0021】また本発明に係る辞書作成装置は、上記同
義語識別手段を、上記同義語表現検索手段が抽出した候
補単語の先頭が伏字であってこの候補単語が入力文書の
行頭に出現していることを検出してこの候補単語の重み
付けを小さくする構成としたものである。
【0022】また本発明に係る辞書作成装置は、上記同
義語識別手段を、上記同義語表現検索手段が抽出した複
数の候補単語のうち同一の同義語を表現する候補単語で
あってこの候補単語の構成文字のうち異なる文字を伏字
で置換した伏字表現を検出してこの候補単語の重み付け
を大きくする構成としたものである。
【0023】また本発明に係る辞書作成装置は、上記単
語リストにより、見出し語の分類を各見出し語に関連づ
けて記憶し、上記同義語識別手段を、上記同義語表現検
索手段により抽出された候補単語に関連づけて上記単語
リストが記憶している上記見出し語の分類が同一である
ことを検出して同義語関係の重み付けを大きくする構成
としたものである。
【0024】また本発明に係る辞書作成装置は、上記同
義語表現検索手段を、上記単語リストの見出し語のロー
マ字によるイニシャル文字を見出し語の先頭文字に置換
した単語と上記入力文書の文字とを照合する構成とした
ものである。
【0025】また本発明に係る辞書作成装置は、見出し
語とその読みとを含む単語リストと、漢字読みテーブル
と、入力文書を読み込む入力手段と、この入力手段から
出力された入力文書の文字の読みを上記漢字読みテーブ
ルから取得し、この読みと上記単語リスト中の見出し語
の読みとを照合し一致する単語を同義語表現となりうる
候補単語として抽出する読み隠語検索手段と、この同義
語表現検索手段により抽出された候補単語が同義語であ
るか否かを入力文書におけるその出現位置の前後の情報
から決定する同義語識別手段と、この同義語識別手段に
より同義語と決定された候補単語に上記単語リストの見
出し語とを対応づけて同義語辞書に登録する登録手段と
を備えるものである。
【0026】
【発明の実施の形態】
【実施の形態1】図1に本発明の実施の形態1における
構成図を示す。1は辞書作成装置であって、11は単語
リスト、12は入力文書、16は同義語辞書である。単
語リスト11および入力文書12を入力すると、辞書作
成装置1は単語リスト11中の単語と同義語関係にある
表現を入力文書12から抽出して同義語辞書16を生成
する。13は伏字情報と隠語表現情報を記憶する伏字・
隠語表現リストであって、14は照合用索引データ、1
01は照合用索引データ14を生成する照合用索引生成
手段、102は入力文書12を読み込む入力手段であ
る。15は候補単語であって、103は照合用索引デー
タ14と入力文書12とを照合することにより入力文書
12から候補単語15を抽出する同義語表現検索手段で
ある。16は同義語辞書であって、104は候補単語1
5から同義語表現を決定する同義語表現識別手段であ
り、105はここで決定された同義語表現を同義語辞書
16に書き出す登録手段である。また106は全体を制
御する制御部である。
【0027】照合用索引生成手段101は、見出し語と
その読みからなる単語情報の集合である単語リスト11
を読み込み、同義語表現検索手段における照合処理にお
いて索引情報として使用する照合用索引データ14を生
成する。同義語表現検索手段103は、上記照合用索引
データ14と、入力手段102を用いて順次読み込んだ
入力文書12とを照合して、候補単語15を抽出する。
同義語表現識別手段104は、抽出された候補単語15
の入力文書における出現位置の前後の文書の特徴を用い
て重み付けを行い、この結果を集計して同義語を決定
し、登録手段105を用いて辞書データ16を出力す
る。
【0028】伏字・隠語表現リスト13は、隠語表現で
多用される文字列と通常文字とのペアの集合と伏字とし
て用いられることの多い文字の集合とを記憶するリスト
であり、照合用索引生成部101が照合用索引データ生
成時に参照し、単語の一部が隠語表現で置換された表現
との照合を行うときに用いる索引データを生成する。ま
た伏字・隠語表現リスト13が記憶する伏字は、同義語
表現検索手段が照合処理において参照する。制御部10
6は、上記の各処理が一貫して動作するよう全体を制御
する。また本発明に必須の構成要素ではないため図示を
省いたが、実際の利用者が本装置を使用するための入出
力などの制御についても制御部106において行なう。
【0029】図2の辞書作成の全体処理フローを参照し
ながら、動作の説明を行う。まずステップS201にお
いて、照合用索引生成手段101が単語リスト11と伏
字・隠語表現リスト13より、単照合用索引データ14
を生成する。続けてステップS202において、同義語
表現検索手段103は、この照合用索引データ14と伏
字・隠語表現リスト13との情報と入力手段102が読
み込んだ入力文書12とを照合し、候補単語15を抽出
する。最後にステップS203において、同義語表現識
別手段104はこの候補単語が入力文書12における出
現位置の前後の文書の特徴を用いて重み付けを行ない、
その結果に応じて登録手段105を用いて同義語辞書1
6に登録を行う。以下、上記の各処理ステップの詳細に
ついて順次説明する。
【0030】まず、図3、図4、及び図5を参照しなが
ら、照合用索引生成手段に関する処理(ステップS20
1)の詳細について説明する。図4は、照合用索引生成
手段の出力である照合用索引データ14の一例である。
以下、特に断らないかぎり、図4に示した単語リスト1
1を入力とし、伏字・隠語表現リスト13には、図4で
図示した文字が登録されているとして説明を行なう。
【0031】本実施の形態において照合用索引データ1
4は、図4においてN0からN28までのノード番号を
付記したノード401、及び各ノードを接続するリンク
情報402、及び照合単語へのリンク情報403から構
成される。なお、以後の説明において、単語リスト11
の見出し語に基づいて生成される文字ノードを通常ノー
ドと呼び、また伏字隠語表現リスト13の隠語表現に基
づいて生成される文字ノードを隠語表現文字ノードと呼
ぶ。また、ある文字ノードにリンクされているノードの
ことをその文字ノードの子供ノードと呼び、子供ノード
から見たその文字ノードのことを親ノードと呼ぶ。ある
文字ノードからリンクを順次辿ることで、子供ノードを
はじめとするいくつかのノードに到達しうるが、これら
のノードを総称して、その文字ノードの子孫ノードとい
う。したがって子供ノードは子孫ノードに含まれ、ある
文字ノードの子供ノードの子供ノードもその文字ノード
の子孫ノードに含まれることになる。さらに、ある文字
ノードから複数の子供ノードへのリンクがあるときに、
この複数の子供ノード同士の関係を兄弟ノードという。
【0032】照合用索引データ14の各ノードには、そ
のノード自身の種別(通常ノード、隠語表現文字ノー
ド)、子孫ノードへのリンク情報402、及び単語リス
ト11の見出し語へのリンク情報403を保持する。後
述する照合処理を高速に行なうために、各ノードのリン
ク先となるノードに対する索引を、ハッシュ表などの形
式で親ノードに保持するようにしてもよい。なお、ノー
ド番号N0を付与したノードは、ルートノードであり、
照合処理開始時に参照する特殊なノードである。ルート
ノードからこの照合用索引データ14内のあるノードに
到達するために辿らなければならないリンク情報の個数
を深さと呼ぶ。図4において、N1はN0の子供ノード
なので、深さは1となる。またN15の場合は、N0→
N11→N13→N15と、3つのリンクを辿らなけれ
ば到達できないので、深さが3となる。
【0033】図3は照合用索引生成処理の詳細フローで
ある。ステップS301では、入力された単語リスト1
1の見出し語の文字について木構造化を行なう。すなわ
ち、図4に示した単語リスト11に含まれる見出し語
を、文字単位で分解してそれぞれの文字についてノード
を生成する。またその際、他の見出し語と先頭からの数
文字を共通な文字としている見出し語がある場合(たと
えば「朝日生命」と「朝日新聞」の「朝日」)は、共通
部分を有する見出し語間で共通な文字のノードを共有
し、その二つの見出し語で最初に現れる異なる文字
(「朝日生命」と「朝日新聞」の場合ならば、「生」と
「新」)からそれぞれの文字ノードに分岐して、木構造
となるようにする。さらに、各単語の最終文字のノード
にはその見出し語へのリンク情報403を付与する。
【0034】また上記を通じて生成された通常ノードと
同じ数だけ、伏字文字照合用ノードを生成し、各通常ノ
ードにそれぞれ異なる伏字文字照合用ノードへのリンク
情報を生成する。これらは、入力文書12中に出現する
見出し語の各文字が伏字に置換されていても、入力文書
12中の単語と照合用索引データ14のノードとを照合
可能とするための特殊ノードである。図4においては、
ノード番号N1、N3、N5などの「*」を記したノー
ドが、伏字文字照合用の特殊ノードに相当し、これによ
り「三○電機」のような同義語表現を照合することとな
る。照合処理の詳細については後述する。
【0035】図4において、404は伏字文字照合用ノ
ードに付加する情報である。この404の内容は、木構
造において当該ノードが位置する深さに応じて変更す
る。ある伏字文字照合用ノードが所定の深さDth未満
の位置にある場合、このノードの子孫ノード中に出現す
る文字とこの文字を含むノードの索引表を作成してこの
伏字文字照合用ノードに付加する(404a)。この索
引表を用いることによって、文字からノードを検索する
ことができる。Dthが2だとすると、図4のノードN
1には、図5に示すような索引表が格納される。また伏
字文字照合用ノードが所定の深さDth以上に位置する
場合、当該ノードの兄弟ノードの一覧を保持する(40
4b)。この一覧には、後述する関連文字ノードは含ま
ないものとする。これらの情報は、照合処理において伏
字表現との照合を高速に行なうために使用される。
【0036】続けてステップS302では、単語リスト
中の見出し語のイニシャル文字(その見出し語をローマ
字表記した場合の最初の文字)についての索引を追加す
る。単語リスト11の各見出し語について、読みの先頭
文字に対応する英字(カ行→K、サ行→Sなど)を示す
ノードを生成し、このイニシャル文字ノードから各見出
し語の先頭文字の次の文字へのノードへのリンク経路を
生成する。
【0037】ここで、「リンク経路」を生成する、とい
った場合には、次のような構成を意味する。すなわちす
でにノードAにノードBへのリンクが生成されている状
態(A→B)にあって、ノードCからノードBへのリン
ク経路を生成するとは、ノードCにノードAへのリンク
情報(C→A)を生成すること、又はノードCに直接ノ
ードBへのリンク情報(C→B)を生成することの双方
を含むものとする。つまり、この場合ノードCの子孫ノ
ードとしてノードBが現れるようなリンク情報がある場
合(いかなる経路かは問わない)には、ノードCからノ
ードBへのリンク経路が生成されているということにな
る。
【0038】この実施の形態では、「みつびし」と「ま
つした」のようにイニシャル文字が重複する場合には、
「M」のノードが複数のリンク情報を保持するようにす
る。この処理により、図4におけるノードN27、N2
8、及びこれらのノードからのリンク情報が生成され
る。このイニシャル文字ノードを生成することにより、
「M菱電機」や「M下電器」といった同義語表現との照
合が可能となる。なお、図4に示しているように、「M
EE」の先頭文字に対する通常ノードN2も「M」であ
るが、イニシャル文字ノードN28はこれとは別に生成
するものとする。
【0039】なお、「三」を「さん」と読む場合と「み
つ」と読む場合があるが、これらの読みをもつ単語の頭
文字隠語表現との照合をより厳密に行なうために、図4
の頭文字ノードN28から通常ノードN11へのリンク
情報を生成するかわりに、N11からN17、およびN
18からN24までの通常ノードをすべて複製して頭文
字ノードN28の子供ノードとするような索引構成とす
ることもできる。
【0040】続けてステップS303では、伏字・隠語
表現リスト13を参照して、隠語表現のノードを追加す
る。隠語表現が複数文字からなる場合は、この隠語表現
の各文字のノードを生成し、隠語表現の各文字のノード
に次の文字へのノードへのリンクを順次生成する(図4
のN25、N26)。ステップS302までに、伏字・
隠語表現リスト13に登録された通常文字のノードが索
引データ中の通常ノードとして生成されている場合に
は、これらのノードに対して以下の処理を行なう。ま
ず、この通常文字を含む見出し語における前の文字のノ
ードに、この通常文字に対応する隠語表現の先頭文字の
ノードへのリンクを追加する。さらに、この隠語表現の
末端文字のノードからこの隠語表現に対応する通常文字
のノードへのリンク情報を生成する。以上の処理によ
り、図4におけるN10、N25、N26、及びこれら
に付随するリンク情報が生成される。この隠語表現文字
のノードを生成することにより、「束芝」(東芝の隠
語)、「木公下」(松下の隠語)といった隠語表現との
照合が可能となる。
【0041】図面を見やすくかつ説明を簡単にするため
に、図4に示した伏字・隠語表現リスト13には、隠語
表現の例として2例しか示していないが、この他にも多
数の例が考えられる。たとえば、「ー(長音)」と「−
(ハイフン)」(例:「ソニー」→「ソニ−」)、
「ソ」と「ン」(例:「パナソニック」→「パナンニッ
ク」)、「三」と「四」(例:「三菱」→「四菱」)、
「日」と「目」(例:「日立製作所」→「目立製作
所」)、「ル」と「ノレ」(例:「ドトールコーヒー」
→「ドトーノレコーヒー」)などが考えられるが、いず
れも伏字・隠語表現リスト13に登録することにより照
合可能となる。以上で、照合用索引生成ステップ(S2
01)の詳細説明を終了する。
【0042】次に、図6乃至図9と及びこれまでに示し
た図とを適宜参照しながら、同義語表現検索ステップ
(S202)の詳細について説明する。入力文書データ
の例として、「M菱電機、束芝、木公下電器の製品につ
いて」を用いる。また、照合用索引データとしては図4
に示したものを用いて説明する。
【0043】図6のステップS601では、同義語表現
検索処理全体の初期化を行なう。入力文書12を文字配
列Sに読み込み、入力文書12における文字位置Pを0
で初期化する。ステップS602は処理全体の終了条件
判定である。文字位置Pが入力文書12の文書サイズ以
上となったら照合処理を終了する。Pが文書サイズ以下
の間は、Pを変動させながら、ステップS603以下の
処理を繰り返し実行する。図6では、理解を容易にする
ため図示していないが、入力文書が複数ある場合には各
文書に対して同義語表現検索ステップS202を繰り返
す。ここでは、「M菱電機、束芝、木公下電器の製品に
ついて」という文字列が配列Sに読み込まれる(図
8)。
【0044】図6のステップS603では、文字位置P
から始まる部分文字列に対する照合処理の初期化を行な
う。変数Lは作業用変数であり、ノードのリストが格納
される。初期状態では変数Lには、ルートノードN0を
ただ一つだけ格納する。また、変数Lnextも同じく
作業用変数であり、ノードのリストを格納する。初期状
態において、Lnextは空リストを設定する。変数D
は作業用変数であって、照合処理が何文字めまで進んだ
かを示すものであり、0で初期化する。変数Obufは
出力する同義語関係を一時的に蓄積する変数であり、空
リストで初期化する。
【0045】文字位置Pから始まる部分文字列に対する
照合処理では、ステップS604からステップS615
の処理を繰り返す。図6のステップS604は、部分文
字列照合処理の終了判定である。この処理において、L
が空リストである場合は、開始文字位置Pから照合を始
めてD文字め(P+Dの文字位置)における照合が失敗
したということを意味する。この場合は、部分文字列に
対する照合処理を終了し、ステップS616に進む。ス
テップS616では、処理終了時点におけるObufの
内容から最長一致となる候補を候補単語15として出力
する。さらにステップS616ではPをインクリメント
し、その後ステップS602に戻り、次の部分文字列に
対する照合処理を続ける。ここでは、LがステップS6
03で初期化された状態であり、空リストではないので
ステップS605に進む。
【0046】上述したステップS605からステップS
615の処理を、ノードのリストを保持する作業用Lの
各要素について繰り返す。ここでステップS605で
は、ノードのリストLの各要素を表わす変数としてNを
用いている。このステップは、Lの各要素Nに対する繰
り返し処理の終了判定である。ここではLがN0のみな
ので(ステップS605:NO)、N=N0としてステ
ップS606以下の処理を行なう。
【0047】ステップS606において、処理中の入力
文書の部分文字列の先頭文字(S[P+D])が伏字文
字であるかどうかを判定する。伏字文字とは、図1にお
ける伏字・隠語表現リスト13に登録された伏字文字で
ある。たとえば、「○」「●」「×」「□」「△」など
の文字を、伏字・隠語表現リスト13に登録しておく。
これらは「三○電機」や「●菱電機」などの伏字表現に
おいて多用される文字である。ここではS[P+D]=
S[0]は「M」であり、伏字ではないのでステップS
607に進む(ステップS606:YES)。
【0048】ステップS607では、照合用索引データ
14(図4)と処理中の部分文字列の先頭文字(S[P
+D])との照合処理を行なう。ここでは先頭文字
「M」との照合に成功し、図4のノードN2及びN28
が得られる。ステップS608に進み、照合に成功した
のでステップS609に進む(ステップS608:N
O)。
【0049】ステップS609では、上記で得られた照
合成功ノードのそれぞれに対して、次に処理すべきノー
ドをそのノードのリンクより取得して、作業用のノード
リストLnextに追加する。この照合ノード追加処理
(ステップS609)の詳細フローを図7に示す。ステ
ップS607で照合に成功したノードすべてについて、
ステップS701からステップS708の処理を行な
う。ステップS701はこの繰り返し処理の終了判定で
ある。ここでは、N2及びN28について順次処理を行
なう。
【0050】まず、ノードN2は通常ノードであるの
で、ステップS702の判定によりステップS703に
進む。ステップS703において、Lnextの末尾に
ノードN2を追加する。つぎにノードN28に対する処
理を行なう。ノードN28はイニシャル文字展開処理で
追加生成されたノードであり、通常ノードではない。し
たがってステップS702の判定によりステップS70
4に進む。ノードN28は隠語表現文字ノードではない
ので、ステップS705に進む。ステップS705にお
いて、ノードN28のリンク情報により通常ノードN1
1及びN18を得て、これを作業用ノードリストLne
xt末尾に追加する。以上の処理の結果、Lnext=
[N2,N11,N18]となる。
【0051】図6に戻り、ステップS610以降の処理
を続行する。ステップS610からS605に戻り、L
の各要素を処理済みか否かを再び判断する。ここではL
はN0のみだったので次の要素はなく(ステップS60
5:YES)、ステップS615に進む。ステップS6
15では、まずLnextの各ノードについて単語リス
ト11の各見出し語へのリンク情報(図4の403)が
あるかどうかを判定し、もしあれば当該照合単語を変数
Obufに一時出力する。ここではLnextの要素N
2、N11、N18のいずれも見出し語へのリンク情報
をもたないので、Obufは空リストのままである。さ
らに作業用変数Dをインクリメントし、LをLnext
の内容で更新してからステップS604に戻って処理を
続行する。
【0052】今度もLは空リストではない(L=「N
2,N11,N18」)ので、ステップS604からス
テップS605に進む。続けてステップS606では、
処理中の部分文字列の先頭文字(S[P+D]=S
[1])が伏字文字であるかどうかの判定を行なう。S
[1]=「菱」であるので(ステップS606:YE
S)、ステップS607に進む。Lに含まれる3つのノ
ードのうちN11のみが照合に成功し、ステップS60
9において子ノードのN13がLnextに追加され
る。ステップS605からステップS610の処理を繰
り返した結果、Lnext=[N13]となり、ステッ
プS605の終了判定を経てステップS615に進む。
【0053】ステップS615で、Lnextの要素N
13が見出し語へのリンク情報を有するので、Obuf
に同義語関係(M菱=三菱)を追加する。なお、Obu
fへの追加の際には、入力文書中の出現文字列と見出し
語との一致判定を行ない、一致しなかった場合のみ追加
するものとする。さらにS604からS615の処理を
繰り返す。D=3のとき、Lnextの要素N17が上
記と同じく見出し語へのリンク情報を有するので、Ob
ufに同義語関係(M菱電機=三菱電機)が追加され
る。D=4の時点でS[4]=「、」となるため、すべ
ての照合に失敗してLが空リストとなり、ステップS6
16に進む。
【0054】ステップS616では、Obufに一時的
に蓄積された同義語関係のうち、最長一致となる候補の
みを出力する。この場合、(M菱電機=三菱電機)とい
う候補単語15を出力する。出力例を図9に示す。候補
単語15は、抽出された同義語表現を表す901、これ
に対する通常単語を表す902、この同義語表現が抽出
された文書の文書IDを表す903、および同義語表現
が入力文書中に出現した出現位置904からなる。90
3及び904については、後述する同義語表現識別ステ
ップS203において参照する。なお、ここでは簡単の
ため、文書IDにより同義語が出現した文書を参照する
ような構成としたが、同義語表現識別ステップS203
において文脈を判断するのに十分な情報であれば、図9
に示した構成をとらなくてもよい。たとえば、文書ID
と出現位置を格納する代わりに、文書中に出現した同義
表現の前後所定文字数を保持するよう構成してもよい。
【0055】続けてステップS602に戻り、ステップ
S603以下の処理を続行する。P=1、P=2,P=
3,P=4のときはいずれも照合に失敗し、同義語関係
は出力されない。P=5のとき、ステップS603、S
604、S605、S606と順次処理を行い、ステッ
プS607においてS[5]=「束」とノードN10と
の照合に成功し、ステップS609に進む。ノードN1
0は通常ノードではなく隠語表現文字ノードなので、図
7の照合ノード追加処理中のステップS702からステ
ップS704を経てステップS705が実行される。ス
テップS705では、隠語表現文字ノードN10からの
リンク情報により通常ノードN7を得て、これをLne
xtに追加する。続けてD=1(P=5)のときに図6
のステップS607においてN7の子供ノードN9との
照合に成功し、ステップS615で(束芝=東芝)とい
う同義語関係がObufに蓄積される。さらにステップ
S604からステップS615の処理を繰り返し、D=
2のとき照合に失敗してステップS604からステップ
S616に進む。ステップS616において上記の(束
芝=東芝)という同義語関係を出力する。
【0056】続けてステップS602に戻り、ステップ
S603以下の処理を続行する。P=6,P=7のとき
はいずれも照合に失敗し、同義語関係は出力されない。
P=8のとき、ステップS603、S604、S60
5、S606と順次進み、ステップS607においてS
[8]=「木」とノードN25との照合に成功し、ステ
ップS609に進む。ノードN25は通常ノードではな
く、隠語表現文字ノードなので、図7の照合ノード追加
処理中のステップS702からステップS704を経て
ステップS706に進む。ステップS706では、隠語
表現文字ノードが隠語表現の末端であるかどうかを判定
する。ここではN25が末端ではないので、ステップS
707が実行され、LnextにN25が追加される。
続けてD=1(P=8)のときに、図6のステップS6
07において、N25の子供ノードN26との照合に成
功する。今度は図7のステップS706において、隠語
表現文字の末端であると判定され、リンク情報により通
常ノードN18を得て、LnextにN18を追加す
る。さらに図6のS604からS615の処理を繰り返
し、ノードN20およびノードN24において、それぞ
れ(木公下=松下)および(木公下電器=松下電器)と
いう同義語関係をObufに蓄積する。D=5(P=
8)のときすべての照合に失敗し、ステップS604か
らステップS616に進む。ステップS616におい
て、最長一致の(木公下電器=松下電器)という同義語
関係を出力する。
【0057】以下、ステップS602に戻り、ステップ
S603以下の処理を続行する。ここでは、P=9〜1
2のいずれも照合に失敗し、同義語関係は出力しない。
ステップS602の終了判定を経て同義語表現検索ステ
ップ(S202)を終了する。
【0058】次に、別の入力例「三○電機と○○電器」
を用いて、図6のステップS611からステップS61
4までの伏字文字照合に関する処理について説明する。
まず、P=0、D=0のときに、ステップS607にお
いてS[0]=「三」と図4の通常ノードN11との照
合に成功し、Lnext=[N11]となる。続けてP
=0、D=1のときに、ステップS606においてS
[1]=「○」であるので、ステップS611に進む。
次にステップS611において、ノードN11の子供ノ
ードにある伏字文字照合用ノードN12の種別を判定す
る。ここでは伏字文字照合用ノードN12は「先読みな
し」(図4の404b)であるので、ステップS612
に進む。
【0059】ステップS612では、処理中ノードN
(=N11)の子供ノードのうち通常ノードをすべてL
nextに追加する。その際、伏字文字照合用ノードN
12に保持している当該ノードの兄弟ノードの一覧(図
4の404b)を参照する。図4では簡単のため、単語
リスト11の語数が少ない例を示しているが、実際には
単語リストは数千語から数万語に及ぶこともあり、親ノ
ードの保持するリンク情報を順次辿りながら、通常ノー
ドのみを選択するという処理に時間を要する。この処理
を事前に照合用索引生成ステップS201で実行し、図
4の404bのように索引化することによって、同義語
表現検索ステップS202の処理を高速化できる。ここ
では、N11の子供ノードN13がLnextに登録さ
れる。
【0060】続けて、ステップS610からステップS
605を経て、ステップS615に進む。Lに含まれる
ノードN13は、照合単語へのリンク情報を有するの
で、Obufに同義語関係(三○=三菱)が追加され
る。さらにステップS604からステップS615の処
理を繰り返し、D=3(P=0)のときに、ステップS
615でノードN17により得られる同義語関係(三○
電機=三菱電機)がObufに追加される。さらにD=
4のときには照合が失敗し、ステップS604からステ
ップS616に進む。ステップS616では、最長一致
の同義語関係(三○電機=三菱電機)が出力される。
【0061】さらにステップS602に戻り、ステップ
S603以下の処理を続行する。P=1,P=2,P=
3,P=4のときはいずれも照合に失敗し、同義語関係
は出力されない。P=5のとき、ステップS603、S
604、S605と順次進み、ステップS606におい
てS[5]=「○」であるので、ステップS611に進
む。次にステップS611において、ノードN0の子供
ノードにある伏字文字照合用ノードN1の種別を判定す
る。ここでは伏字文字照合用ノードN1は「先読みあ
り」(図4の404a)であるので、ステップS613
に進む。
【0062】ステップS613では、先読み処理を行な
う。まず入力文書中において、伏字文字以外の文字が出
現する位置を検出する。変数Preは文字数を格納する
変数であって、検出結果はPreで得る。現在処理中の
D文字めから数えてPre文字目に伏字文字以外の文字
が出現するとする。ここでは、「○○電器」(P=5,
D=0)に対して、Pre=2の「電」が検出される。
次に図5に示した伏字文字照合用ノードが保持する索引
情報404aを参照し、Pre文字後に上記で検出され
た「電」が出現するノードを取得して先読み結果とす
る。この例では、ノードN1の2文字後に、「電」が出
現するN15およびN22が先読み結果として得られ
る。続けてステップS614では、先読み結果を作業用
ノードリストLnextに設定し、作業用変数Dを先読
み文字数Preだけ増加する。
【0063】文字列の先頭から伏字が連続して出現する
ような場合には、ステップS611を経由する処理では
作業用リストLに登録されるノード数が非常に多くな
り、ステップS607からステップS608の処理が多
数繰り返されて、照合処理に多大な時間を要することと
なる。上記の先読み処理ステップS613、および伏字
文字照合用ノードが保持する索引情報404a(図4及
び図5)により、無用な照合処理を避けて高速化するこ
とができる。
【0064】上記のステップS614からステップS6
15に進み、ノードリストLnextに含まれる各ノー
ドについて、照合単語へのリンク情報(図4の403)
があるかどうかを判定し、もしこのようなものがあれ
ば、当該照合単語を変数Obufに一時出力する。ここ
ではLnextの要素N15、N22のいずれも照合単
語へのリンク情報をもたないので、Obufは空リスト
のままである。さらに作業用変数Dをカウントアップ
し、LをLnextの内容で更新してからステップS6
04に戻って処理を続行する。P=5, D=3のとき、
S[8]=「器」とN22の子供ノードN24との照合
に成功し、ステップS615で(○○電器=松下電器)
という同義語関係がObufに蓄積される。さらにS6
04からS615の処理を繰り返し、D=4のときステ
ップS604からステップS616に進む。ステップS
616において、上記の(○○電器=松下電器)という
同義語関係を出力する。
【0065】さらに、図6のステップS602以下の処
理を繰り返す。P=6, P=7, P=8のときはいずれ
も照合に失敗し、同義語関係は出力されない。ステップ
S602の終了判定を経て同義語表現検索ステップ(S
202)を終了する。以上で、同義語表現検索ステップ
(S202)の詳細に関する説明を終了する。
【0066】なおこれまでの説明では、通常文字に隠語
表現が存在する場合に、通常文字ノードの親ノード(通
常文字の前の文字のノード)に隠語表現の先頭文字への
ノードへのリンクを生成し、この隠語表現の末端文字の
ノードからこの通常文字のノードへのリンクを生成する
構成としている。しかし、このリンク経路の構成方法と
しては、単語リストの見出し語の先頭文字から末端文字
までのリンクの途中から隠語表現のノードをバイパスで
きることが必要十分条件であり、必ずしもこのような構
成に限られるものではない。図10に、本実施の形態で
可能なリンク経路のバリエーションの例を示す。図10
の(a)は、この実施の形態におけるリンク経路の例で
ある。これに対して、(b)は通常文字のノードに隠語
表現の先頭文字ノードへのリンクを生成し、隠語表現の
末端文字のノードを経由して、最終的にこの通常文字の
次の文字のノードにリンクが到達するリンク経路の例で
ある。また、(c)は通常文字の前の文字のノードに隠
語表現の先頭文字のノードへのリンクを生成し、また隠
語表現の末端文字のノードからこの通常文字の次のノー
ドへリンクするリンク経路の例である。
【0067】次に、これまでに示した図を適宜参照しな
がら、同義語表現識別ステップ(S203)の詳細につ
いて説明する。図11は同義語表現識別処理の詳細フロ
ーである。ステップS1101からステップS1104
において、同義語表現検索処理により抽出された候補単
語の各項目に対して加点または減点を行ない、ステップ
S1105において各候補単語の得点(重み付け)を集
計し、得点つきの同義語データを出力する。このような
重み付けにより、精度のよいランキングが可能となる。
また、所定の閾値を設け、閾値以上の得点を持つ同義語
辞書データについては自動作成とし、所定の閾値未満の
同義語辞書データについては人手によりチェックするこ
とにより、効率的かつ信頼性の高い辞書データを作成す
ることも可能である。
【0068】まず、箇条書きを考慮した重み付けの処理
について説明する。伏字文字として用いられることの多
い○や●などの文字は、同時に複数項目を文書中に並列
する箇条書きの行頭文字やヘッダ文字としても用いられ
ることが多い。「○菱食 ○シートゥー ○東海観光
…」のような箇条書き表現が入力文書に存在する場合で
あっても、単純な文字列の照合処理によると(○菱=三
菱)という関係を抽出することとなる。このような単純
な文字列照合処理によって抽出された候補単語の中か
ら、同義語である候補単語を選び出すために、文脈情報
を利用する。文脈情報とは、候補単語が入力文書におい
て出現する位置やその前後に存在する単語や文字の特徴
を抽出した情報をいう。処理の種類(例えばここで説明
する箇条書きを検出する場合や、後述する相互補完を検
出する場合など)に応じて、抽出すべき特徴は異なって
くる。
【0069】ステップS1101では、箇条書きの検出
を行ない、箇条書きであると判定された候補単語の得点
を減点する。箇条書き検出処理について、図12の詳細
フローにより説明する。図12においてステップS12
01は、文脈情報取得ステップである。このステップS
1201では、図13に示した各同義語データの出現文
書IDと、候補単語の出現位置前後の文字列を入力文書
から所定文字数分(たとえば前後50文字)切り出した
ものとを、文脈情報として取得する。つぎにステップS
1202では、上記文脈情報に対する箇条書き判定処理
を行なう。上記文脈情報において、候補単語中で使用さ
れている伏字と同一の伏字が、改行直後に所定数以上
(たとえば3回以上)出現する場合には、当該伏字が箇
条書きヘッダであると判定して、ステップS1203に
おいて減点処理を行なう。この実施の形態では、箇条書
きヘッダであると判定された場合には、−1点の減点を
行なうものとする。たとえば、「○菱食 ○シートゥー
○東海観光 …」のような箇条書き表現から抽出され
た同義語関係(○菱=三菱)については、上記の箇条書
き検出処理により減点処理を受ける(図13の130
1)。なお、空白やタブコードなどでインデントされる
文書もあるので、ステップS1202では改行直後の伏
字だけでなく、改行直後の空白またはタブコードの直後
の伏字を検出するようにしてもよい。また、HTML文
書では改行コードのかわりに<BR>タグが用いられるの
で、この直後に出現する伏字を検出するようにしてもよ
い。
【0070】次に、図2の同義語表現検索ステップS2
02が抽出した複数の候補単語のうち、同一の同義語を
表現する候補単語であって、この候補単語の構成文字の
うち異なる文字を伏字で置換したもの(例えば「三○電
機」や「●菱電機」のような関係にある候補単語)が、
近傍に出現することを検出することによって重み付けを
行う処理をステップS1102において行う。たとえば
隠語表現や伏字表現では、「三○のケータイについて
○菱では…」のように、意図的に伏字とする文字を変更
して推測を容易にする例がある。このような表現を文脈
情報から抽出することで、精度の高い重み付けを実現す
るものである。なお、以降の説明において、上記のよう
な関係にある候補単語相互の関係を、以後「相互補完」
の関係と呼ぶ。
【0071】連続出現検出処理について、図14の詳細
フローにより説明する。まず、ステップS1401で
は、図13に示した各同義語データの出現文書IDおよ
び出現位置から、同義表現前後の所定文字数(たとえば
前後50文字)以内にある別の同義語データを、近傍同
義語データとして取得する。たとえば図13に示した同
義語データ1302に対して、近傍同義語データ130
3を取得する。次にステップS1402では、上記近傍
同義語データに対する相互補完判定処理を行なう。上記
近傍同義語データ中に、同じ見出し語についての候補単
語であって、文字の置換方法が異なるものがある場合に
は、この候補単語の同義語データについてステップS1
403において加点処理を行なう。ここでは、相互補完
関係にある同義語データありと判定された場合には+1
点の加点を行なうものとする。
【0072】ステップS1103では、入力文書中に連
続出現する候補単語を検出し、加点処理を行なう。連続
出現検出処理について図15の詳細フローにより説明す
る。まずステップS1501では、図13に示した各候
補単語の出現文書IDおよび出現位置から候補単語前後
の所定文字数(たとえば前後50文字)以内にある別の
候補単語を近傍候補単語として取得する。次にステップ
S1502では、上記近傍候補単語に対する連続出現判
定処理を行なう。入力文書における候補単語の出現位置
の近傍に、所定数以上(たとえば3個以上)の候補単語
がある場合には、この候補単語に対してステップS15
03において加点処理を行なう。ここでは連続出現同義
語データありと判定された場合に、+1点の加点を行な
うものとする。たとえば「M菱、T芝、M下の製品が
…」のように、関連企業(上記の場合はメーカー)を連
続して類似の隠語表現とする例がある。このように近傍
に候補単語が連続して出現する場合には、それらの同義
関係は信頼性が高いものとして加点処理(たとえば+1
点)を行なう。なお、上記のような見出し語の分類(メ
ーカーや通信業者などの業種等による分類など)を単語
リスト11に記憶させ、さらに同じ分類の候補単語が近
傍に出現している場合は、通常(+1点)よりも大きな
加点処理(たとえば+3点)を行なうようにしてもよ
い。
【0073】ステップS1104では、隠語表現の近傍
ないしは隠語表現自体に含まれやすい単語を文脈情報と
して検出することにより、加点処理を行なう。ここでマ
ーカー単語とは、「某M菱の製品が…」のように、隠語
表現や伏字表現と共起しやすい単語をいう。このような
マーカー単語の例としては、「某」以外にも「例の」と
か「うわさの」などが考えられる。
【0074】マーカー単語検出処理について図16の詳
細フローにより説明する。まずステップS1601で
は、図13に示した各同義語データの出現文書IDおよ
び出現位置から同義表現前後の所定文字数(たとえば前
後50文字)の文字列を文脈情報として取得する。次に
ステップS1602では、上記文脈情報に対するマーカ
ー単語判定処理を行なう。ここでは、隠語表現の近傍に
出現しやすいマーカー単語を事前に定義しておき、この
単語が上記文脈情報中に出現する場合にはステップS1
603において加点処理を行ない、マーカー単語が検出
された場合には+1点の加点を行なうものとする。たと
えば「某M菱の製品が…」のように、「某」という単語
は隠語表現の近傍に出現しやすい。そこで、近傍に
「某」が出現する隠語表現又は伏字表現については、そ
れらの同義語関係は信頼性が高いものとして加点処理
(たとえば+1点)を行なう。
【0075】ステップS1105では、異なる文書に出
現した同一の隠語表現または伏字表現と見出し語との組
合せについて、上記のステップS1101からステップ
S1104の処理により重み付けされた得点を集計し、
同義語辞書16に出力する。以上で照合結果集計ステッ
プ(S203)の詳細についての説明を終了する。
【0076】なお、上記では説明を簡便にするため、図
2において同義語表現検索ステップS201と同義語表
現識別ステップS202を分割した構成として説明した
が、各文書ごとに照合中に同時に集計を行なうような構
成とすることもできる。具体的には、図9に示した同義
語データで出現文書ID及び出現位置のかわりに得点情
報を格納する構成とし、新たに抽出された同義語データ
に対して随時集計処理を行ない、得点を加算していくこ
とにより、上記と同様の出力(同義語辞書16)を得る
ことができる。
【0077】以上説明したように、入力した単語リスト
の見出し語から照合用索引を生成する照合用索引生成手
段と、入力文書中に出現する隠語表現又は伏字表現とこ
の照合用索引とを照合して、同義語関係を抽出する同義
語表現検索手段と、抽出された同義語関係を集計して同
義語辞書データを生成する同義語識別手段を有すること
で、近傍に出現することのない隠語表現と単語リストの
見出し語との同義語関係を抽出することが可能になり、
多様な隠語表現についての同義語辞書を自動的に作成す
ることができるという効果が得られる。
【0078】また、上記照合用索引生成手段が、先頭文
字がイニシャル文字で置換された隠語表現と照合可能な
索引を生成し、上記同義語検索手段が、通常文字とイニ
シャル文字とについて個別の照合処理を行なうことで、
「M菱電機」や「M下電器」といった伏字表現との照合
が可能となり、(M菱電機=三菱電機)や(M下電器=
松下電器)といった同義語辞書が自動的に作成されると
いう効果が得られる。
【0079】また、上記照合用索引生成手段が、通常文
字について置換される隠語表現文字を展開した索引を生
成し、上記同義語表現検索手段が、通常文字と隠語表現
文字とについて、個別の照合処理を行なうことで、「束
芝」(東芝の隠語)などの隠語表現との照合が可能とな
り、(束芝=東芝)などの同義語辞書が自動的に作成さ
れるという効果が得られる。
【0080】また、上記照合用索引生成手段が、通常文
字について置換される隠語表現文字を展開した索引を生
成し、上記上記同義語表現検索手段が、合成文字の末端
を判定して照合処理を行なうことで、「木公下」(松下
の隠語)などの隠語表現との照合が可能となり、(木公
下=松下)などの同義語辞書が自動的に作成されるとい
う効果が得られる。
【0081】また、上記同義語表現検索手段が、伏字表
現で多用される伏字文字を検出することで、「○菱」な
どの伏字表現との照合が可能となり、(三菱=○菱)な
どの同義語辞書が自動的に作成されるという効果が得ら
れる。
【0082】また、上記照合用索引に含まれる伏字文字
照合用ノードが子供ノードのうち通常ノードのみを登録
した索引情報を有し、上記隠語表現照合ステップがこの
索引を用いた伏字文字照合ステップを有することで、単
語リストに見出し語が大量にある場合でも「○菱」など
の伏字表現との照合処理が高速に実行できるという効果
が得られる。
【0083】また、上記同義語表現検索手段が、伏字文
字との照合において入力文書中の文字を先読みすること
により照合処理回数を削減可能としたことで、単語リス
トに見出し語が大量にある場合でも「○○電器」などの
伏字表現との照合処理が高速に実行できるという効果が
得られる。
【0084】また、上記同義語表現識別手段が、抽出さ
れた候補単語の前後の文脈により重み付けを行なうこと
で、抽出誤りの少ない的確な同義語抽出結果が得られる
とともに、閾値により自動抽出の件数を変更するなどの
柔軟な辞書作成が可能になるという効果が得られる。
【0085】また、上記同義語識別手段が、候補単語の
入力文書における前後の文脈から、箇条書きの可能性の
高い部分を検出して、この同義語関係の重み付けを小さ
くすることで、箇条書きヘッダ文字を伏字と誤認しにく
くなり、同義語抽出結果の精度が向上するという効果が
得られる。
【0086】また、上記同義語識別手段が、候補単語の
入力文書における前後の文脈から、相互補完の関係にあ
る伏字表現を検出して、同義語関係の重み付けを大きく
することで、候補単語の文字のうち伏字とする文字を変
更したものを複数用いて推測を容易にした伏字表現を含
む入力文書より伏字表現を抽出し、同義語抽出結果の精
度が向上するという効果が得られる。
【0087】また、上記同義語識別手段が、候補単語の
入力文書における前後の文脈から、連続出現する隠語表
現や伏字表現を検出して同義語関係の重み付けを大きく
することで、近傍に連続して隠語表現や伏字表現が出現
する場合に同義語抽出結果の精度が向上するという効果
が得られる。
【0088】また、上記同義語識別手段が、候補単語の
入力文書における出現位置の近傍で多用されるマーカー
単語を検出して同義語関係の重み付けを大きくすること
で、同義語抽出結果の精度が向上するという効果が得ら
れる。
【0089】
【実施の形態2】図17に本発明の実施の形態2におけ
る構成図を示す。以下では、「防衛庁」を「某A庁」と
したり、「雪印」を「逝き印」とするといった、読みが
共通で元単語と著しく異なる表記とする隠語表現のこと
を「読み隠語」と呼ぶ。また実施の形態1と同一の構成
物については、図1で示したものと同じ図番で示してい
る。2は本実施の形態に係る辞書作成装置であって、単
語リスト11および入力文書12を入力すると、単語リ
スト中の見出し語と読みが一致する隠語表現を入力文書
12から抽出して同義語辞書16を生成する。1701
は読み隠語照合用索引生成部であって、1702は読み
隠語照合用索引生成部が1701が単語リスト11の見
出し語の読みに基づいて生成される読み隠語照合用索引
データである。また1703は読み隠語検索手段であっ
て、1704は読み隠語検索手段1703が入力文書1
2の漢字の読みを取得するために参照する漢字読みテー
ブルである。
【0090】読み隠語照合用索引生成手段1701は、
少なくとも見出し語及び読みを含む単語リスト11を読
み込み、読み隠語検索手段において索引情報として使用
する読み隠語照合用索引データ1702を生成する。読
み隠語検索手段1703では、入力手段102を用いて
入力文書12を順次読み込み、この入力文書中の文字列
と上記読み隠語照合用索引データ1702とを照合する
ことにより、候補単語15を抽出する。同義語表現識別
手段104では、抽出された候補単語15を集計し、登
録手段105を用いて同義語辞書16を出力する。漢字
読みテーブル1704は、各漢字に対する読みを登録し
たテーブルであり、読み隠語検索手段1703が照合処
理において参照し、入力文書12に出現する漢字を読み
に変換するために使用する。制御部106では、上記の
各処理が一貫して動作するよう全体を制御する。また本
発明に必須の構成要素ではないため図示を省いたが、実
際の利用者が本装置を使用するための入出力などの制御
についても制御部106において行なう。
【0091】図18は、読み隠語に関する同義語関係抽
出の処理フローである。まずステップS1801におい
て読み隠語照合用索引生成手段1701は、単語リスト
11から読み隠語照合用索引データ1702を生成す
る。続けてステップS1802において読み隠語検索手
段1703は、入力手段102によって読み込んだ入力
文書12の文字列の読みを漢字読みテーブル1704か
ら取得し、この読みと上記照合用索引データ1702と
を照合することにより、候補単語15を抽出する。最後
にステップS203において、同義語識別手段105は
抽出された上記候補単語15を集計し、同義語辞書16
を生成する。ステップS203の処理については実施の
形態1とまったく同様であるので、説明を省略する。以
下、上記の各処理ステップの詳細について順次説明す
る。
【0092】まず図19を参照しながら、読み隠語照合
用索引生成ステップS1801の詳細について説明す
る。以下では、単語リストの見出し語として図19の1
901に示したデータが入力されるものとして説明す
る。読み隠語照合用索引データ1702は、実施の形態
1において図4に示した照合用索引データ14と同様、
ノード1902および各ノードを接続するリンク情報1
903、及び照合単語へのリンク情報1904から構成
される。各ノードには子孫ノードへのリンク情報190
3、及び照合単語へのリンク情報1904を保持するも
のとする。なお、ノード番号N0を付与したノードはル
ートノードであり、照合処理開始時に参照する特殊なノ
ードである点も図4と同様である。
【0093】読み隠語照合用索引生成ステップS180
1では、入力された単語リスト1901の読み部分の木
構造化を行なう。すなわち、図13に示した単語リスト
1901に含まれる各単語の読みを文字単位で分解して
ノードとし、先頭から共通な部分をマージして木構造と
する。このとき、各単語の最終文字のノードには照合単
語へのリンク情報1904を付与する。
【0094】次に図19及び図20を参照しながら、読
み隠語検索ステップS1802の詳細について説明す
る。入力文書データの例として「逝き印の牛乳」を用い
る。また、照合用索引データとしては図19に示したも
のを用いて説明する。
【0095】図20のステップS2001では、読み隠
語検索処理全体の初期化を行なう。Sは文字配列であ
り、ステップS2001で入力文書を文字配列Sに読み
込む。またPは照合開始位置を示す変数で、0で初期化
する。ステップS2002は処理全体の終了条件判定で
あり、照合開始位置Pが入力文書サイズ以上となった
ら、照合処理を終了する。そうでなければ、照合開始位
置Pを変更しながらステップS2003以下の処理を繰
り返し実行する。図を簡易にして理解を容易にするため
図示していないが、入力文書が複数ある場合には各文書
に対して読み隠語検索ステップ(S1802)を繰り返
す。ここでは、「逝き印の牛乳」という文字列が配列S
に読み込まれる。
【0096】図20のステップS2003では、文字位
置Pから始まる部分文字列に対する照合処理の初期化を
行なう。作業用の変数Lはノードのリストであり、ルー
トノードN0ただ1つからなるリストで初期化する。同
じく作業用のノードリストLnextは空リストで初期
化する。変数Dは作業変数であって、照合処理が何文字
めまで進んだかを示すものであり、0で初期化する。変
数Obufは出力する同義語関係を一時的に蓄積するも
ので、は空リストで初期化する。
【0097】文字位置Pから始まる部分文字列に対する
照合処理では、ステップS2004からステップS20
09の処理を繰り返す。図20のステップS2004は
部分文字列照合処理の終了判定であり。Lが空リストで
あれば開始文字位置PからはじめてD文字めにおける照
合が失敗したということになるので、部分文字列に対す
る照合処理を終了し、ステップS2011に進む。ステ
ップS2011では処理終了時点におけるObufの内
容から最長一致となる候補を候補単語15として出力す
る。さらにPをインクリメントし、ステップS2002
に戻り次の部分文字列に対する照合処理を続ける。ここ
では、LがステップS2003で初期化された状態であ
り空リストではないのでステップS2005に進む。
【0098】ステップS2005では、図17の漢字読
みテーブル1704を参照して処理中の文字S[P+
D]の読みを取得する。ここではP=0, D=0なので
S[0]=「逝」であり、「ゆ」「い」及び「せい」と
いう3種類の読みが得られる。それぞれの読みを作業用
変数Y[0]、Y[1]、Y[2]に格納する。
【0099】作業用ノードリストLの各要素について、
ステップS2006からステップS2009の処理を繰
り返し行なう。ステップS2006は、Lの各要素に対
する繰り返し処理の終了判定である。ここではLがN0
のみなので、N=N0としてステップS2007以下の
処理を行なう。
【0100】ステップS2007およびステップS20
08において、ステップS2005で取得した各読みY
[0]〜Y[2]について、N(=N0)から子孫ノー
ドをたどりつつ照合可能なノードLnextを取得す
る。ここでは、Y[0]=「ゆ」に対して、ノードN0
の子供ノードN1との照合に成功する。Y[1]=
「い」に対しては、ノードN0の子供ノードとの照合に
失敗する。Y[2]=「せい」に対しては、ノードN1
9およびノードN20との照合に成功する。以上の結
果、Lnext=[N1, N20]となった状態でステ
ップS2009からステップS2006に進む。
【0101】Lの要素はN0のみだったのでステップS
2006からステップS2010に進む。ステップS2
010では、まずLnextの各ノードについて照合単
語へのリンク情報(図19の1904)があるかどうか
を判定し、もしあれば当該照合単語を変数Obufに一
時出力する。ここではLnextの要素N1、N20の
いずれも照合単語へのリンク情報をもたないので、Ob
ufは空リストのままである。さらに作業用変数Dをイ
ンクリメントし、LをLnextの内容で更新してから
ステップS2004に戻って処理を続行する。
【0102】今度もLは空リストではない(L=[N
1, N20])ので、ステップS2004からステップ
S2005に進む。ステップS2005において「き」
の読みを取得する(Y[0]=「き」のみ)。続けてス
テップS2007およびS2008の処理を行なう。ノ
ードN1に対しては子供ノードN2との照合に成功する
が、ノードN20に対してはいずれの子供ノードとの照
合に失敗する。この結果、Lnext=[N2]という
状態となり、ステップS2009からステップS200
6に進む。
【0103】以下、上記と同様に照合処理を進めていく
と、D=2のときにノードN5との照合が成功し、同義
語関係(逝き印=雪印)が得られる。この同義語関係が
ステップS1911において同義語データ15として出
力される。同義語データ15については第1の実施の形
態と同様であるので説明を省略する。以上で読み隠語照
合ステップS1702の説明を終了する。
【0104】以上説明したように、単語リストの見出し
語の読みから読み隠語照合処理用索引を生成する読み隠
語照合用索引生成手段と、上記読み隠語照合用索引を用
いて上記単語リスト中の単語の読みと入力文書中の単語
の読みとの照合を行なうことで同義語関係を抽出する読
み隠語検索手段と、抽出された同義語関係を集計して同
義語辞書データを生成する同義語表現識別手段とを有す
る構成としたので、「逝き印」や「某A庁」などの読み
が同じで異なる表記を使用する隠語表現との照合が可能
となり(逝き印=雪印)や(防衛庁=某A庁)などの同
義語辞書が自動的に作成されるという効果が得られる。
【0105】
【発明の効果】本発明は、照合用索引データにおいて単
語リストの見出し語の文字と伏字・隠語表現リストの隠
語表現の文字とのそれぞれについてノードを生成すると
ともに、各文字ノードから上記見出し語又は上記隠語表
現におけるその文字の次の文字ノードへのリンクを順次
生成し、上記伏字・隠語リストが上記見出し語を構成す
る文字を通常文字とする隠語表現を含む場合は、この通
常文字の前のノードからこの隠語表現の最初のノードへ
のリンク経路を生成するとともに、この隠語表現の最後
の文字のノードから上記通常文字の次の文字のノードへ
のリンク経路を生成し、同義語表現検索時において、入
力文書の文字とこの照合用索引データのリンクを辿って
得られるノードの文字を順次照合する構成としたため、
近傍に出現することのない隠語表現と単語リストの見出
し語との同義語関係を入力文書より抽出し、さらに実際
に同義語として使用されている単語のみをこの単語の入
力文書における出現位置の前後の文書の特徴を用いて選
択することができるという効果を有する。
【0106】また本発明は、伏字・隠語表現リストが隠
語表現として記憶する通常文字と文字形状の類似する文
字又は文字列をその通常文字に代替して入力文書の文字
と照合可能としたため、「束芝」(東芝の隠語)や「木
公下」(松下の隠語)などの隠語表現との照合が可能と
なり、(束芝=東芝)や(木公下=松下)などの同義語
辞書を自動的に作成することができるという効果を有す
る。
【0107】また本発明は、入力文書中に出現する伏字
を含む伏字単語の構成文字のうち伏字でない構成文字と
単語リストの見出し語のうち上記伏字単語の伏字出現位
置にある文字以外の文字とを同じ出現位置にある文字ご
とに照合し一致した見出し語を同義語となりうる候補単
語として抽出する構成としたので、「○菱」などの伏字
表現との照合を高速に実行することが可能となり、(三
菱=○菱)などの同義語辞書を自動的に作成することが
できるという効果を有する。
【0108】また本発明は、候補単語の入力文書中にお
ける出現位置の前後の文脈によりこの候補単語の重み付
けを行いこの候補単語の重み付けが所定の閾値以上の場
合はこの候補単語が同義語であると決定する構成とした
ので、伏字文字として使用されることの多い文字を含む
単語の中から、実際に伏字文字として使用されている単
語を抽出することができるという効果を有する。
【0109】また本発明は、入力文書がHTML文書で
ある場合に、伏字を含む候補単語と所定のHTMLタグ
とが上記HTML文書中に近接していることを検出して
この候補単語の重み付けを小さくする構成としたので、
HTML文書特有の構造に着目して隠語表現や伏字表現
を用いた同義語を抽出することができるという効果を有
する。
【0110】また本発明は、候補単語の先頭が伏字であ
ってこの候補単語が入力文書の行頭に出現していること
を検出してこの候補単語の重み付けを小さくする構成と
したので、伏字文字として使用されることの多い文字が
行頭に現れる場合であって、この文字を含む単語を伏字
表現による同義語として抽出する回数を減少することが
でき、精度の高い同義語辞書を作成することができると
いう効果を有する。
【0111】また本発明は、抽出された複数の候補単語
のうち同一の同義語を表現する候補単語であってこの候
補単語の構成文字のうち異なる文字を伏字で置換した伏
字表現を検出してこの候補単語の重み付けを大きくする
構成としたので、入力文書において伏字表現を用いた複
数の単語を抽出した場合に、この伏字表現を用いた単語
で同一の見出し語の同義語として用いられている単語の
抽出を効率的に行うことができるという効果を有する。
【0112】また本発明は、抽出された候補単語の入力
文書における出現位置近傍に他の候補単語が存在するこ
とを検出して同義語関係の重み付けを大きくする構成と
したので、入力文書の一部分に頻出することの多い隠語
表現や伏字表現を検出し、この情報を元に同義語辞書を
作成することができるという効果を有する。
【0113】また本発明は、語リストの見出し語のロー
マ字によるイニシャル文字を見出し語の先頭文字に置換
した単語と上記入力文書の文字とを照合する構成とした
ので、「M菱電機」や「M下電器」といった伏字表現と
の照合が可能となり、(M菱電機=三菱電機)や(M下
電器=松下電器)といった同義語辞書を自動的に作成す
ることができるという効果を有する。
【0114】また本発明は、読みとを含む単語リスト
と、漢字読みテーブルとを用いて入力文書の文字の読み
を上記漢字読みテーブルから取得し、この読みと上記単
語リスト中の見出し語の読みとを照合し一致する単語を
同義語表現となりうる候補単語として抽出する構成とし
たので、「逝き印」や「某A庁」などの読みが同じで異
なる表記を使用する隠語表現との照合が可能となり(逝
き印=雪印)や(防衛庁=某A庁)などの同義語辞書を
自動的に作成することができるという効果を有する。
【図面の簡単な説明】
【図1】 この発明の実施の形態1の構成図である。
【図2】 この発明の実施の形態1における処理のフロ
ーチャートである。
【図3】 この発明の実施の形態1における照合用索引
生成についてのフローチャートである。
【図4】 この発明の実施の形態1における照合用索引
データの構成例を示す図である。
【図5】 この発明の実施の形態1における照合用索引
データにおけるノードが保持するインデックスの例を示
す図である。
【図6】 この発明の実施の形態1における照合用索引
データと入力文書中の文字列との照合処理のフローチャ
ートである。
【図7】 この発明の実施の形態1における照合用索引
データと入力文書中の文字列との照合処理におけるリス
ト処理に関するフローチャートである。
【図8】 この発明の実施の形態1における入力文書を
メモリ中に読み込んだ態様の例を示す図である。
【図9】 この発明の第1の実施の形態における同義語
表現検索結果の保持の態様例を示す図である。
【図10】 この発明におけるリンク経路にの説明図で
ある。
【図11】 この発明の実施の形態1における同義語表
現識別手段の重み付け処理のフローチャートである。
【図12】 この発明の実施の形態1における箇条書き
検出処理のフローチャートである。
【図13】 この発明の実施の形態1における重み付け
の保持方法の態様例を示す図である。
【図14】 この発明の実施の形態1における連続出現
検出処理のフローチャートである。
【図15】 この発明の実施の形態1における隠語表現
又は伏字表現を用いた単語が入力文書において近傍に出
現することを検出する処理のフローチャートである。
【図16】 この発明の実施の形態1におけるマーカー
単語検出処理のフローチャートである。
【図17】 この発明の実施の形態2の構成図である。
【図18】 この発明の実施の形態2における読み隠語
照合用索引精製処理のフローチャートである。
【図19】 この発明の実施の形態2における読み隠語
照合用索引データの態様例を示す図である。
【図20】 この発明の実施の形態2における読み隠語
照合用索引データと入力文書中の文字列との照合処理に
ついてのフローチャートである。
【図21】 従来技術の構成図である。
【符号の説明】
11:単語リスト 12:入力文書 13:伏字・隠語表現リスト14:照合用索引データ 15:候補単語 16:同義語辞書 101:照合用索引生成手段102:入力手段 103:同義語表現検索手段104:同義語表現識別手
段 105:登録手段 1701:読み隠語照合用索引生成手段 1702:読み隠語照合用索引データ 1703:読み隠語検索手段 1704:漢字読みテーブル

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 見出し語を含む単語リストと、隠語表現
    と通常文字との対応関係又は伏字表現を記憶する伏字・
    隠語表現リストと、入力文書を読み込む入力手段と、上
    記単語リスト中の見出し語と上記伏字・隠語表現リスト
    の伏字表現又は隠語表現と入力手段から出力された入力
    文書の文字とを照合し入力文書から同義語表現となりう
    る候補単語を抽出する同義語表現検索手段と、この同義
    語表現検索手段により抽出された候補単語が同義語であ
    るか否かを入力文書におけるその出現位置の前後の情報
    から決定する同義語識別手段と、この同義語識別手段に
    より同義語と決定された候補単語に上記単語リストの見
    出し語とを対応づけて同義語辞書に登録する登録手段と
    を備えることを特徴とする辞書作成装置。
  2. 【請求項2】 上記伏字・隠語表現リストは、通常文字
    と文字形状の類似する文字又は文字列を隠語表現として
    記憶する構成とされたことを特徴とする請求項1の辞書
    作成装置。
  3. 【請求項3】 上記同義語表現検索手段は、入力文書中
    に出現する伏字を含む伏字単語の構成文字のうち伏字で
    ない構成文字と上記単語リストの見出し語のうち上記伏
    字単語の伏字出現位置にある文字以外の文字とを同じ出
    現位置にある文字ごとに照合し一致した見出し語を同義
    語となりうる候補単語として抽出する構成とされたこと
    を特徴とする請求項1記載の辞書作成装置。
  4. 【請求項4】 上記同義語識別手段は、上記候補単語の
    入力文書中における出現位置の前後の文脈によりこの候
    補単語の重み付けを行いこの候補単語の重み付けが所定
    の閾値以上の場合はこの候補単語が同義語であると決定
    する構成とされたことを特徴とする請求項1の辞書作成
    装置。
  5. 【請求項5】 上記入力手段は、HTML文書を入力文
    書として読み込み、上記同義語識別手段は、上記同義語
    表現検索手段が抽出した伏字を含む候補単語と所定のH
    TMLタグとが上記HTML文書中に近接していること
    を検出してこの候補単語の重み付けを小さくする構成と
    されたことを特徴とする請求項4記載の辞書作成装置。
  6. 【請求項6】 上記同義語識別手段は、上記同義語表現
    検索手段が抽出した候補単語の先頭が伏字であってこの
    候補単語が入力文書の行頭に出現していることを検出し
    てこの候補単語の重み付けを小さくする構成とされたこ
    とを特徴とする請求項4記載の辞書作成装置。
  7. 【請求項7】 上記同義語識別手段は、上記同義語表現
    検索手段が抽出した複数の候補単語のうち同一の同義語
    を表現する候補単語であってこの候補単語の構成文字の
    うち異なる文字を伏字で置換した伏字表現を検出してこ
    の候補単語の重み付けを大きくする構成とされたことを
    特徴とする請求項4記載の辞書作成装置。
  8. 【請求項8】 上記同義語識別手段は、上記同義語表現
    検索手段により抽出された候補単語の上記入力文書の出
    現位置近傍に他の候補単語が存在することを検出して同
    義語関係の重み付けを大きくする構成とされたことを特
    徴とする請求項4記載の辞書作成装置。
  9. 【請求項9】 上記同義語表現検索手段は、上記単語リ
    ストの見出し語のローマ字によるイニシャル文字を見出
    し語の先頭文字に置換した単語と上記入力文書の文字と
    を照合する構成とされたことを特徴とする請求項1記載
    の辞書作成装置。
  10. 【請求項10】 見出し語とその読みとを含む単語リス
    トと、漢字読みテーブルと、入力文書を読み込む入力手
    段と、この入力手段から出力された入力文書の文字の読
    みを上記漢字読みテーブルから取得し、この読みと上記
    単語リスト中の見出し語の読みとを照合し一致する単語
    を同義語表現となりうる候補単語として抽出する読み隠
    語検索手段と、上記同義語表現検索手段により抽出され
    た候補単語が同義語であるか否かを入力文書におけるそ
    の出現位置の前後の情報から決定する同義語識別手段
    と、この同義語識別手段により同義語と決定された候補
    単語に上記単語リストの見出し語とを対応づけて同義語
    辞書に登録する登録手段とを備えることを特徴とする辞
    書作成装置。
JP2002094720A 2002-03-29 2002-03-29 辞書作成装置 Pending JP2003296354A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002094720A JP2003296354A (ja) 2002-03-29 2002-03-29 辞書作成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002094720A JP2003296354A (ja) 2002-03-29 2002-03-29 辞書作成装置

Publications (1)

Publication Number Publication Date
JP2003296354A true JP2003296354A (ja) 2003-10-17

Family

ID=29387035

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002094720A Pending JP2003296354A (ja) 2002-03-29 2002-03-29 辞書作成装置

Country Status (1)

Country Link
JP (1) JP2003296354A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011113098A (ja) * 2009-11-21 2011-06-09 Kddi R & D Laboratories Inc 伏せ字を含む文章を修正するための伏せ字修正プログラム、方法及び文章解析サーバ
WO2015075920A1 (ja) * 2013-11-25 2015-05-28 Necソリューションイノベータ株式会社 入力支援装置、入力支援方法及び記録媒体
US9489370B2 (en) 2012-03-30 2016-11-08 Nec Corporation Synonym relation determination device, synonym relation determination method, and program thereof
KR20190135909A (ko) * 2018-05-29 2019-12-09 한국과학기술원 단어의 비표준 의미 사용 탐지 장치, 단어의 비표준 의미 사용 탐지 방법, 및 기록 매체

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011113098A (ja) * 2009-11-21 2011-06-09 Kddi R & D Laboratories Inc 伏せ字を含む文章を修正するための伏せ字修正プログラム、方法及び文章解析サーバ
US9489370B2 (en) 2012-03-30 2016-11-08 Nec Corporation Synonym relation determination device, synonym relation determination method, and program thereof
WO2015075920A1 (ja) * 2013-11-25 2015-05-28 Necソリューションイノベータ株式会社 入力支援装置、入力支援方法及び記録媒体
JPWO2015075920A1 (ja) * 2013-11-25 2017-03-16 Necソリューションイノベータ株式会社 入力支援装置、入力支援方法及びプログラム
US9996508B2 (en) 2013-11-25 2018-06-12 Nec Solution Innovators, Ltd. Input assistance device, input assistance method and storage medium
KR20190135909A (ko) * 2018-05-29 2019-12-09 한국과학기술원 단어의 비표준 의미 사용 탐지 장치, 단어의 비표준 의미 사용 탐지 방법, 및 기록 매체
KR102204341B1 (ko) 2018-05-29 2021-01-19 한국과학기술원 단어의 비표준 의미 사용 탐지 장치, 단어의 비표준 의미 사용 탐지 방법, 및 기록 매체

Similar Documents

Publication Publication Date Title
US8055498B2 (en) Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in the dictionary
CN101002198A (zh) 用于非罗马字符和字的拼写校正系统和方法
JPH02299068A (ja) 入力文字列からワードを分離する方法
CN116562297B (zh) 基于HTrie树的中文敏感词变形体识别方法及系统
Ohta et al. Retrieval methods for english-text with missrecognized ocr characters
Yunus et al. A context free spell correction method using supervised machine learning algorithms
JP2009098952A (ja) 情報検索システム
JP2003296354A (ja) 辞書作成装置
CN109933787B (zh) 文本关键信息的提取方法、装置及介质
KR101245631B1 (ko) 근사조합장치, 근사조합방법, 프로그램 및 기록매체
US20050154703A1 (en) Information partitioning apparatus, information partitioning method and information partitioning program
CN102567424B (zh) 一种诗词关联库系统及其实现方法和电子学习设备
CN104641367B (zh) 用于格式化电子字符序列的格式化模块、系统和方法
JP3477822B2 (ja) 文書登録検索システム
JP3924899B2 (ja) テキスト検索装置およびテキスト検索方法
EP1072986A2 (en) System and method for extracting data from semi-structured text
JP2003288366A (ja) 類似テキスト検索装置
JPH0869474A (ja) 類似文字列検索装置
Goslin et al. English Language Spelling Correction as an Information Retrieval Task Using Wikipedia Search Statistics
JP3455924B2 (ja) メッセージ情報誤り検出装置及びメッセージ情報誤り検出方法
JP2001283156A (ja) 住所認識装置、住所認識方法、およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
Viktorsson et al. Spell checker for a Java Application
JP2560959B2 (ja) 文字認識後処理方式
JPH06103404A (ja) 名刺認識装置
JPH0973464A (ja) 類似事例検索装置

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20040706