JP2003296354A

JP2003296354A - 辞書作成装置

Info

Publication number: JP2003296354A
Application number: JP2002094720A
Authority: JP
Inventors: Takeyuki Aikawa; 勇之相川; Katsushi Suzuki; 克志鈴木
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2002-03-29
Filing date: 2002-03-29
Publication date: 2003-10-17

Abstract

(57)【要約】【課題】同一文書又は近傍に出現すること
のない隠語表現と単語リストの見出し語との同義語関係
を抽出することが可能であり、多様な隠語表現について
の同義語辞書を自動的に作成する辞書作成装置を得る。【解決手段】単語リスト１１と、隠語表現と通
常文字との対応関係又は伏字表現を記憶する伏字・隠語
表現リスト１３と、上記単語リスト中の見出し語と上記
伏字・隠語表現リストの伏字表現又は隠語表現と入力手
段から出力された入力文書の文字とを照合し入力文書か
ら同義語表現となりうる候補単語を抽出する同義語表現
検索手段１０３と、この同義語表現検索手段１０３によ
り抽出された候補単語が同義語であるか否かを入力文書
におけるその出現位置の前後の情報から決定する同義語
識別手段１０４と、この同義語識別手段１０４により同
義語と決定された候補単語に上記単語リストの見出し語
とを対応づけて同義語辞書に登録する登録手段１０５と
を備える。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、情報検索を行な
うシステムにおいて入力単語の表記ゆれを吸収して検索
するために使用する同義語辞書の作成方法に関するもの
である。特に、企業の風評監視などを行なう情報監視シ
ステムにおいて、伏字などの隠語表現の検索に適した同
義語辞書の作成装置を提供する。

【０００２】

【従来の技術】インターネットの普及に伴い、様々な情
報の入手が容易となり、利便性が増す一方で、他者を誹
謗・中傷するような不正情報を発信することも容易とな
っている。そこで、これらの不正な情報発信をいち早く
発見し、対処するための情報監視システムの重要性が増
している。

【０００３】不正な情報発信においては、容易に検出さ
れないように伏字や類似文字を使うなどの隠語表現が多
用される。たとえば、「三菱電機」に対する中傷をする
場合には、「○菱電機」や「三×電機」という表現が使
われる。これらの隠語表現は、人間が見れば何を意味し
ているか容易に推測できるが、本来と異なる表記が使用
されるために一般的な辞書を用いた検索処理では、検出
困難である。

【０００４】異なる表記を含む文字列を検索可能とする
方法として、複数文字と照合可能なワイルドカードを用
いた検索が知られている。これによれば、「＊菱」（＊
はいかなる文字とも照合可能なワイルドカード）を入力
として検索することにより「○菱」という隠語を検索可
能だが、ワイルドカード検索ではあらゆる文字が照合可
能であるため、「竹菱」や「山菱」などの「三菱」の隠
語ではない通常の単語も多数検索されてしまうため、隠
語表現の検索には適していない。

【０００５】隠語表現は一種の同義語であり、あらかじ
め作成した同義語辞書を用いた検索により検出可能とな
る。たとえば、「取り引き」と「取引き」といった送り
仮名のゆれを同義語辞書に登録しておくことにより、
「取り引き」が含まれた文書と「取引き」が含まれた文
書の両方が検索可能となるような検索システムの構成方
法が多数提案されている。一例として、文献１（特開昭
６１−２６７８２７）では、上記のような表記ゆれを標
準化した表記を索引として検索する技術が開示されてい
る。

【０００６】検索もれを防ぐために同義語辞書は非常に
有用であるが、開発コストが大きいという問題がある。
そこで、文献２（特開平５−２９８３７１）および文献
３（特開平６−２６６７６９）において、文書データか
ら同義語辞書を自動抽出する方法が提案されている。

【０００７】文献２では、文書中の括弧表現に着目して
同義語を自動抽出する方式が示されている。例えば「Ａ
ＢＣ総合研究所（ＡＢＣ総研）」という表現からは「Ａ
ＢＣ総合研究所＝ＡＢＣ総研」という同義語関係を抽出
する。

【０００８】図２１を参照しながら、文献２に開示され
ている検索システムの動作について説明する。入力手段
２１０１に入力された日本語文書は、形態素解析手段２
１０２により単語単位に分けられ、各々の単語には品詞
が与えられ、キーワード抽出手段２１０３で定めた品詞
に該当する単語が、キーワードとして抽出される。この
時、同義語の設定も行なう。同義語の抽出は文書中の特
殊記号である丸かっこに注目して行なう。抽出されたキ
ーワードと同義語情報は、キーワード・同義語ファイル
２１０３に格納される。検索手段２１０４は、検索語に
よってキーワード・同義語ファイルを検索する。キーワ
ード・同義語ファイル２１０７を参照したときに、検索
語が同義語をもつことがわかれば、その同義語を検索語
ファイル２１０７に格納し、新たに検索語とする。

【０００９】文献３では、あらかじめ指定したパタンが
文書中に出現する場合に同義語関係を抽出する。例えば
「ＡはＢのことである」という抽出パタンを定義してお
き、文書中の当該表現から「Ａ＝Ｂ」という同義語関係
を獲得する。

【００１０】

【発明が解決しようとする課題】しかし、文献２および
文献３で開示された従来の同義語辞書作成方式には、以
下のような問題があった。

【００１１】まず、同義語関係をもつ単語Ｗａと単語Ｗ
ｂとが、文書中において近傍に出現していなければ、抽
出できないという問題がある。隠語表現の場合、元の単
語を想起させる擬似的な表現であるため、同一文書中に
元の単語が出現する可能性は小さい。「○菱電機」とい
う隠語が出現する文書に「三菱電機」という元の単語が
出現する可能性はきわめて低いため、文献２および文献
３で示されている方法では、「○菱電機＝三菱電機」と
いう同義関係を抽出できない場合が多い。

【００１２】また、上記で開示されている技術のいずれ
についても、読みが同じで異なる表記を使用する隠語表
現を抽出できないという問題もある。例えば、「防衛
庁」の隠語表現として「某Ａ庁」のような例がある。

【００１３】この発明は上記のような問題点を解決する
ためになされたもので、同義語関係をもつ単語の一方を
単語リストとして入力し、これを前処理して照合処理用
索引を生成し、この索引を用いて上記入力単語と文書中
に出現する単語との隠語表現の照合を行ない、近傍に出
現することのない隠語表現と元の単語との同義語関係を
抽出することが可能な辞書作成装置を提供することを目
的とする。

【００１４】また、入力単語リストの読み情報をもとに
読み照合用の索引を生成し、文書中の漢字を読みに変換
しながら上記読み照合用の索引と照合することにより、
読みが同じで異なる表記をもつ隠語表現と元の単語との
同義語関係を抽出することが可能な同義語抽出装置を提
供することを目的とする。

【００１５】また、上記照合処理の結果集計時に、抽出
された同義語表現の前後の文脈を考慮した重み付け処理
を行なうことにより、的確な同義語抽出結果が得られる
同義語抽出装置を提供することを目的とする。

【００１６】

【課題を解決するための手段】本発明に係る辞書作成装
置は、見出し語を含む単語リストと、隠語表現と通常文
字との対応関係又は伏字表現を記憶する伏字・隠語表現
リストと、入力文書を読み込む入力手段と、上記単語リ
スト中の見出し語と上記伏字・隠語表現リストの伏字表
現又は隠語表現と入力手段から出力された入力文書の文
字とを照合して入力文書から同義語表現となりうる候補
単語を抽出する同義語表現検索手段と、この同義語表現
検索手段により抽出された候補単語が同義語であるか否
かを入力文書におけるその出現位置の前後の情報から決
定する同義語識別手段と、この同義語識別手段により同
義語と決定された候補単語に上記単語リストの見出し語
とを対応づけて同義語辞書に登録する登録手段とを備え
るものである。

【００１７】また本発明に係る辞書作成装置は、上記伏
字・隠語表現リストを、通常文字と文字形状の類似する
文字又は文字列を隠語表現として記憶する構成としたも
のである。

【００１８】また本発明に係る辞書作成装置は、上記同
義語表現検索手段を、入力文書中に出現する伏字を含む
伏字単語の構成文字のうち伏字でない構成文字と上記単
語リストの見出し語のうち上記伏字単語の伏字出現位置
にある文字以外の文字とを同じ出現位置にある文字ごと
に照合し一致した見出し語を同義語となりうる候補単語
として抽出する構成としたものである。

【００１９】また本発明に係る辞書作成装置は、上記同
義語識別手段を、上記候補単語の入力文書中における出
現位置の前後の文脈によりこの候補単語の重み付けを行
いこの候補単語の重み付けが所定の閾値以上の場合はこ
の候補単語が同義語であると決定する構成としたもので
ある。

【００２０】また本発明に係る辞書作成装置は、上記入
力手段によりＨＴＭＬ文書を入力文書として読み込み、
上記同義語識別手段を、上記同義語表現検索手段が抽出
した伏字を含む候補単語と所定のＨＴＭＬタグとが上記
ＨＴＭＬ文書中に近接していることを検出してこの候補
単語の重み付けを小さくする構成としたものである。

【００２１】また本発明に係る辞書作成装置は、上記同
義語識別手段を、上記同義語表現検索手段が抽出した候
補単語の先頭が伏字であってこの候補単語が入力文書の
行頭に出現していることを検出してこの候補単語の重み
付けを小さくする構成としたものである。

【００２２】また本発明に係る辞書作成装置は、上記同
義語識別手段を、上記同義語表現検索手段が抽出した複
数の候補単語のうち同一の同義語を表現する候補単語で
あってこの候補単語の構成文字のうち異なる文字を伏字
で置換した伏字表現を検出してこの候補単語の重み付け
を大きくする構成としたものである。

【００２３】また本発明に係る辞書作成装置は、上記単
語リストにより、見出し語の分類を各見出し語に関連づ
けて記憶し、上記同義語識別手段を、上記同義語表現検
索手段により抽出された候補単語に関連づけて上記単語
リストが記憶している上記見出し語の分類が同一である
ことを検出して同義語関係の重み付けを大きくする構成
としたものである。

【００２４】また本発明に係る辞書作成装置は、上記同
義語表現検索手段を、上記単語リストの見出し語のロー
マ字によるイニシャル文字を見出し語の先頭文字に置換
した単語と上記入力文書の文字とを照合する構成とした
ものである。

【００２５】また本発明に係る辞書作成装置は、見出し
語とその読みとを含む単語リストと、漢字読みテーブル
と、入力文書を読み込む入力手段と、この入力手段から
出力された入力文書の文字の読みを上記漢字読みテーブ
ルから取得し、この読みと上記単語リスト中の見出し語
の読みとを照合し一致する単語を同義語表現となりうる
候補単語として抽出する読み隠語検索手段と、この同義
語表現検索手段により抽出された候補単語が同義語であ
るか否かを入力文書におけるその出現位置の前後の情報
から決定する同義語識別手段と、この同義語識別手段に
より同義語と決定された候補単語に上記単語リストの見
出し語とを対応づけて同義語辞書に登録する登録手段と
を備えるものである。

【００２６】

【発明の実施の形態】

【実施の形態１】図１に本発明の実施の形態１における
構成図を示す。１は辞書作成装置であって、１１は単語
リスト、１２は入力文書、１６は同義語辞書である。単
語リスト１１および入力文書１２を入力すると、辞書作
成装置１は単語リスト１１中の単語と同義語関係にある
表現を入力文書１２から抽出して同義語辞書１６を生成
する。１３は伏字情報と隠語表現情報を記憶する伏字・
隠語表現リストであって、１４は照合用索引データ、１
０１は照合用索引データ１４を生成する照合用索引生成
手段、１０２は入力文書１２を読み込む入力手段であ
る。１５は候補単語であって、１０３は照合用索引デー
タ１４と入力文書１２とを照合することにより入力文書
１２から候補単語１５を抽出する同義語表現検索手段で
ある。１６は同義語辞書であって、１０４は候補単語１
５から同義語表現を決定する同義語表現識別手段であ
り、１０５はここで決定された同義語表現を同義語辞書
１６に書き出す登録手段である。また１０６は全体を制
御する制御部である。

【００２７】照合用索引生成手段１０１は、見出し語と
その読みからなる単語情報の集合である単語リスト１１
を読み込み、同義語表現検索手段における照合処理にお
いて索引情報として使用する照合用索引データ１４を生
成する。同義語表現検索手段１０３は、上記照合用索引
データ１４と、入力手段１０２を用いて順次読み込んだ
入力文書１２とを照合して、候補単語１５を抽出する。
同義語表現識別手段１０４は、抽出された候補単語１５
の入力文書における出現位置の前後の文書の特徴を用い
て重み付けを行い、この結果を集計して同義語を決定
し、登録手段１０５を用いて辞書データ１６を出力す
る。

【００２８】伏字・隠語表現リスト１３は、隠語表現で
多用される文字列と通常文字とのペアの集合と伏字とし
て用いられることの多い文字の集合とを記憶するリスト
であり、照合用索引生成部１０１が照合用索引データ生
成時に参照し、単語の一部が隠語表現で置換された表現
との照合を行うときに用いる索引データを生成する。ま
た伏字・隠語表現リスト１３が記憶する伏字は、同義語
表現検索手段が照合処理において参照する。制御部１０
６は、上記の各処理が一貫して動作するよう全体を制御
する。また本発明に必須の構成要素ではないため図示を
省いたが、実際の利用者が本装置を使用するための入出
力などの制御についても制御部１０６において行なう。

【００２９】図２の辞書作成の全体処理フローを参照し
ながら、動作の説明を行う。まずステップＳ２０１にお
いて、照合用索引生成手段１０１が単語リスト１１と伏
字・隠語表現リスト１３より、単照合用索引データ１４
を生成する。続けてステップＳ２０２において、同義語
表現検索手段１０３は、この照合用索引データ１４と伏
字・隠語表現リスト１３との情報と入力手段１０２が読
み込んだ入力文書１２とを照合し、候補単語１５を抽出
する。最後にステップＳ２０３において、同義語表現識
別手段１０４はこの候補単語が入力文書１２における出
現位置の前後の文書の特徴を用いて重み付けを行ない、
その結果に応じて登録手段１０５を用いて同義語辞書１
６に登録を行う。以下、上記の各処理ステップの詳細に
ついて順次説明する。

【００３０】まず、図３、図４、及び図５を参照しなが
ら、照合用索引生成手段に関する処理（ステップＳ２０
１）の詳細について説明する。図４は、照合用索引生成
手段の出力である照合用索引データ１４の一例である。
以下、特に断らないかぎり、図４に示した単語リスト１
１を入力とし、伏字・隠語表現リスト１３には、図４で
図示した文字が登録されているとして説明を行なう。

【００３１】本実施の形態において照合用索引データ１
４は、図４においてＮ０からＮ２８までのノード番号を
付記したノード４０１、及び各ノードを接続するリンク
情報４０２、及び照合単語へのリンク情報４０３から構
成される。なお、以後の説明において、単語リスト１１
の見出し語に基づいて生成される文字ノードを通常ノー
ドと呼び、また伏字隠語表現リスト１３の隠語表現に基
づいて生成される文字ノードを隠語表現文字ノードと呼
ぶ。また、ある文字ノードにリンクされているノードの
ことをその文字ノードの子供ノードと呼び、子供ノード
から見たその文字ノードのことを親ノードと呼ぶ。ある
文字ノードからリンクを順次辿ることで、子供ノードを
はじめとするいくつかのノードに到達しうるが、これら
のノードを総称して、その文字ノードの子孫ノードとい
う。したがって子供ノードは子孫ノードに含まれ、ある
文字ノードの子供ノードの子供ノードもその文字ノード
の子孫ノードに含まれることになる。さらに、ある文字
ノードから複数の子供ノードへのリンクがあるときに、
この複数の子供ノード同士の関係を兄弟ノードという。

【００３２】照合用索引データ１４の各ノードには、そ
のノード自身の種別（通常ノード、隠語表現文字ノー
ド）、子孫ノードへのリンク情報４０２、及び単語リス
ト１１の見出し語へのリンク情報４０３を保持する。後
述する照合処理を高速に行なうために、各ノードのリン
ク先となるノードに対する索引を、ハッシュ表などの形
式で親ノードに保持するようにしてもよい。なお、ノー
ド番号Ｎ０を付与したノードは、ルートノードであり、
照合処理開始時に参照する特殊なノードである。ルート
ノードからこの照合用索引データ１４内のあるノードに
到達するために辿らなければならないリンク情報の個数
を深さと呼ぶ。図４において、Ｎ１はＮ０の子供ノード
なので、深さは１となる。またＮ１５の場合は、Ｎ０→
Ｎ１１→Ｎ１３→Ｎ１５と、３つのリンクを辿らなけれ
ば到達できないので、深さが３となる。

【００３３】図３は照合用索引生成処理の詳細フローで
ある。ステップＳ３０１では、入力された単語リスト１
１の見出し語の文字について木構造化を行なう。すなわ
ち、図４に示した単語リスト１１に含まれる見出し語
を、文字単位で分解してそれぞれの文字についてノード
を生成する。またその際、他の見出し語と先頭からの数
文字を共通な文字としている見出し語がある場合（たと
えば「朝日生命」と「朝日新聞」の「朝日」）は、共通
部分を有する見出し語間で共通な文字のノードを共有
し、その二つの見出し語で最初に現れる異なる文字
（「朝日生命」と「朝日新聞」の場合ならば、「生」と
「新」）からそれぞれの文字ノードに分岐して、木構造
となるようにする。さらに、各単語の最終文字のノード
にはその見出し語へのリンク情報４０３を付与する。

【００３４】また上記を通じて生成された通常ノードと
同じ数だけ、伏字文字照合用ノードを生成し、各通常ノ
ードにそれぞれ異なる伏字文字照合用ノードへのリンク
情報を生成する。これらは、入力文書１２中に出現する
見出し語の各文字が伏字に置換されていても、入力文書
１２中の単語と照合用索引データ１４のノードとを照合
可能とするための特殊ノードである。図４においては、
ノード番号Ｎ１、Ｎ３、Ｎ５などの「＊」を記したノー
ドが、伏字文字照合用の特殊ノードに相当し、これによ
り「三○電機」のような同義語表現を照合することとな
る。照合処理の詳細については後述する。

【００３５】図４において、４０４は伏字文字照合用ノ
ードに付加する情報である。この４０４の内容は、木構
造において当該ノードが位置する深さに応じて変更す
る。ある伏字文字照合用ノードが所定の深さＤｔｈ未満
の位置にある場合、このノードの子孫ノード中に出現す
る文字とこの文字を含むノードの索引表を作成してこの
伏字文字照合用ノードに付加する（４０４ａ）。この索
引表を用いることによって、文字からノードを検索する
ことができる。Ｄｔｈが２だとすると、図４のノードＮ
１には、図５に示すような索引表が格納される。また伏
字文字照合用ノードが所定の深さＤｔｈ以上に位置する
場合、当該ノードの兄弟ノードの一覧を保持する（４０
４ｂ）。この一覧には、後述する関連文字ノードは含ま
ないものとする。これらの情報は、照合処理において伏
字表現との照合を高速に行なうために使用される。

【００３６】続けてステップＳ３０２では、単語リスト
中の見出し語のイニシャル文字（その見出し語をローマ
字表記した場合の最初の文字）についての索引を追加す
る。単語リスト１１の各見出し語について、読みの先頭
文字に対応する英字（カ行→Ｋ、サ行→Ｓなど）を示す
ノードを生成し、このイニシャル文字ノードから各見出
し語の先頭文字の次の文字へのノードへのリンク経路を
生成する。

【００３７】ここで、「リンク経路」を生成する、とい
った場合には、次のような構成を意味する。すなわちす
でにノードＡにノードＢへのリンクが生成されている状
態（Ａ→Ｂ）にあって、ノードＣからノードＢへのリン
ク経路を生成するとは、ノードＣにノードＡへのリンク
情報（Ｃ→Ａ）を生成すること、又はノードＣに直接ノ
ードＢへのリンク情報（Ｃ→Ｂ）を生成することの双方
を含むものとする。つまり、この場合ノードＣの子孫ノ
ードとしてノードＢが現れるようなリンク情報がある場
合（いかなる経路かは問わない）には、ノードＣからノ
ードＢへのリンク経路が生成されているということにな
る。

【００３８】この実施の形態では、「みつびし」と「ま
つした」のようにイニシャル文字が重複する場合には、
「Ｍ」のノードが複数のリンク情報を保持するようにす
る。この処理により、図４におけるノードＮ２７、Ｎ２
８、及びこれらのノードからのリンク情報が生成され
る。このイニシャル文字ノードを生成することにより、
「Ｍ菱電機」や「Ｍ下電器」といった同義語表現との照
合が可能となる。なお、図４に示しているように、「Ｍ
ＥＥ」の先頭文字に対する通常ノードＮ２も「Ｍ」であ
るが、イニシャル文字ノードＮ２８はこれとは別に生成
するものとする。

【００３９】なお、「三」を「さん」と読む場合と「み
つ」と読む場合があるが、これらの読みをもつ単語の頭
文字隠語表現との照合をより厳密に行なうために、図４
の頭文字ノードＮ２８から通常ノードＮ１１へのリンク
情報を生成するかわりに、Ｎ１１からＮ１７、およびＮ
１８からＮ２４までの通常ノードをすべて複製して頭文
字ノードＮ２８の子供ノードとするような索引構成とす
ることもできる。

【００４０】続けてステップＳ３０３では、伏字・隠語
表現リスト１３を参照して、隠語表現のノードを追加す
る。隠語表現が複数文字からなる場合は、この隠語表現
の各文字のノードを生成し、隠語表現の各文字のノード
に次の文字へのノードへのリンクを順次生成する（図４
のＮ２５、Ｎ２６）。ステップＳ３０２までに、伏字・
隠語表現リスト１３に登録された通常文字のノードが索
引データ中の通常ノードとして生成されている場合に
は、これらのノードに対して以下の処理を行なう。ま
ず、この通常文字を含む見出し語における前の文字のノ
ードに、この通常文字に対応する隠語表現の先頭文字の
ノードへのリンクを追加する。さらに、この隠語表現の
末端文字のノードからこの隠語表現に対応する通常文字
のノードへのリンク情報を生成する。以上の処理によ
り、図４におけるＮ１０、Ｎ２５、Ｎ２６、及びこれら
に付随するリンク情報が生成される。この隠語表現文字
のノードを生成することにより、「束芝」（東芝の隠
語）、「木公下」（松下の隠語）といった隠語表現との
照合が可能となる。

【００４１】図面を見やすくかつ説明を簡単にするため
に、図４に示した伏字・隠語表現リスト１３には、隠語
表現の例として２例しか示していないが、この他にも多
数の例が考えられる。たとえば、「ー（長音）」と「−
（ハイフン）」（例：「ソニー」→「ソニ−」）、
「ソ」と「ン」（例：「パナソニック」→「パナンニッ
ク」）、「三」と「四」（例：「三菱」→「四菱」）、
「日」と「目」（例：「日立製作所」→「目立製作
所」）、「ル」と「ノレ」（例：「ドトールコーヒー」
→「ドトーノレコーヒー」）などが考えられるが、いず
れも伏字・隠語表現リスト１３に登録することにより照
合可能となる。以上で、照合用索引生成ステップ（Ｓ２
０１）の詳細説明を終了する。

【００４２】次に、図６乃至図９と及びこれまでに示し
た図とを適宜参照しながら、同義語表現検索ステップ
（Ｓ２０２）の詳細について説明する。入力文書データ
の例として、「Ｍ菱電機、束芝、木公下電器の製品につ
いて」を用いる。また、照合用索引データとしては図４
に示したものを用いて説明する。

【００４３】図６のステップＳ６０１では、同義語表現
検索処理全体の初期化を行なう。入力文書１２を文字配
列Ｓに読み込み、入力文書１２における文字位置Ｐを０
で初期化する。ステップＳ６０２は処理全体の終了条件
判定である。文字位置Ｐが入力文書１２の文書サイズ以
上となったら照合処理を終了する。Ｐが文書サイズ以下
の間は、Ｐを変動させながら、ステップＳ６０３以下の
処理を繰り返し実行する。図６では、理解を容易にする
ため図示していないが、入力文書が複数ある場合には各
文書に対して同義語表現検索ステップＳ２０２を繰り返
す。ここでは、「Ｍ菱電機、束芝、木公下電器の製品に
ついて」という文字列が配列Ｓに読み込まれる（図
８）。

【００４４】図６のステップＳ６０３では、文字位置Ｐ
から始まる部分文字列に対する照合処理の初期化を行な
う。変数Ｌは作業用変数であり、ノードのリストが格納
される。初期状態では変数Ｌには、ルートノードＮ０を
ただ一つだけ格納する。また、変数Ｌｎｅｘｔも同じく
作業用変数であり、ノードのリストを格納する。初期状
態において、Ｌｎｅｘｔは空リストを設定する。変数Ｄ
は作業用変数であって、照合処理が何文字めまで進んだ
かを示すものであり、０で初期化する。変数Ｏｂｕｆは
出力する同義語関係を一時的に蓄積する変数であり、空
リストで初期化する。

【００４５】文字位置Ｐから始まる部分文字列に対する
照合処理では、ステップＳ６０４からステップＳ６１５
の処理を繰り返す。図６のステップＳ６０４は、部分文
字列照合処理の終了判定である。この処理において、Ｌ
が空リストである場合は、開始文字位置Ｐから照合を始
めてＤ文字め（Ｐ＋Ｄの文字位置）における照合が失敗
したということを意味する。この場合は、部分文字列に
対する照合処理を終了し、ステップＳ６１６に進む。ス
テップＳ６１６では、処理終了時点におけるＯｂｕｆの
内容から最長一致となる候補を候補単語１５として出力
する。さらにステップＳ６１６ではＰをインクリメント
し、その後ステップＳ６０２に戻り、次の部分文字列に
対する照合処理を続ける。ここでは、ＬがステップＳ６
０３で初期化された状態であり、空リストではないので
ステップＳ６０５に進む。

【００４６】上述したステップＳ６０５からステップＳ
６１５の処理を、ノードのリストを保持する作業用Ｌの
各要素について繰り返す。ここでステップＳ６０５で
は、ノードのリストＬの各要素を表わす変数としてＮを
用いている。このステップは、Ｌの各要素Ｎに対する繰
り返し処理の終了判定である。ここではＬがＮ０のみな
ので（ステップＳ６０５：ＮＯ）、Ｎ＝Ｎ０としてステ
ップＳ６０６以下の処理を行なう。

【００４７】ステップＳ６０６において、処理中の入力
文書の部分文字列の先頭文字（Ｓ［Ｐ＋Ｄ］）が伏字文
字であるかどうかを判定する。伏字文字とは、図１にお
ける伏字・隠語表現リスト１３に登録された伏字文字で
ある。たとえば、「○」「●」「×」「□」「△」など
の文字を、伏字・隠語表現リスト１３に登録しておく。
これらは「三○電機」や「●菱電機」などの伏字表現に
おいて多用される文字である。ここではＳ［Ｐ＋Ｄ］＝
Ｓ［０］は「Ｍ」であり、伏字ではないのでステップＳ
６０７に進む（ステップＳ６０６：ＹＥＳ）。

【００４８】ステップＳ６０７では、照合用索引データ
１４（図４）と処理中の部分文字列の先頭文字（Ｓ［Ｐ
＋Ｄ］）との照合処理を行なう。ここでは先頭文字
「Ｍ」との照合に成功し、図４のノードＮ２及びＮ２８
が得られる。ステップＳ６０８に進み、照合に成功した
のでステップＳ６０９に進む（ステップＳ６０８：Ｎ
Ｏ）。

【００４９】ステップＳ６０９では、上記で得られた照
合成功ノードのそれぞれに対して、次に処理すべきノー
ドをそのノードのリンクより取得して、作業用のノード
リストＬｎｅｘｔに追加する。この照合ノード追加処理
（ステップＳ６０９）の詳細フローを図７に示す。ステ
ップＳ６０７で照合に成功したノードすべてについて、
ステップＳ７０１からステップＳ７０８の処理を行な
う。ステップＳ７０１はこの繰り返し処理の終了判定で
ある。ここでは、Ｎ２及びＮ２８について順次処理を行
なう。

【００５０】まず、ノードＮ２は通常ノードであるの
で、ステップＳ７０２の判定によりステップＳ７０３に
進む。ステップＳ７０３において、Ｌｎｅｘｔの末尾に
ノードＮ２を追加する。つぎにノードＮ２８に対する処
理を行なう。ノードＮ２８はイニシャル文字展開処理で
追加生成されたノードであり、通常ノードではない。し
たがってステップＳ７０２の判定によりステップＳ７０
４に進む。ノードＮ２８は隠語表現文字ノードではない
ので、ステップＳ７０５に進む。ステップＳ７０５にお
いて、ノードＮ２８のリンク情報により通常ノードＮ１
１及びＮ１８を得て、これを作業用ノードリストＬｎｅ
ｘｔ末尾に追加する。以上の処理の結果、Ｌｎｅｘｔ＝
［Ｎ２，Ｎ１１，Ｎ１８］となる。

【００５１】図６に戻り、ステップＳ６１０以降の処理
を続行する。ステップＳ６１０からＳ６０５に戻り、Ｌ
の各要素を処理済みか否かを再び判断する。ここではＬ
はＮ０のみだったので次の要素はなく（ステップＳ６０
５：ＹＥＳ）、ステップＳ６１５に進む。ステップＳ６
１５では、まずＬｎｅｘｔの各ノードについて単語リス
ト１１の各見出し語へのリンク情報（図４の４０３）が
あるかどうかを判定し、もしあれば当該照合単語を変数
Ｏｂｕｆに一時出力する。ここではＬｎｅｘｔの要素Ｎ
２、Ｎ１１、Ｎ１８のいずれも見出し語へのリンク情報
をもたないので、Ｏｂｕｆは空リストのままである。さ
らに作業用変数Ｄをインクリメントし、ＬをＬｎｅｘｔ
の内容で更新してからステップＳ６０４に戻って処理を
続行する。

【００５２】今度もＬは空リストではない（Ｌ＝「Ｎ
２，Ｎ１１，Ｎ１８」）ので、ステップＳ６０４からス
テップＳ６０５に進む。続けてステップＳ６０６では、
処理中の部分文字列の先頭文字（Ｓ［Ｐ＋Ｄ］＝Ｓ
［１］）が伏字文字であるかどうかの判定を行なう。Ｓ
［１］＝「菱」であるので（ステップＳ６０６：ＹＥ
Ｓ）、ステップＳ６０７に進む。Ｌに含まれる３つのノ
ードのうちＮ１１のみが照合に成功し、ステップＳ６０
９において子ノードのＮ１３がＬｎｅｘｔに追加され
る。ステップＳ６０５からステップＳ６１０の処理を繰
り返した結果、Ｌｎｅｘｔ＝［Ｎ１３］となり、ステッ
プＳ６０５の終了判定を経てステップＳ６１５に進む。

【００５３】ステップＳ６１５で、Ｌｎｅｘｔの要素Ｎ
１３が見出し語へのリンク情報を有するので、Ｏｂｕｆ
に同義語関係（Ｍ菱＝三菱）を追加する。なお、Ｏｂｕ
ｆへの追加の際には、入力文書中の出現文字列と見出し
語との一致判定を行ない、一致しなかった場合のみ追加
するものとする。さらにＳ６０４からＳ６１５の処理を
繰り返す。Ｄ＝３のとき、Ｌｎｅｘｔの要素Ｎ１７が上
記と同じく見出し語へのリンク情報を有するので、Ｏｂ
ｕｆに同義語関係（Ｍ菱電機＝三菱電機）が追加され
る。Ｄ＝４の時点でＳ［４］＝「、」となるため、すべ
ての照合に失敗してＬが空リストとなり、ステップＳ６
１６に進む。

【００５４】ステップＳ６１６では、Ｏｂｕｆに一時的
に蓄積された同義語関係のうち、最長一致となる候補の
みを出力する。この場合、（Ｍ菱電機＝三菱電機）とい
う候補単語１５を出力する。出力例を図９に示す。候補
単語１５は、抽出された同義語表現を表す９０１、これ
に対する通常単語を表す９０２、この同義語表現が抽出
された文書の文書ＩＤを表す９０３、および同義語表現
が入力文書中に出現した出現位置９０４からなる。９０
３及び９０４については、後述する同義語表現識別ステ
ップＳ２０３において参照する。なお、ここでは簡単の
ため、文書ＩＤにより同義語が出現した文書を参照する
ような構成としたが、同義語表現識別ステップＳ２０３
において文脈を判断するのに十分な情報であれば、図９
に示した構成をとらなくてもよい。たとえば、文書ＩＤ
と出現位置を格納する代わりに、文書中に出現した同義
表現の前後所定文字数を保持するよう構成してもよい。

【００５５】続けてステップＳ６０２に戻り、ステップ
Ｓ６０３以下の処理を続行する。Ｐ＝１、Ｐ＝２，Ｐ＝
３，Ｐ＝４のときはいずれも照合に失敗し、同義語関係
は出力されない。Ｐ＝５のとき、ステップＳ６０３、Ｓ
６０４、Ｓ６０５、Ｓ６０６と順次処理を行い、ステッ
プＳ６０７においてＳ［５］＝「束」とノードＮ１０と
の照合に成功し、ステップＳ６０９に進む。ノードＮ１
０は通常ノードではなく隠語表現文字ノードなので、図
７の照合ノード追加処理中のステップＳ７０２からステ
ップＳ７０４を経てステップＳ７０５が実行される。ス
テップＳ７０５では、隠語表現文字ノードＮ１０からの
リンク情報により通常ノードＮ７を得て、これをＬｎｅ
ｘｔに追加する。続けてＤ＝１（Ｐ＝５）のときに図６
のステップＳ６０７においてＮ７の子供ノードＮ９との
照合に成功し、ステップＳ６１５で（束芝＝東芝）とい
う同義語関係がＯｂｕｆに蓄積される。さらにステップ
Ｓ６０４からステップＳ６１５の処理を繰り返し、Ｄ＝
２のとき照合に失敗してステップＳ６０４からステップ
Ｓ６１６に進む。ステップＳ６１６において上記の（束
芝＝東芝）という同義語関係を出力する。

【００５６】続けてステップＳ６０２に戻り、ステップ
Ｓ６０３以下の処理を続行する。Ｐ＝６，Ｐ＝７のとき
はいずれも照合に失敗し、同義語関係は出力されない。
Ｐ＝８のとき、ステップＳ６０３、Ｓ６０４、Ｓ６０
５、Ｓ６０６と順次進み、ステップＳ６０７においてＳ
［８］＝「木」とノードＮ２５との照合に成功し、ステ
ップＳ６０９に進む。ノードＮ２５は通常ノードではな
く、隠語表現文字ノードなので、図７の照合ノード追加
処理中のステップＳ７０２からステップＳ７０４を経て
ステップＳ７０６に進む。ステップＳ７０６では、隠語
表現文字ノードが隠語表現の末端であるかどうかを判定
する。ここではＮ２５が末端ではないので、ステップＳ
７０７が実行され、ＬｎｅｘｔにＮ２５が追加される。
続けてＤ＝１（Ｐ＝８）のときに、図６のステップＳ６
０７において、Ｎ２５の子供ノードＮ２６との照合に成
功する。今度は図７のステップＳ７０６において、隠語
表現文字の末端であると判定され、リンク情報により通
常ノードＮ１８を得て、ＬｎｅｘｔにＮ１８を追加す
る。さらに図６のＳ６０４からＳ６１５の処理を繰り返
し、ノードＮ２０およびノードＮ２４において、それぞ
れ（木公下＝松下）および（木公下電器＝松下電器）と
いう同義語関係をＯｂｕｆに蓄積する。Ｄ＝５（Ｐ＝
８）のときすべての照合に失敗し、ステップＳ６０４か
らステップＳ６１６に進む。ステップＳ６１６におい
て、最長一致の（木公下電器＝松下電器）という同義語
関係を出力する。

【００５７】以下、ステップＳ６０２に戻り、ステップ
Ｓ６０３以下の処理を続行する。ここでは、Ｐ＝９〜１
２のいずれも照合に失敗し、同義語関係は出力しない。
ステップＳ６０２の終了判定を経て同義語表現検索ステ
ップ（Ｓ２０２）を終了する。

【００５８】次に、別の入力例「三○電機と○○電器」
を用いて、図６のステップＳ６１１からステップＳ６１
４までの伏字文字照合に関する処理について説明する。
まず、Ｐ＝０、Ｄ＝０のときに、ステップＳ６０７にお
いてＳ［０］＝「三」と図４の通常ノードＮ１１との照
合に成功し、Ｌｎｅｘｔ＝［Ｎ１１］となる。続けてＰ
＝０、Ｄ＝１のときに、ステップＳ６０６においてＳ
［１］＝「○」であるので、ステップＳ６１１に進む。
次にステップＳ６１１において、ノードＮ１１の子供ノ
ードにある伏字文字照合用ノードＮ１２の種別を判定す
る。ここでは伏字文字照合用ノードＮ１２は「先読みな
し」（図４の４０４ｂ）であるので、ステップＳ６１２
に進む。

【００５９】ステップＳ６１２では、処理中ノードＮ
（＝Ｎ１１）の子供ノードのうち通常ノードをすべてＬ
ｎｅｘｔに追加する。その際、伏字文字照合用ノードＮ
１２に保持している当該ノードの兄弟ノードの一覧（図
４の４０４ｂ）を参照する。図４では簡単のため、単語
リスト１１の語数が少ない例を示しているが、実際には
単語リストは数千語から数万語に及ぶこともあり、親ノ
ードの保持するリンク情報を順次辿りながら、通常ノー
ドのみを選択するという処理に時間を要する。この処理
を事前に照合用索引生成ステップＳ２０１で実行し、図
４の４０４ｂのように索引化することによって、同義語
表現検索ステップＳ２０２の処理を高速化できる。ここ
では、Ｎ１１の子供ノードＮ１３がＬｎｅｘｔに登録さ
れる。

【００６０】続けて、ステップＳ６１０からステップＳ
６０５を経て、ステップＳ６１５に進む。Ｌに含まれる
ノードＮ１３は、照合単語へのリンク情報を有するの
で、Ｏｂｕｆに同義語関係（三○＝三菱）が追加され
る。さらにステップＳ６０４からステップＳ６１５の処
理を繰り返し、Ｄ＝３（Ｐ＝０）のときに、ステップＳ
６１５でノードＮ１７により得られる同義語関係（三○
電機＝三菱電機）がＯｂｕｆに追加される。さらにＤ＝
４のときには照合が失敗し、ステップＳ６０４からステ
ップＳ６１６に進む。ステップＳ６１６では、最長一致
の同義語関係（三○電機＝三菱電機）が出力される。

【００６１】さらにステップＳ６０２に戻り、ステップ
Ｓ６０３以下の処理を続行する。Ｐ＝１，Ｐ＝２，Ｐ＝
３，Ｐ＝４のときはいずれも照合に失敗し、同義語関係
は出力されない。Ｐ＝５のとき、ステップＳ６０３、Ｓ
６０４、Ｓ６０５と順次進み、ステップＳ６０６におい
てＳ［５］＝「○」であるので、ステップＳ６１１に進
む。次にステップＳ６１１において、ノードＮ０の子供
ノードにある伏字文字照合用ノードＮ１の種別を判定す
る。ここでは伏字文字照合用ノードＮ１は「先読みあ
り」（図４の４０４ａ）であるので、ステップＳ６１３
に進む。

【００６２】ステップＳ６１３では、先読み処理を行な
う。まず入力文書中において、伏字文字以外の文字が出
現する位置を検出する。変数Ｐｒｅは文字数を格納する
変数であって、検出結果はＰｒｅで得る。現在処理中の
Ｄ文字めから数えてＰｒｅ文字目に伏字文字以外の文字
が出現するとする。ここでは、「○○電器」（Ｐ＝５，
Ｄ＝０）に対して、Ｐｒｅ＝２の「電」が検出される。
次に図５に示した伏字文字照合用ノードが保持する索引
情報４０４ａを参照し、Ｐｒｅ文字後に上記で検出され
た「電」が出現するノードを取得して先読み結果とす
る。この例では、ノードＮ１の２文字後に、「電」が出
現するＮ１５およびＮ２２が先読み結果として得られ
る。続けてステップＳ６１４では、先読み結果を作業用
ノードリストＬｎｅｘｔに設定し、作業用変数Ｄを先読
み文字数Ｐｒｅだけ増加する。

【００６３】文字列の先頭から伏字が連続して出現する
ような場合には、ステップＳ６１１を経由する処理では
作業用リストＬに登録されるノード数が非常に多くな
り、ステップＳ６０７からステップＳ６０８の処理が多
数繰り返されて、照合処理に多大な時間を要することと
なる。上記の先読み処理ステップＳ６１３、および伏字
文字照合用ノードが保持する索引情報４０４ａ（図４及
び図５）により、無用な照合処理を避けて高速化するこ
とができる。

【００６４】上記のステップＳ６１４からステップＳ６
１５に進み、ノードリストＬｎｅｘｔに含まれる各ノー
ドについて、照合単語へのリンク情報（図４の４０３）
があるかどうかを判定し、もしこのようなものがあれ
ば、当該照合単語を変数Ｏｂｕｆに一時出力する。ここ
ではＬｎｅｘｔの要素Ｎ１５、Ｎ２２のいずれも照合単
語へのリンク情報をもたないので、Ｏｂｕｆは空リスト
のままである。さらに作業用変数Ｄをカウントアップ
し、ＬをＬｎｅｘｔの内容で更新してからステップＳ６
０４に戻って処理を続行する。Ｐ＝５, Ｄ＝３のとき、
Ｓ［８］＝「器」とＮ２２の子供ノードＮ２４との照合
に成功し、ステップＳ６１５で（○○電器＝松下電器）
という同義語関係がＯｂｕｆに蓄積される。さらにＳ６
０４からＳ６１５の処理を繰り返し、Ｄ＝４のときステ
ップＳ６０４からステップＳ６１６に進む。ステップＳ
６１６において、上記の（○○電器＝松下電器）という
同義語関係を出力する。

【００６５】さらに、図６のステップＳ６０２以下の処
理を繰り返す。Ｐ＝６, Ｐ＝７, Ｐ＝８のときはいずれ
も照合に失敗し、同義語関係は出力されない。ステップ
Ｓ６０２の終了判定を経て同義語表現検索ステップ（Ｓ
２０２）を終了する。以上で、同義語表現検索ステップ
（Ｓ２０２）の詳細に関する説明を終了する。

【００６６】なおこれまでの説明では、通常文字に隠語
表現が存在する場合に、通常文字ノードの親ノード（通
常文字の前の文字のノード）に隠語表現の先頭文字への
ノードへのリンクを生成し、この隠語表現の末端文字の
ノードからこの通常文字のノードへのリンクを生成する
構成としている。しかし、このリンク経路の構成方法と
しては、単語リストの見出し語の先頭文字から末端文字
までのリンクの途中から隠語表現のノードをバイパスで
きることが必要十分条件であり、必ずしもこのような構
成に限られるものではない。図１０に、本実施の形態で
可能なリンク経路のバリエーションの例を示す。図１０
の（ａ）は、この実施の形態におけるリンク経路の例で
ある。これに対して、（ｂ）は通常文字のノードに隠語
表現の先頭文字ノードへのリンクを生成し、隠語表現の
末端文字のノードを経由して、最終的にこの通常文字の
次の文字のノードにリンクが到達するリンク経路の例で
ある。また、（ｃ）は通常文字の前の文字のノードに隠
語表現の先頭文字のノードへのリンクを生成し、また隠
語表現の末端文字のノードからこの通常文字の次のノー
ドへリンクするリンク経路の例である。

【００６７】次に、これまでに示した図を適宜参照しな
がら、同義語表現識別ステップ（Ｓ２０３）の詳細につ
いて説明する。図１１は同義語表現識別処理の詳細フロ
ーである。ステップＳ１１０１からステップＳ１１０４
において、同義語表現検索処理により抽出された候補単
語の各項目に対して加点または減点を行ない、ステップ
Ｓ１１０５において各候補単語の得点（重み付け）を集
計し、得点つきの同義語データを出力する。このような
重み付けにより、精度のよいランキングが可能となる。
また、所定の閾値を設け、閾値以上の得点を持つ同義語
辞書データについては自動作成とし、所定の閾値未満の
同義語辞書データについては人手によりチェックするこ
とにより、効率的かつ信頼性の高い辞書データを作成す
ることも可能である。

【００６８】まず、箇条書きを考慮した重み付けの処理
について説明する。伏字文字として用いられることの多
い○や●などの文字は、同時に複数項目を文書中に並列
する箇条書きの行頭文字やヘッダ文字としても用いられ
ることが多い。「○菱食 ○シートゥー ○東海観光
…」のような箇条書き表現が入力文書に存在する場合で
あっても、単純な文字列の照合処理によると（○菱＝三
菱）という関係を抽出することとなる。このような単純
な文字列照合処理によって抽出された候補単語の中か
ら、同義語である候補単語を選び出すために、文脈情報
を利用する。文脈情報とは、候補単語が入力文書におい
て出現する位置やその前後に存在する単語や文字の特徴
を抽出した情報をいう。処理の種類（例えばここで説明
する箇条書きを検出する場合や、後述する相互補完を検
出する場合など）に応じて、抽出すべき特徴は異なって
くる。

【００６９】ステップＳ１１０１では、箇条書きの検出
を行ない、箇条書きであると判定された候補単語の得点
を減点する。箇条書き検出処理について、図１２の詳細
フローにより説明する。図１２においてステップＳ１２
０１は、文脈情報取得ステップである。このステップＳ
１２０１では、図１３に示した各同義語データの出現文
書ＩＤと、候補単語の出現位置前後の文字列を入力文書
から所定文字数分（たとえば前後５０文字）切り出した
ものとを、文脈情報として取得する。つぎにステップＳ
１２０２では、上記文脈情報に対する箇条書き判定処理
を行なう。上記文脈情報において、候補単語中で使用さ
れている伏字と同一の伏字が、改行直後に所定数以上
（たとえば３回以上）出現する場合には、当該伏字が箇
条書きヘッダであると判定して、ステップＳ１２０３に
おいて減点処理を行なう。この実施の形態では、箇条書
きヘッダであると判定された場合には、−１点の減点を
行なうものとする。たとえば、「○菱食 ○シートゥー
○東海観光 …」のような箇条書き表現から抽出され
た同義語関係（○菱＝三菱）については、上記の箇条書
き検出処理により減点処理を受ける（図１３の１３０
１）。なお、空白やタブコードなどでインデントされる
文書もあるので、ステップＳ１２０２では改行直後の伏
字だけでなく、改行直後の空白またはタブコードの直後
の伏字を検出するようにしてもよい。また、ＨＴＭＬ文
書では改行コードのかわりに<ＢＲ>タグが用いられるの
で、この直後に出現する伏字を検出するようにしてもよ
い。

【００７０】次に、図２の同義語表現検索ステップＳ２
０２が抽出した複数の候補単語のうち、同一の同義語を
表現する候補単語であって、この候補単語の構成文字の
うち異なる文字を伏字で置換したもの（例えば「三○電
機」や「●菱電機」のような関係にある候補単語）が、
近傍に出現することを検出することによって重み付けを
行う処理をステップＳ１１０２において行う。たとえば
隠語表現や伏字表現では、「三○のケータイについて
○菱では…」のように、意図的に伏字とする文字を変更
して推測を容易にする例がある。このような表現を文脈
情報から抽出することで、精度の高い重み付けを実現す
るものである。なお、以降の説明において、上記のよう
な関係にある候補単語相互の関係を、以後「相互補完」
の関係と呼ぶ。

【００７１】連続出現検出処理について、図１４の詳細
フローにより説明する。まず、ステップＳ１４０１で
は、図１３に示した各同義語データの出現文書ＩＤおよ
び出現位置から、同義表現前後の所定文字数（たとえば
前後５０文字）以内にある別の同義語データを、近傍同
義語データとして取得する。たとえば図１３に示した同
義語データ１３０２に対して、近傍同義語データ１３０
３を取得する。次にステップＳ１４０２では、上記近傍
同義語データに対する相互補完判定処理を行なう。上記
近傍同義語データ中に、同じ見出し語についての候補単
語であって、文字の置換方法が異なるものがある場合に
は、この候補単語の同義語データについてステップＳ１
４０３において加点処理を行なう。ここでは、相互補完
関係にある同義語データありと判定された場合には＋１
点の加点を行なうものとする。

【００７２】ステップＳ１１０３では、入力文書中に連
続出現する候補単語を検出し、加点処理を行なう。連続
出現検出処理について図１５の詳細フローにより説明す
る。まずステップＳ１５０１では、図１３に示した各候
補単語の出現文書ＩＤおよび出現位置から候補単語前後
の所定文字数（たとえば前後５０文字）以内にある別の
候補単語を近傍候補単語として取得する。次にステップ
Ｓ１５０２では、上記近傍候補単語に対する連続出現判
定処理を行なう。入力文書における候補単語の出現位置
の近傍に、所定数以上（たとえば３個以上）の候補単語
がある場合には、この候補単語に対してステップＳ１５
０３において加点処理を行なう。ここでは連続出現同義
語データありと判定された場合に、＋１点の加点を行な
うものとする。たとえば「Ｍ菱、Ｔ芝、Ｍ下の製品が
…」のように、関連企業（上記の場合はメーカー）を連
続して類似の隠語表現とする例がある。このように近傍
に候補単語が連続して出現する場合には、それらの同義
関係は信頼性が高いものとして加点処理（たとえば＋１
点）を行なう。なお、上記のような見出し語の分類（メ
ーカーや通信業者などの業種等による分類など）を単語
リスト１１に記憶させ、さらに同じ分類の候補単語が近
傍に出現している場合は、通常（＋１点）よりも大きな
加点処理（たとえば＋３点）を行なうようにしてもよ
い。

【００７３】ステップＳ１１０４では、隠語表現の近傍
ないしは隠語表現自体に含まれやすい単語を文脈情報と
して検出することにより、加点処理を行なう。ここでマ
ーカー単語とは、「某Ｍ菱の製品が…」のように、隠語
表現や伏字表現と共起しやすい単語をいう。このような
マーカー単語の例としては、「某」以外にも「例の」と
か「うわさの」などが考えられる。

【００７４】マーカー単語検出処理について図１６の詳
細フローにより説明する。まずステップＳ１６０１で
は、図１３に示した各同義語データの出現文書ＩＤおよ
び出現位置から同義表現前後の所定文字数（たとえば前
後５０文字）の文字列を文脈情報として取得する。次に
ステップＳ１６０２では、上記文脈情報に対するマーカ
ー単語判定処理を行なう。ここでは、隠語表現の近傍に
出現しやすいマーカー単語を事前に定義しておき、この
単語が上記文脈情報中に出現する場合にはステップＳ１
６０３において加点処理を行ない、マーカー単語が検出
された場合には＋１点の加点を行なうものとする。たと
えば「某Ｍ菱の製品が…」のように、「某」という単語
は隠語表現の近傍に出現しやすい。そこで、近傍に
「某」が出現する隠語表現又は伏字表現については、そ
れらの同義語関係は信頼性が高いものとして加点処理
（たとえば＋１点）を行なう。

【００７５】ステップＳ１１０５では、異なる文書に出
現した同一の隠語表現または伏字表現と見出し語との組
合せについて、上記のステップＳ１１０１からステップ
Ｓ１１０４の処理により重み付けされた得点を集計し、
同義語辞書１６に出力する。以上で照合結果集計ステッ
プ（Ｓ２０３）の詳細についての説明を終了する。

【００７６】なお、上記では説明を簡便にするため、図
２において同義語表現検索ステップＳ２０１と同義語表
現識別ステップＳ２０２を分割した構成として説明した
が、各文書ごとに照合中に同時に集計を行なうような構
成とすることもできる。具体的には、図９に示した同義
語データで出現文書ＩＤ及び出現位置のかわりに得点情
報を格納する構成とし、新たに抽出された同義語データ
に対して随時集計処理を行ない、得点を加算していくこ
とにより、上記と同様の出力（同義語辞書１６）を得る
ことができる。

【００７７】以上説明したように、入力した単語リスト
の見出し語から照合用索引を生成する照合用索引生成手
段と、入力文書中に出現する隠語表現又は伏字表現とこ
の照合用索引とを照合して、同義語関係を抽出する同義
語表現検索手段と、抽出された同義語関係を集計して同
義語辞書データを生成する同義語識別手段を有すること
で、近傍に出現することのない隠語表現と単語リストの
見出し語との同義語関係を抽出することが可能になり、
多様な隠語表現についての同義語辞書を自動的に作成す
ることができるという効果が得られる。

【００７８】また、上記照合用索引生成手段が、先頭文
字がイニシャル文字で置換された隠語表現と照合可能な
索引を生成し、上記同義語検索手段が、通常文字とイニ
シャル文字とについて個別の照合処理を行なうことで、
「Ｍ菱電機」や「Ｍ下電器」といった伏字表現との照合
が可能となり、（Ｍ菱電機＝三菱電機）や（Ｍ下電器＝
松下電器）といった同義語辞書が自動的に作成されると
いう効果が得られる。

【００７９】また、上記照合用索引生成手段が、通常文
字について置換される隠語表現文字を展開した索引を生
成し、上記同義語表現検索手段が、通常文字と隠語表現
文字とについて、個別の照合処理を行なうことで、「束
芝」（東芝の隠語）などの隠語表現との照合が可能とな
り、（束芝＝東芝）などの同義語辞書が自動的に作成さ
れるという効果が得られる。

【００８０】また、上記照合用索引生成手段が、通常文
字について置換される隠語表現文字を展開した索引を生
成し、上記上記同義語表現検索手段が、合成文字の末端
を判定して照合処理を行なうことで、「木公下」（松下
の隠語）などの隠語表現との照合が可能となり、（木公
下＝松下）などの同義語辞書が自動的に作成されるとい
う効果が得られる。

【００８１】また、上記同義語表現検索手段が、伏字表
現で多用される伏字文字を検出することで、「○菱」な
どの伏字表現との照合が可能となり、（三菱＝○菱）な
どの同義語辞書が自動的に作成されるという効果が得ら
れる。

【００８２】また、上記照合用索引に含まれる伏字文字
照合用ノードが子供ノードのうち通常ノードのみを登録
した索引情報を有し、上記隠語表現照合ステップがこの
索引を用いた伏字文字照合ステップを有することで、単
語リストに見出し語が大量にある場合でも「○菱」など
の伏字表現との照合処理が高速に実行できるという効果
が得られる。

【００８３】また、上記同義語表現検索手段が、伏字文
字との照合において入力文書中の文字を先読みすること
により照合処理回数を削減可能としたことで、単語リス
トに見出し語が大量にある場合でも「○○電器」などの
伏字表現との照合処理が高速に実行できるという効果が
得られる。

【００８４】また、上記同義語表現識別手段が、抽出さ
れた候補単語の前後の文脈により重み付けを行なうこと
で、抽出誤りの少ない的確な同義語抽出結果が得られる
とともに、閾値により自動抽出の件数を変更するなどの
柔軟な辞書作成が可能になるという効果が得られる。

【００８５】また、上記同義語識別手段が、候補単語の
入力文書における前後の文脈から、箇条書きの可能性の
高い部分を検出して、この同義語関係の重み付けを小さ
くすることで、箇条書きヘッダ文字を伏字と誤認しにく
くなり、同義語抽出結果の精度が向上するという効果が
得られる。

【００８６】また、上記同義語識別手段が、候補単語の
入力文書における前後の文脈から、相互補完の関係にあ
る伏字表現を検出して、同義語関係の重み付けを大きく
することで、候補単語の文字のうち伏字とする文字を変
更したものを複数用いて推測を容易にした伏字表現を含
む入力文書より伏字表現を抽出し、同義語抽出結果の精
度が向上するという効果が得られる。

【００８７】また、上記同義語識別手段が、候補単語の
入力文書における前後の文脈から、連続出現する隠語表
現や伏字表現を検出して同義語関係の重み付けを大きく
することで、近傍に連続して隠語表現や伏字表現が出現
する場合に同義語抽出結果の精度が向上するという効果
が得られる。

【００８８】また、上記同義語識別手段が、候補単語の
入力文書における出現位置の近傍で多用されるマーカー
単語を検出して同義語関係の重み付けを大きくすること
で、同義語抽出結果の精度が向上するという効果が得ら
れる。

【００８９】

【実施の形態２】図１７に本発明の実施の形態２におけ
る構成図を示す。以下では、「防衛庁」を「某Ａ庁」と
したり、「雪印」を「逝き印」とするといった、読みが
共通で元単語と著しく異なる表記とする隠語表現のこと
を「読み隠語」と呼ぶ。また実施の形態１と同一の構成
物については、図１で示したものと同じ図番で示してい
る。２は本実施の形態に係る辞書作成装置であって、単
語リスト１１および入力文書１２を入力すると、単語リ
スト中の見出し語と読みが一致する隠語表現を入力文書
１２から抽出して同義語辞書１６を生成する。１７０１
は読み隠語照合用索引生成部であって、１７０２は読み
隠語照合用索引生成部が１７０１が単語リスト１１の見
出し語の読みに基づいて生成される読み隠語照合用索引
データである。また１７０３は読み隠語検索手段であっ
て、１７０４は読み隠語検索手段１７０３が入力文書１
２の漢字の読みを取得するために参照する漢字読みテー
ブルである。

【００９０】読み隠語照合用索引生成手段１７０１は、
少なくとも見出し語及び読みを含む単語リスト１１を読
み込み、読み隠語検索手段において索引情報として使用
する読み隠語照合用索引データ１７０２を生成する。読
み隠語検索手段１７０３では、入力手段１０２を用いて
入力文書１２を順次読み込み、この入力文書中の文字列
と上記読み隠語照合用索引データ１７０２とを照合する
ことにより、候補単語１５を抽出する。同義語表現識別
手段１０４では、抽出された候補単語１５を集計し、登
録手段１０５を用いて同義語辞書１６を出力する。漢字
読みテーブル１７０４は、各漢字に対する読みを登録し
たテーブルであり、読み隠語検索手段１７０３が照合処
理において参照し、入力文書１２に出現する漢字を読み
に変換するために使用する。制御部１０６では、上記の
各処理が一貫して動作するよう全体を制御する。また本
発明に必須の構成要素ではないため図示を省いたが、実
際の利用者が本装置を使用するための入出力などの制御
についても制御部１０６において行なう。

【００９１】図１８は、読み隠語に関する同義語関係抽
出の処理フローである。まずステップＳ１８０１におい
て読み隠語照合用索引生成手段１７０１は、単語リスト
１１から読み隠語照合用索引データ１７０２を生成す
る。続けてステップＳ１８０２において読み隠語検索手
段１７０３は、入力手段１０２によって読み込んだ入力
文書１２の文字列の読みを漢字読みテーブル１７０４か
ら取得し、この読みと上記照合用索引データ１７０２と
を照合することにより、候補単語１５を抽出する。最後
にステップＳ２０３において、同義語識別手段１０５は
抽出された上記候補単語１５を集計し、同義語辞書１６
を生成する。ステップＳ２０３の処理については実施の
形態１とまったく同様であるので、説明を省略する。以
下、上記の各処理ステップの詳細について順次説明す
る。

【００９２】まず図１９を参照しながら、読み隠語照合
用索引生成ステップＳ１８０１の詳細について説明す
る。以下では、単語リストの見出し語として図１９の１
９０１に示したデータが入力されるものとして説明す
る。読み隠語照合用索引データ１７０２は、実施の形態
１において図４に示した照合用索引データ１４と同様、
ノード１９０２および各ノードを接続するリンク情報１
９０３、及び照合単語へのリンク情報１９０４から構成
される。各ノードには子孫ノードへのリンク情報１９０
３、及び照合単語へのリンク情報１９０４を保持するも
のとする。なお、ノード番号Ｎ０を付与したノードはル
ートノードであり、照合処理開始時に参照する特殊なノ
ードである点も図４と同様である。

【００９３】読み隠語照合用索引生成ステップＳ１８０
１では、入力された単語リスト１９０１の読み部分の木
構造化を行なう。すなわち、図１３に示した単語リスト
１９０１に含まれる各単語の読みを文字単位で分解して
ノードとし、先頭から共通な部分をマージして木構造と
する。このとき、各単語の最終文字のノードには照合単
語へのリンク情報１９０４を付与する。

【００９４】次に図１９及び図２０を参照しながら、読
み隠語検索ステップＳ１８０２の詳細について説明す
る。入力文書データの例として「逝き印の牛乳」を用い
る。また、照合用索引データとしては図１９に示したも
のを用いて説明する。

【００９５】図２０のステップＳ２００１では、読み隠
語検索処理全体の初期化を行なう。Ｓは文字配列であ
り、ステップＳ２００１で入力文書を文字配列Ｓに読み
込む。またＰは照合開始位置を示す変数で、０で初期化
する。ステップＳ２００２は処理全体の終了条件判定で
あり、照合開始位置Ｐが入力文書サイズ以上となった
ら、照合処理を終了する。そうでなければ、照合開始位
置Ｐを変更しながらステップＳ２００３以下の処理を繰
り返し実行する。図を簡易にして理解を容易にするため
図示していないが、入力文書が複数ある場合には各文書
に対して読み隠語検索ステップ（Ｓ１８０２）を繰り返
す。ここでは、「逝き印の牛乳」という文字列が配列Ｓ
に読み込まれる。

【００９６】図２０のステップＳ２００３では、文字位
置Ｐから始まる部分文字列に対する照合処理の初期化を
行なう。作業用の変数Ｌはノードのリストであり、ルー
トノードＮ０ただ１つからなるリストで初期化する。同
じく作業用のノードリストＬｎｅｘｔは空リストで初期
化する。変数Ｄは作業変数であって、照合処理が何文字
めまで進んだかを示すものであり、０で初期化する。変
数Ｏｂｕｆは出力する同義語関係を一時的に蓄積するも
ので、は空リストで初期化する。

【００９７】文字位置Ｐから始まる部分文字列に対する
照合処理では、ステップＳ２００４からステップＳ２０
０９の処理を繰り返す。図２０のステップＳ２００４は
部分文字列照合処理の終了判定であり。Ｌが空リストで
あれば開始文字位置ＰからはじめてＤ文字めにおける照
合が失敗したということになるので、部分文字列に対す
る照合処理を終了し、ステップＳ２０１１に進む。ステ
ップＳ２０１１では処理終了時点におけるＯｂｕｆの内
容から最長一致となる候補を候補単語１５として出力す
る。さらにＰをインクリメントし、ステップＳ２００２
に戻り次の部分文字列に対する照合処理を続ける。ここ
では、ＬがステップＳ２００３で初期化された状態であ
り空リストではないのでステップＳ２００５に進む。

【００９８】ステップＳ２００５では、図１７の漢字読
みテーブル１７０４を参照して処理中の文字Ｓ［Ｐ+
Ｄ］の読みを取得する。ここではＰ＝０, Ｄ＝０なので
Ｓ［０］＝「逝」であり、「ゆ」「い」及び「せい」と
いう３種類の読みが得られる。それぞれの読みを作業用
変数Ｙ［０］、Ｙ［１］、Ｙ［２］に格納する。

【００９９】作業用ノードリストＬの各要素について、
ステップＳ２００６からステップＳ２００９の処理を繰
り返し行なう。ステップＳ２００６は、Ｌの各要素に対
する繰り返し処理の終了判定である。ここではＬがＮ０
のみなので、Ｎ＝Ｎ０としてステップＳ２００７以下の
処理を行なう。

【０１００】ステップＳ２００７およびステップＳ２０
０８において、ステップＳ２００５で取得した各読みＹ
［０］〜Ｙ［２］について、Ｎ（＝Ｎ０）から子孫ノー
ドをたどりつつ照合可能なノードＬｎｅｘｔを取得す
る。ここでは、Ｙ［０］＝「ゆ」に対して、ノードＮ０
の子供ノードＮ１との照合に成功する。Ｙ［１］＝
「い」に対しては、ノードＮ０の子供ノードとの照合に
失敗する。Ｙ［２］＝「せい」に対しては、ノードＮ１
９およびノードＮ２０との照合に成功する。以上の結
果、Ｌｎｅｘｔ＝［Ｎ１, Ｎ２０］となった状態でステ
ップＳ２００９からステップＳ２００６に進む。

【０１０１】Ｌの要素はＮ０のみだったのでステップＳ
２００６からステップＳ２０１０に進む。ステップＳ２
０１０では、まずＬｎｅｘｔの各ノードについて照合単
語へのリンク情報（図１９の１９０４）があるかどうか
を判定し、もしあれば当該照合単語を変数Ｏｂｕｆに一
時出力する。ここではＬｎｅｘｔの要素Ｎ１、Ｎ２０の
いずれも照合単語へのリンク情報をもたないので、Ｏｂ
ｕｆは空リストのままである。さらに作業用変数Ｄをイ
ンクリメントし、ＬをＬｎｅｘｔの内容で更新してから
ステップＳ２００４に戻って処理を続行する。

【０１０２】今度もＬは空リストではない（Ｌ＝［Ｎ
１, Ｎ２０］）ので、ステップＳ２００４からステップ
Ｓ２００５に進む。ステップＳ２００５において「き」
の読みを取得する（Ｙ［０］＝「き」のみ）。続けてス
テップＳ２００７およびＳ２００８の処理を行なう。ノ
ードＮ１に対しては子供ノードＮ２との照合に成功する
が、ノードＮ２０に対してはいずれの子供ノードとの照
合に失敗する。この結果、Ｌｎｅｘｔ＝［Ｎ２］という
状態となり、ステップＳ２００９からステップＳ２００
６に進む。

【０１０３】以下、上記と同様に照合処理を進めていく
と、Ｄ＝２のときにノードＮ５との照合が成功し、同義
語関係（逝き印＝雪印）が得られる。この同義語関係が
ステップＳ１９１１において同義語データ１５として出
力される。同義語データ１５については第１の実施の形
態と同様であるので説明を省略する。以上で読み隠語照
合ステップＳ１７０２の説明を終了する。

【０１０４】以上説明したように、単語リストの見出し
語の読みから読み隠語照合処理用索引を生成する読み隠
語照合用索引生成手段と、上記読み隠語照合用索引を用
いて上記単語リスト中の単語の読みと入力文書中の単語
の読みとの照合を行なうことで同義語関係を抽出する読
み隠語検索手段と、抽出された同義語関係を集計して同
義語辞書データを生成する同義語表現識別手段とを有す
る構成としたので、「逝き印」や「某Ａ庁」などの読み
が同じで異なる表記を使用する隠語表現との照合が可能
となり（逝き印＝雪印）や（防衛庁＝某Ａ庁）などの同
義語辞書が自動的に作成されるという効果が得られる。

【０１０５】

【発明の効果】本発明は、照合用索引データにおいて単
語リストの見出し語の文字と伏字・隠語表現リストの隠
語表現の文字とのそれぞれについてノードを生成すると
ともに、各文字ノードから上記見出し語又は上記隠語表
現におけるその文字の次の文字ノードへのリンクを順次
生成し、上記伏字・隠語リストが上記見出し語を構成す
る文字を通常文字とする隠語表現を含む場合は、この通
常文字の前のノードからこの隠語表現の最初のノードへ
のリンク経路を生成するとともに、この隠語表現の最後
の文字のノードから上記通常文字の次の文字のノードへ
のリンク経路を生成し、同義語表現検索時において、入
力文書の文字とこの照合用索引データのリンクを辿って
得られるノードの文字を順次照合する構成としたため、
近傍に出現することのない隠語表現と単語リストの見出
し語との同義語関係を入力文書より抽出し、さらに実際
に同義語として使用されている単語のみをこの単語の入
力文書における出現位置の前後の文書の特徴を用いて選
択することができるという効果を有する。

【０１０６】また本発明は、伏字・隠語表現リストが隠
語表現として記憶する通常文字と文字形状の類似する文
字又は文字列をその通常文字に代替して入力文書の文字
と照合可能としたため、「束芝」（東芝の隠語）や「木
公下」（松下の隠語）などの隠語表現との照合が可能と
なり、（束芝＝東芝）や（木公下＝松下）などの同義語
辞書を自動的に作成することができるという効果を有す
る。

【０１０７】また本発明は、入力文書中に出現する伏字
を含む伏字単語の構成文字のうち伏字でない構成文字と
単語リストの見出し語のうち上記伏字単語の伏字出現位
置にある文字以外の文字とを同じ出現位置にある文字ご
とに照合し一致した見出し語を同義語となりうる候補単
語として抽出する構成としたので、「○菱」などの伏字
表現との照合を高速に実行することが可能となり、（三
菱＝○菱）などの同義語辞書を自動的に作成することが
できるという効果を有する。

【０１０８】また本発明は、候補単語の入力文書中にお
ける出現位置の前後の文脈によりこの候補単語の重み付
けを行いこの候補単語の重み付けが所定の閾値以上の場
合はこの候補単語が同義語であると決定する構成とした
ので、伏字文字として使用されることの多い文字を含む
単語の中から、実際に伏字文字として使用されている単
語を抽出することができるという効果を有する。

【０１０９】また本発明は、入力文書がＨＴＭＬ文書で
ある場合に、伏字を含む候補単語と所定のＨＴＭＬタグ
とが上記ＨＴＭＬ文書中に近接していることを検出して
この候補単語の重み付けを小さくする構成としたので、
ＨＴＭＬ文書特有の構造に着目して隠語表現や伏字表現
を用いた同義語を抽出することができるという効果を有
する。

【０１１０】また本発明は、候補単語の先頭が伏字であ
ってこの候補単語が入力文書の行頭に出現していること
を検出してこの候補単語の重み付けを小さくする構成と
したので、伏字文字として使用されることの多い文字が
行頭に現れる場合であって、この文字を含む単語を伏字
表現による同義語として抽出する回数を減少することが
でき、精度の高い同義語辞書を作成することができると
いう効果を有する。

【０１１１】また本発明は、抽出された複数の候補単語
のうち同一の同義語を表現する候補単語であってこの候
補単語の構成文字のうち異なる文字を伏字で置換した伏
字表現を検出してこの候補単語の重み付けを大きくする
構成としたので、入力文書において伏字表現を用いた複
数の単語を抽出した場合に、この伏字表現を用いた単語
で同一の見出し語の同義語として用いられている単語の
抽出を効率的に行うことができるという効果を有する。

【０１１２】また本発明は、抽出された候補単語の入力
文書における出現位置近傍に他の候補単語が存在するこ
とを検出して同義語関係の重み付けを大きくする構成と
したので、入力文書の一部分に頻出することの多い隠語
表現や伏字表現を検出し、この情報を元に同義語辞書を
作成することができるという効果を有する。

【０１１３】また本発明は、語リストの見出し語のロー
マ字によるイニシャル文字を見出し語の先頭文字に置換
した単語と上記入力文書の文字とを照合する構成とした
ので、「Ｍ菱電機」や「Ｍ下電器」といった伏字表現と
の照合が可能となり、（Ｍ菱電機＝三菱電機）や（Ｍ下
電器＝松下電器）といった同義語辞書を自動的に作成す
ることができるという効果を有する。

【０１１４】また本発明は、読みとを含む単語リスト
と、漢字読みテーブルとを用いて入力文書の文字の読み
を上記漢字読みテーブルから取得し、この読みと上記単
語リスト中の見出し語の読みとを照合し一致する単語を
同義語表現となりうる候補単語として抽出する構成とし
たので、「逝き印」や「某Ａ庁」などの読みが同じで異
なる表記を使用する隠語表現との照合が可能となり（逝
き印＝雪印）や（防衛庁＝某Ａ庁）などの同義語辞書を
自動的に作成することができるという効果を有する。

【図面の簡単な説明】

【図１】この発明の実施の形態１の構成図である。

【図２】この発明の実施の形態１における処理のフロ
ーチャートである。

【図３】この発明の実施の形態１における照合用索引
生成についてのフローチャートである。

【図４】この発明の実施の形態１における照合用索引
データの構成例を示す図である。

【図５】この発明の実施の形態１における照合用索引
データにおけるノードが保持するインデックスの例を示
す図である。

【図６】この発明の実施の形態１における照合用索引
データと入力文書中の文字列との照合処理のフローチャ
ートである。

【図７】この発明の実施の形態１における照合用索引
データと入力文書中の文字列との照合処理におけるリス
ト処理に関するフローチャートである。

【図８】この発明の実施の形態１における入力文書を
メモリ中に読み込んだ態様の例を示す図である。

【図９】この発明の第１の実施の形態における同義語
表現検索結果の保持の態様例を示す図である。

【図１０】この発明におけるリンク経路にの説明図で
ある。

【図１１】この発明の実施の形態１における同義語表
現識別手段の重み付け処理のフローチャートである。

【図１２】この発明の実施の形態１における箇条書き
検出処理のフローチャートである。

【図１３】この発明の実施の形態１における重み付け
の保持方法の態様例を示す図である。

【図１４】この発明の実施の形態１における連続出現
検出処理のフローチャートである。

【図１５】この発明の実施の形態１における隠語表現
又は伏字表現を用いた単語が入力文書において近傍に出
現することを検出する処理のフローチャートである。

【図１６】この発明の実施の形態１におけるマーカー
単語検出処理のフローチャートである。

【図１７】この発明の実施の形態２の構成図である。

【図１８】この発明の実施の形態２における読み隠語
照合用索引精製処理のフローチャートである。

【図１９】この発明の実施の形態２における読み隠語
照合用索引データの態様例を示す図である。

【図２０】この発明の実施の形態２における読み隠語
照合用索引データと入力文書中の文字列との照合処理に
ついてのフローチャートである。

【図２１】従来技術の構成図である。

【符号の説明】

１１：単語リスト１２：入力文書１３：伏字・隠語表現リスト１４：照合用索引データ１５：候補単語１６：同義語辞書１０１：照合用索引生成手段１０２：入力手段１０３：同義語表現検索手段１０４：同義語表現識別手
段１０５：登録手段１７０１：読み隠語照合用索引生成手段１７０２：読み隠語照合用索引データ１７０３：読み隠語検索手段１７０４：漢字読みテーブル

Claims

【特許請求の範囲】

【請求項１】見出し語を含む単語リストと、隠語表現
と通常文字との対応関係又は伏字表現を記憶する伏字・
隠語表現リストと、入力文書を読み込む入力手段と、上
記単語リスト中の見出し語と上記伏字・隠語表現リスト
の伏字表現又は隠語表現と入力手段から出力された入力
文書の文字とを照合し入力文書から同義語表現となりう
る候補単語を抽出する同義語表現検索手段と、この同義
語表現検索手段により抽出された候補単語が同義語であ
るか否かを入力文書におけるその出現位置の前後の情報
から決定する同義語識別手段と、この同義語識別手段に
より同義語と決定された候補単語に上記単語リストの見
出し語とを対応づけて同義語辞書に登録する登録手段と
を備えることを特徴とする辞書作成装置。
【請求項２】上記伏字・隠語表現リストは、通常文字
と文字形状の類似する文字又は文字列を隠語表現として
記憶する構成とされたことを特徴とする請求項１の辞書
作成装置。
【請求項３】上記同義語表現検索手段は、入力文書中
に出現する伏字を含む伏字単語の構成文字のうち伏字で
ない構成文字と上記単語リストの見出し語のうち上記伏
字単語の伏字出現位置にある文字以外の文字とを同じ出
現位置にある文字ごとに照合し一致した見出し語を同義
語となりうる候補単語として抽出する構成とされたこと
を特徴とする請求項１記載の辞書作成装置。
【請求項４】上記同義語識別手段は、上記候補単語の
入力文書中における出現位置の前後の文脈によりこの候
補単語の重み付けを行いこの候補単語の重み付けが所定
の閾値以上の場合はこの候補単語が同義語であると決定
する構成とされたことを特徴とする請求項１の辞書作成
装置。
【請求項５】上記入力手段は、ＨＴＭＬ文書を入力文
書として読み込み、上記同義語識別手段は、上記同義語
表現検索手段が抽出した伏字を含む候補単語と所定のＨ
ＴＭＬタグとが上記ＨＴＭＬ文書中に近接していること
を検出してこの候補単語の重み付けを小さくする構成と
されたことを特徴とする請求項４記載の辞書作成装置。
【請求項６】上記同義語識別手段は、上記同義語表現
検索手段が抽出した候補単語の先頭が伏字であってこの
候補単語が入力文書の行頭に出現していることを検出し
てこの候補単語の重み付けを小さくする構成とされたこ
とを特徴とする請求項４記載の辞書作成装置。
【請求項７】上記同義語識別手段は、上記同義語表現
検索手段が抽出した複数の候補単語のうち同一の同義語
を表現する候補単語であってこの候補単語の構成文字の
うち異なる文字を伏字で置換した伏字表現を検出してこ
の候補単語の重み付けを大きくする構成とされたことを
特徴とする請求項４記載の辞書作成装置。
【請求項８】上記同義語識別手段は、上記同義語表現
検索手段により抽出された候補単語の上記入力文書の出
現位置近傍に他の候補単語が存在することを検出して同
義語関係の重み付けを大きくする構成とされたことを特
徴とする請求項４記載の辞書作成装置。
【請求項９】上記同義語表現検索手段は、上記単語リ
ストの見出し語のローマ字によるイニシャル文字を見出
し語の先頭文字に置換した単語と上記入力文書の文字と
を照合する構成とされたことを特徴とする請求項１記載
の辞書作成装置。
【請求項１０】見出し語とその読みとを含む単語リス
トと、漢字読みテーブルと、入力文書を読み込む入力手
段と、この入力手段から出力された入力文書の文字の読
みを上記漢字読みテーブルから取得し、この読みと上記
単語リスト中の見出し語の読みとを照合し一致する単語
を同義語表現となりうる候補単語として抽出する読み隠
語検索手段と、上記同義語表現検索手段により抽出され
た候補単語が同義語であるか否かを入力文書におけるそ
の出現位置の前後の情報から決定する同義語識別手段
と、この同義語識別手段により同義語と決定された候補
単語に上記単語リストの見出し語とを対応づけて同義語
辞書に登録する登録手段とを備えることを特徴とする辞
書作成装置。