JPH0635958A - 語句検索方法 - Google Patents

語句検索方法

Info

Publication number
JPH0635958A
JPH0635958A JP4186689A JP18668992A JPH0635958A JP H0635958 A JPH0635958 A JP H0635958A JP 4186689 A JP4186689 A JP 4186689A JP 18668992 A JP18668992 A JP 18668992A JP H0635958 A JPH0635958 A JP H0635958A
Authority
JP
Japan
Prior art keywords
word
phrase
search
text
analysis result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP4186689A
Other languages
English (en)
Inventor
Kuniaki Ozawa
邦昭 小澤
Yukinori Terahama
幸徳 寺濱
Hiroyuki Kaminari
広之 神成
Eiji Yamazaki
英二 山崎
Atsuko Kameoka
敦子 亀岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Software Engineering Co Ltd
Hitachi Microcomputer System Ltd
Hitachi Ltd
Original Assignee
Hitachi Software Engineering Co Ltd
Hitachi Microcomputer System Ltd
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Software Engineering Co Ltd, Hitachi Microcomputer System Ltd, Hitachi Ltd filed Critical Hitachi Software Engineering Co Ltd
Priority to JP4186689A priority Critical patent/JPH0635958A/ja
Publication of JPH0635958A publication Critical patent/JPH0635958A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 予め挿入条件を記述することなく,複数の単
語が離散し且つ語順が変った検索語句を検索する。単語
のもつ属性によって検索する。 【構成】 検索語句の中心語を選択してテキストを検索
し、中心語が含まれている場合に句構造を比較し、句構
造が一致する場合に単語の包含関係を判定する、という
3段階で検索語句を検索する。また、検索語句中に属性
識別子が含まれているか判定し、含まれていた場合に
は、その属性識別子が示す‘属性’を持つ記述単位がテ
キスト中に含まれているか否かにより、検索語句を検索
する。 【効果】 ユーザの負担が軽くなる。検索効率が向上す
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、語句検索方法に関し、
さらに詳しくは、自然言語処理において、検索すべき検
索語句がテキストに含まれているか否か判定する語句検
索方法に関する。
【0002】
【従来の技術】翻訳システムや,推敲システムでは、自
然言語で記述されたテキストの中に、予め定めた検索語
句が存在するか否かを判定する処理が必要となる。例え
ば、翻訳システムでは、定型文や熟語がテキスト中に存
在するか否かを調べる必要がある。また、推敲システム
では、誤用された語句がテキスト中に存在するか否かを
調べる必要がある。
【0003】ところで、検索語句が1語の場合や,検索
語句が2語以上でも検索語句を構成する単語が連続する
ならば、その検索は容易である。しかし、検索語句が2
語以上で且つ検索語句を構成する単語が離散的に存在す
るような検索語句(以下、複数単語離散型検索語句とい
う)は、検索が困難である。なぜなら、検索語句を構成
する単語の間に挿入された語句(以下、挿入語句とい
う)によって、テキスト中に検索語句が存在すると判定
する場合と,存在しないと判定する場合とが分れるから
である。
【0004】複数単語離散型検索語句を検索するための
従来技術としては、例えば特開昭63−168775号
公報に開示の技術がある。この特開昭61−16877
5号公報に開示の技術では、挿入語句が満たす文法的・
意味的条件(以下、挿入条件という)を予め記述してお
き、挿入語句がこの条件を満たせばテキスト中に検索語
句が存在すると判定し、この条件を満たさなければテキ
スト中に検索語句が存在しないと判定する。
【0005】
【発明が解決しようとする課題】しかし、上記従来技術
では、複雑な挿入条件をユーザが記述しなければなら
ず、ユーザの負担が大きい問題点がある。また、上記従
来技術は、埋込文のようにテキスト中の単語の順序が検
索語句の単語の順序と必ずしも一致しない場合への対処
が考慮されていない問題点がある。さらに、上記従来技
術では、複数の単語が共有する‘属性’(品詞や,意味
素など)を、検索語句に代えて用いることができなかっ
たので、検索語句の記述が煩雑となる問題点がある。
【0006】そこで、本発明の第1の目的は、予め挿入
条件を記述することなく複数単語離散型検索語句を検索
することができる語句検索方法を提供することにある。
また、本発明の第2の目的は、テキスト中の単語の順序
が検索語句の単語の順序と一致しない場合についても、
検索語句を正しく検索することができる語句検索方法を
提供することにある。さらに、本発明の第3の目的は、
検索語句として、単語だけでなく、単語のもつ属性(例
えば品詞や意味素)など指定することによっても、検索
語句を検索することができる語句検索方法を提供するこ
とにある。
【0007】
【課題を解決するための手段】第1の観点では、本発明
は、自然言語で記述されたテキストと,自然言語で記述
された検索語句とを読み込み、前記検索語句を記述単位
(語,句,節など)に分割し、その分割した記述単位の
中から構文解析により前記検索語句の中心語を決定し、
前記中心語が前記テキスト中に含まれるか否か判定する
ことを特徴とする語句検索方法を提供する。
【0008】第2の観点では、本発明は、上記構成の語
句検索方法において、中心語がテキスト中に含まれてい
た場合、テキストの構文解析結果および検索語句の構文
解析結果を用いて、検索語句の文の構造(句構造など)
とテキストの文の構造(句構造など)とを比較し、前記
検索語句と前記テキストの文の構造とが一致するか否か
判定することを特徴とする語句検索方法を提供する。
【0009】第3の観点では、本発明は、上記構成の語
句検索方法において、検索語句と,テキストの文の構造
が一致した場合、前記テキストの文の構造の中に検索語
句を構成する全ての記述単位(語,句,節)が含まれて
いるか否か判定することを特徴とする語句検索方法を提
供する。
【0010】第4の観点では、本発明は、予め複数の記
述単位(語,句,節など)が共有する‘属性’(国名,
四季等の意味素,品詞など)と,その‘属性’を示す属
性識別子とを対応付けてテーブルに格納しておき、検索
語句中に前記属性識別子が含まれているか判定し、含ま
れていた場合には、前記テーブルを用いて前記属性識別
子が示す‘属性’を持つ記述単位(語,句,節など)が
テキスト中に含まれているか否か判定することを特徴と
する語句検索方法を提供する。
【0011】
【作用】第1の観点による本発明の語句検索方法では、
検索語句の構文解析を行ない、検索語句の中から中心語
を決定し、中心語をテキストから検索する。そして、こ
の中心語があることを、テキスト中に検索語句があるた
めの条件として利用する。そこで、予め挿入条件を記述
する必要がなく、ユーザの負担を軽減することが出来
る。
【0012】第2の観点による語句検索方法では、テキ
スト中に検索語句の中心語がある場合のみについて、検
索語句とテキストの文の構造を比較して、その構造が一
致することを、テキスト中に検索語句があるための条件
として利用する。そこで、テキスト中の語句の順序が検
索語句の順序と一致しない場合についても、テキスト中
に検索語句があるか否か正しく判定することが出来る。
【0013】第3の観点による語句検索方法では、テキ
スト中に検索語句の中心語があり且つ検索語句とテキス
トの文の構造が一致する場合のみについて、テキストの
文の構造の中に検索語句を構成する全ての記述単位が含
まれているか否か判定して、全ての記述単位が含まれて
いることを、テキスト中に検索語句があるための条件と
して利用する。そこで、単語が離散した検索語句に対し
ても、予め挿入語句の条件を記述しておく必要がないの
で、ユーザの負担が軽くなる。
【0014】第4の観点による語句検索方法では、予め
複数の記述単位(語,句,節など)に共通する‘属性’
を利用して、テキストを検索する。そこで、定型文や熟
語などの検索を平易に行うことが出来る。
【0015】
【実施例】以下、本発明を図に示す実施例によりさらに
詳しく説明する。なお、これにより本発明が限定される
ものではない。 −第1実施例− 図1は、本発明の第1実施例による語句検索方法を実現
する語句検索装置1の全体構成図である。この語句検索
装置1は、英語のテキスト中に英語の検索語句があるか
否か判定する。CPU210には、入力装置200と,
記憶装置300と,表示装置400とが接続されてい
る。記憶装置300は、テキストテーブル220と,検
索語句テーブル230と,構文解析結果テーブル240
と,語句解析結果テーブル250と,構文解析辞書26
0と,構文解析プログラム270と,語句検索プログラ
ム280とを備えている。
【0016】図2は、語句検索装置1の動作を示すフロ
ー図である。まず、CPU210は入力装置200を起
動し、テキストと検索語句を入力装置200から読み込
む(ステップ10)。そして、テキストを1文ごとにテ
キストテーブル220に格納する。また、検索語句を検
索語句テーブル230に格納する。
【0017】図3は、テキストテーブル220の例示図
である。このテキストテーブル220Aは、単語位置欄
220aと単語欄220bとからなる。単語位置欄22
0aは、テキストを構成する単語の位置を、テキストの
先頭からの順番により示す。単語欄220bは、単語位
置欄220aの位置に対応する単語を示す。
【0018】図4は、検索語句テーブル230の例示図
である。この検索語句テーブル230Aは、単語位置欄
230aと単語欄230bとからなる。単語位置欄23
0aは、検索語句を構成する単語の位置を、検索語句の
先頭からの順番により示す。単語欄230bは、単語位
置欄230aの位置に対応する単語を示す。
【0019】図2に戻り、CPU210は、構文解析プ
ログラム270を起動し、構文解析辞書260を用いて
テキストと検索語句の構文解析を行う(ステップ2
0)。そして、テキストの構文解析結果を構文解析結果
テーブル240に格納する。また、検索語句の構文解析
結果を語句解析結果テーブル250に格納する。なお、
構文解析は、形態素解析および多品詞解消を含む。形態
素解析とは、単語単位に分割すると共に単語ごとの品詞
候補を決定する処理をいう。また、多品詞解消とは、品
詞候補の中からその単語の品詞を同定する処理をいう。
このような構文解析の技術は、例えば特開昭58−04
0684号公報に記載されている。
【0020】図5は、構文解析結果テーブル240の例
示図である。この構文解析結果テーブル240Aは、単
語位置欄240aと,品詞コード欄240bと,原形欄
240cと,句構造欄240dと,句要素欄240eと
からなる。単語位置欄240aは、テキストテーブル2
30Aの単語位置欄230aに対応する。従って、単語
位置欄240aと単語位置欄230aの同一数値は、同
一単語を表す。品詞コード欄240bは、単語位置欄2
40aの位置の単語の品詞を示す。例えば、「S」は代
名詞の主格,「VD」は動詞の過去形,「ADJ」は形
容詞の原形,「N」は名詞の単数形,「CNJ」は接続
詞を表す。原形欄240cは、活用変化している単語
(例えば、時制変化した動詞)の原形を示す。
【0021】句構造欄240dは、句コード欄(左半
分)と結合動詞欄(右半分)に分割されている。句コー
ド欄(左半分)は、句の種類を示す記号を格納する。例
えば、〈S〉は主語句,〈V〉は動詞句,〈O〉は目的
語句,〈C〉は補語句を表す。句が複数単語から構成さ
れる場合には、すべての単語の句コード欄に句の種類を
示す記号を格納してもよいが、句を構成する主要語のみ
に句の種類を示す記号を格納してもよい。例えば〈形容
詞+名詞〉が目的語句の場合は、名詞のコード欄のみに
〈O〉を格納すればよい。結合動詞欄(右半分)には、
ある句が動詞と結合する場合にその動詞の出現順の番号
を記入する。例えば、〈1〉は、テキスト中の動詞で1
番目に出現するものを示す。
【0022】句要素欄240eは、その単語が属する句
のテキストの先頭からの出現順の番号を示す。
【0023】図6は、語句解析結果テーブル250の例
示図である。この語句解析結果テーブル250Aは、構
文解析結果テーブル240Aと同様に単語位置欄250
a〜句要素欄250eを備えると共に、それに加えて、
中心語欄250fを備えている。なお、この時点では、
中心語欄250fは空欄である。中心語については後述
する。図2に戻り、CPU210は、検索語句を構成す
る単語の中から中心語を選択し(ステップ30)、語句
解析結果テーブル250の中心語欄250fにマーカ
「*」を記入する。ここで、中心語は、 検索語句が1単語からなる場合は、その単語 上記以外で、動詞句を含む場合はその動詞句中の動
詞(活用変化を含む) 上記,以外で、名詞句や前置詞句など名詞がある
句を含む場合は、その句の最後の名詞 上記〜以外の場合は、検索語句を構成する単語の
中で、出現頻度の最も少ないと思われる単語(例えば最
も文字数の多い単語) を選択する。
【0024】次に、CPU210は、検索語句の構文解
析結果と中心語とを表示装置400に表示し、ユーザか
らの修正を受け付ける。そして、語句解析結果テーブル
250Aを修正する(ステップ40)。
【0025】次に、CPU210は、中心語を検索キー
としてテキストテーブル220Aを検索する(ステップ
50)。中心語があればステップ70に進み、中心語が
なければステップ65に進む(ステップ60)。ステッ
プ65に進むと、CPU210は、語句解析結果テーブ
ル250Aの中心語の原形を検索キーとして、構文解析
結果テーブル240Aの原形欄240cを検索する。中
心語の原形があればステップ70に進む。中心語の原形
がなければステップ130に進む(ステップ66)。こ
のように、単語の活用変化にも対処可能である。
【0026】ステップ70に進むと、CPU210は、
語句解析結果テーブル250Aの句構造欄250dと構
文解析結果テーブル240Aの句構造欄240dとを用
いて、検索語句の句構造と,検索語句の中心語を含むテ
キストの句構造とを比較する(ステップ70)。句構造
が一致したらステップ90に進み、句構造が不一致なら
ステップ130に進む(ステップ80)。
【0027】ステップ90に進むと、CPU210は、
語句検索プログラム280を起動し、検索語句を構成す
る全ての単語が、上記ステップ70の比較に用いたテキ
ストの句に存在するか否か判定する。検索語句を構成す
る全ての単語がテキストの句に存在すればステップ11
0に進む。検索語句を構成する単語のうちの1つでもテ
キストの句に存在しなければ、ステップ130に進む
(ステップ100)。
【0028】ステップ110に進むと、検索語句有りの
フラグを立てる。そして、検索語句がテキスト中にあっ
たことを表示装置400に表示し、終了する(ステップ
120)。ステップ130に進むと、検索語句無しのフ
ラグを立てる。そして、検索語句がテキスト中になかっ
たことを表示装置400に表示し、終了する(ステップ
140)。
【0029】次に、上記図2のフロー図の動作を、具体
例1と,具体例2とを用いてさらに詳しく説明する。 具体例1.具体例1では、検索語句がテキスト中に存在
しない例として、 [テキスト例1] I drank cold water and she ate ho
t soup. [検索語句例1] drink soup を用いる。ステップ10では、[テキスト例1]を図3
のようにテキストテーブル220Aに格納する。また、
[検索語句例1]を図4のように検索語句テーブル23
0Aに格納する。
【0030】ステップ20では、[テキスト例1]の構
文解析結果を図5のように構文解析結果テーブル240
Aに格納する。例えば、単語位置欄240aには、[テ
キスト例1]の先頭の単語“I”に対応して、数値
「1」を記入し、最後の単語 “soup” に対応して、数
値「9」を記入する。また、品詞コード欄240bに
は、先頭の単語“I”に対応して「S」(代名詞の主
格)を記入し、最後の単語 “soup” に対応して「N」
(名詞の単数形)を記入する。また、原形欄240cに
は、単語“ate” に対応して原形「eat」を記入し、“d
rank”に対応して原形「drink」 を記入する。また、句
構造欄240dには、[テキスト例1]の最初の句
“I”に対応して、〈S|1〉(主語句,1番目の動詞
と結合)を記入する。同様に、2番目の句“ate” に対
応して〈V|1〉,3番目の句“cold water”の基本語
“water” に対応して〈O|1〉を記入する。以下同様
に処理し、最後(7番目)の句“hot soup”の基本語
“soup”に対応して〈O|2〉を記入する。さらに、句
要素欄240eには、先頭の単語“I” が1番目の句で
あるから「1」を記入する。以下同様に処理し、最後
(7番目)の句を構成する単語“hot”と“soup” とに
対応して「7」を記入する。また、ステップ20では、
[検索語句例1]の構文解析結果を図6に示す語句解析
結果テーブル250Aに格納する。例えば、句構造欄2
50eには、単語“drink” に対応して〈V|1〉を記
入し、単語“soup”に対応して〈O|1〉を記入する。
中心語欄250fは、この時点では空欄にしておく。
【0031】ステップ30では、検索語句の中心語とし
て動詞“drink” を選択し、図6に示す語句解析結果テ
ーブル250Aの中心語欄250fにマーカ〈*〉を記
入する。ステップ40では、[検索語句例1]の構文解
析結果と,中心語“drink” を表示し、ユーザからの修
正を受け付ける。ここでは、ユーザは修正を行わないも
のとする。
【0032】ステップ50では、中心語“drink” は、
テキストテーブル220Aにないのでステップ65に進
む。ステップ65では、語句解析結果テーブル250A
の原形欄250cにある中心語の原形“drink” を検索
キーとして、構文解析結果テーブル240Aの原形欄2
40cを検索する。この検索は成功するので、ステップ
70に進む。
【0033】ステップ70では、語句解析結果テーブル
250Aから求めた[検索語句例1]の句構造〈V〉+
〈O〉と、構文解析結果テーブル240Aから求めた中
心語〈drink〉 を含む[テキスト例1]の句構造とを比
較する。この場合、[テキスト例1]の句構造にも、
〈V〉+〈O〉があるので、ステップ90に進む。
【0034】ステップ90では、[検索語句例1]を構
成する全ての単語が、上記ステップ70において比較し
たテキストの句構造に存在するか否か判定する。このた
め、まず、語句解析結果テーブル250Aから、[検索
語句例1]の句構造〈V〉を構成する単語が“drink”
であり、句構造〈O〉を構成する単語が“soup”である
ことを導出する。次に、構文解析結果テーブル240A
から、[テキスト例1]の句構造〈V〉を構成する単語
が“drank” であり、句構造〈O〉を構成する単語が
“cold”と“water” であることを導出する。次に、両
者を比較し、[検索語句例1]の句構造〈O〉を構成す
る単語“soup”が,[テキスト例1]の句構造〈O〉を
構成する単語“cold”と“water” のいずれにも含まれ
ないので、ステップ130に進む。
【0035】ステップ130では、検索語句無しのフラ
グを立てる。ステップ140では、[検索語句例1]が
[テキスト例1]中になかったことを表示し、終了す
る。
【0036】具体例2.具体例2では、検索語句がテキ
スト中に存在する例として、 [テキスト例2] This is a similar soup which I dr
ank yesterday. [検索語句例2] drink soup を用いる。なお、[検索語句例2]は上記[検索語句例
1]と同じである。ステップ10では、[テキスト例
2]を図7のようにテキストテーブル220Bに格納す
る。また、[検索語句例2]を図4のように検索語句テ
ーブル230Aに格納する。
【0037】ステップ20では、[テキスト例2]の構
文解析結果を図8のように構文解析結果テーブル240
Bに格納する。なお、図8の品詞コード欄240bにお
いて、「IND」は不定冠詞,「REL」は関係代名詞
の目的格,「AD」は副詞を表す。また、句構造欄24
0dにおいて、〈REL〉は関係代名詞句を表す。単語
位置“5”の句構造欄240dが2段になっているの
は、この単語が2つの動詞と結び付いているからであ
る。また、ステップ20では、[検索語句例2]の構文
解析結果を図6に示す語句解析結果テーブル250Aに
格納する。
【0038】ステップ30では、検索語句の中心語とし
て動詞“drink” を選択し、図6に示す語句解析結果テ
ーブル250Aの中心語欄250fにマーカ〈*〉を記
入する。ステップ40では、[検索語句例2]の構文解
析結果と,中心語“drink” を表示し、ユーザからの修
正を受け付ける。
【0039】ステップ50では、中心語“drink” は、
テキストテーブル230Bにないのでステップ65に進
む。ステップ65では、語句解析結果テーブル250A
の原形欄250cにある中心語の原形“drink” を検索
キーとして、構文解析結果テーブル240Bの原形欄を
検索する。この検索は成功するので、ステップ70に進
む。
【0040】ステップ70では、語句解析結果テーブル
250Aから求めた[検索語句例2]の句構造〈V〉+
〈O〉と、構文解析結果テーブル240Bから求めた中
心語〈drink〉 を含む[テキスト例2]の句構造とを比
較する。この場合、[テキスト例2]の句構造にも、
〈V〉+〈O〉があるので、ステップ90に進む。
【0041】ステップ90では、[検索語句例2]を構
成する全ての単語が、上記ステップ70において比較し
たテキストの句構造に存在するか否か判定する。このた
め、まず、語句解析結果テーブル250Aから、[検索
語句例2]の句構造〈V〉を構成する単語が“drink”
であり、句構造〈O〉を構成する単語が“soup”である
ことを導出する。次に、構文解析結果テーブル240B
から、[テキスト例2]の句構造〈V〉を構成する単語
が“drank”であり、句構造〈O〉を構成する単語が“a
similar soup”であることを導出する。次に、両者を
比較し、[検索語句例2]の単語が全て[テキスト例
2]の句構造に含まれているので、ステップ110に進
む。
【0042】ステップ110では、検索語句有りのフラ
グを立てる。ステップ120では、[検索語句例2]が
[テキスト例2]中にあったことを表示し、終了する。
【0043】以上の第1実施例から理解されるように、
本発明では、 検索語句の中心語を選択してテキストを検索し、 中心語が含まれている場合に句構造を比較し、 句構造が一致する場合に単語の包含関係を判定する という3段階で処理するので、検索語句を構成する単語
がテキスト中に離散的に存在する場合およびテキストに
おける単語の順序が検索語句の単語の順序と一致しない
場合にも、正しく検索することが出来る。さらに、本発
明では、活用変化した単語の原形を用いた検索をも行う
ので、検索語句やテキストの単語が活用変化しても、正
しく検索することが出来る。
【0044】−第2実施例− 第2実施例は、複数の単語が共有する‘属性’(品詞コ
ードと意味素)をまとめて指定する汎用記号を、単語に
代えて検索語句に使用可能としたものである。前記意味
素としては、国名(Japan,America,Germany,…)
や,四季(spring,summer,autumn,winter)などがあ
る。図9は、本発明の第2実施例による語句検索方法を
実現する語句検索装置2の全体構成図である。CPU2
10には、入力装置200と,記憶装置350と,表示
装置400とが接続されている。記憶装置350は、テ
キストテーブル220と,検索語句テーブル230と,
構文解析結果テーブル240と,語句解析結果テーブル
250と,構文解析辞書260と,構文解析プログラム
270と,語句検索プログラム280と,汎用記号テー
ブル290を備えている。
【0045】図10は、汎用記号テーブル290の例示
図である。汎用記号テーブル290は、汎用記号欄29
0aと,品詞コード欄290bと意味素欄290cとか
らなる。汎用記号欄290aには、検索語句の単語に代
えて使用したい汎用記号を記入する。汎用記号は、特殊
記号(^)と汎用記号識別子(「nation」,「shiki」
など)とを組み合わせた構造である。品詞コード欄29
0bには、汎用記号が定義する品詞コードを記入する。
例えば、汎用記号〔^nation〕に対応して品詞コード
「N」が記入されている。意味素欄290cには、単語
の集まりに共通する意味を表す意味素を記入する。例え
ば、国名を表す意味素「kuni」, 四季を表す意味素「s
hiki」,動作を表わす動詞の意味素「dousa」を記入す
る。なお、品詞コードだけを定義する汎用記号(例えば
動詞の原形を示す〔^V〕など)に対しては記入を省略
することが出来る。
【0046】図11は、語句検索装置2の動作を示すフ
ロー図である。ステップ10’では、入力装置200を
起動し、テキストと検索語句を入力装置200から読み
込む。そして、テキストを1文ごとにテキストテーブル
220に格納する。また、検索語句を検索語句テーブル
230に格納する。検索語句の中に汎用記号があった場
合は、その汎用記号を1単語として取り扱う。図12
は、テキストテーブル220Cの例示図である。また、
図13は、語句検索テーブル230Cの例示図である。
【0047】ステップ13では、検索語句の中に汎用記
号があるか否かを判定する。汎用記号があればステップ
15に進む。なければステップ20’に進む。ステップ
15に進むと、汎用記号の品詞コードを汎用記号テーブ
ル290から導出する。
【0048】ステップ20’では、構文解析辞書260
を用いてテキストと検索語句の構文解析を行う。構文解
析は、形態素解析および多品詞解消および意味素解析を
含む。また、汎用記号を品詞コードで置き換えた検索語
句を解析対象とする。そして、テキストの構文解析結果
を構文解析結果テーブル240に格納する。また、検索
語句の構文解析結果を語句解析結果テーブル250に格
納する。図14に、構文解析結果テーブル240Cを例
示する。また、図15に、語句解析結果テーブル250
Cを例示する。なお、図14,図15の品詞コード欄2
40b,250bにおいて、品詞コード〈TO〉は(形
式上)“to不定詞”を構成する単語“to”を表す。
【0049】ステップ21では、検索語句が汎用記号だ
けか否か判定する。汎用記号だけならば、中心語を選ば
ずに処理するため、ステップ106に進む。汎用記号以
外の単語があれば、中心語を選ぶため、ステップ50’
に進む。ステップ50’に進むと、検索語句の中心語を
選択し、その中心語を検索キーとして、テキストテーブ
ル220Cを検索する。テキストテーブル220Cに中
心語があればステップ80’に進み、中心語がなければ
ステップ65’に進む。(ステップ60’) ステップ65’では、語句解析結果テーブル250Cの
原形欄にある中心語の原形を検索キーとして、構文解析
結果テーブル240Cの原形欄を検索する。そして、中
心語の原形があればステップ80’に進む。中心語の原
形がなければステップ140’に進む(ステップ6
6)。ステップ80’では、語句解析結果テーブル25
0Cから求めた検索語句の句構造と,構文解析結果テー
ブル240Cから求めた中心語を含むテキストの句構造
とを比較し、一致すればステップ90’に進み、一致し
なければステップ140’に進む。
【0050】ステップ90’では、検索語句を構成する
全ての単語が、上記ステップ80’の比較に用いたテキ
ストの句に存在するか否か判定する。但し、検索語句の
中の汎用記号は無視する。そして、検索語句を構成する
全ての単語がテキストの句に存在すればステップ101
に進み、検索語句を構成する単語のうちの1つでもテキ
ストの句に存在しなければステップ140’に進む(ス
テップ100’)。
【0051】ステップ101に進むと、検索語句の中に
汎用記号があるか否か判定する。汎用記号があれば、ス
テップ105に進む。汎用記号がなければ、ステップ1
20’に進む。ステップ105では、ステップ80’で
句構造を比較したテキストの単語の‘属性’に、検索語
句の汎用記号の‘属性’と一致するものがあるか判定す
る。なお、検索語句の汎用記号の属性は、汎用記号テー
ブル290の品詞コード欄290bと意味素欄290c
とから導出できる。また、テキストの単語の‘属性’
は、構文解析辞書260から導出する。一致するものが
あればステップ120’に進み、一致しなければステッ
プ140’に進む。
【0052】ステップ106では、テキストの単語の
‘属性’に、検索語句の汎用記号の‘属性’と一致する
ものがあるか判定する。一致すれものがあればステップ
120’に進み、一致しなければステップ140’に進
む。
【0053】ステップ120’に進むと、検索語句有り
のフラグを立て、検索語句がテキスト中にあったことを
表示し、終了する。ステップ140’に進むと、検索語
句無しのフラグを立て、検索語句がテキスト中になかっ
たことを表示し、終了する。
【0054】次に、上記図11のフロー図の動作を、具
体例3を用いてさらに詳しく説明する。 具体例3.具体例3では、“look forward to” に続け
て動詞の原形を書くという文法に反した誤記を発見する
例として、 [テキスト例3] I look forward to see you. [検索語句例3] look forward to ^V を用いる。〔^V〕は、動詞の原形を示す汎用記号であ
る。ステップ10’では、[テキスト例3]を図12の
ようにテキストテーブル220Cに格納する。また、
[検索語句例3]を図13のように検索語句テーブル2
30Cに格納する。
【0055】ステップ13では、検索語句の中に汎用記
号〔^V〕があるので、ステップ15に進む。ステップ
15では、汎用記号テーブル290(図10)を参照し
て、汎用記号〔^V〕の品詞コード〈V〉を導出する。
【0056】ステップ20’では、[テキスト例3]の
構文解析結果を図14のように構文解析結果テーブル2
40Cに格納する。また、[検索語句例3]の構文解析
結果を図15のように語句解析結果テーブル250Cに
格納する。ステップ21’では、検索語句が汎用記号だ
けではないので、ステップ50’に進む。
【0057】ステップ50’では、中心語として動詞
“look”を選び、これがテキストテーブル220Cにあ
るので、ステップ60’からステップ80’に進む。ス
テップ80’では、語句解析結果テーブル250Cから
求めた[検索語句例3]“look forward to ”の句構造
〈V〉+〈TV〉と,構文解析結果テーブル240Cか
らもとめた中心語“look”を含む[テキスト例3]の句
構造とを比較する。この場合、[テキスト例3]の句構
造にも、〈V〉+〈TV〉があるのでステップ90’に
進む。
【0058】ステップ90’では、[検索語句例3]を
構成する全ての単語が、上記ステップ80’において比
較したテキストの句構造に存在するか否か判定する。こ
のため、まず、語句解析テーブル250Cから、[検索
語句例3]の句構造〈V〉を構成する単語が “look”
と“forward”であり、句構造〈TV〉を構成する単語
が“to”であることを導出する(汎用記号は無視す
る)。また、構文解析結果テーブル240Cから、[テ
キスト例3]の句構造〈V〉を構成する単語が “loo
k”と“forward”であり、句構造〈TV〉を構成する単
語が “to”と“see”であることを導出する。この結
果、[検索語句例3]を構成する全ての単語が[テキス
ト例3]に存在することになるので、ステップ101に
進む。
【0059】ステップ101に進むと、検索語句の中に
汎用記号〔^V〕があるので、ステップ105に進む。
ステップ105では、検索語句の句構造〈TV〉におけ
る汎用記号〔^V〕の‘属性’と,対応するテキストの
語句〈TV〉を構成する単語“see” の‘属性’とを比
較する。このため、まず、汎用記号テーブル290か
ら、汎用記号〔^V〕の‘属性’は、品詞コード〈V〉
であることを導出する。次に、構文解析辞書260か
ら、単語“see”の‘属性’は、品詞コードが〈V〉
で,意味素が「dousa」であることを導出する。この結
果、検索語句の汎用記号が表す‘属性’と,その汎用記
号に対応するテキストの単語の‘属性’とが一致するの
で、ステップ120’に進む。
【0060】ステップ120’に進むと、検索語句有り
のフラグを立て、[検索語句例3]が[テキスト例3]
中にあったことを表示装置400に表示し、終了する。
【0061】上記第2実施例によれば、第1実施例での
効果に加えて、複数の単語が共有する‘属性’を検索語
句として使用可能なので、定型文や熟語などの検索を、
より平易に行うことが出来る。
【0062】−その他の実施例− 第1実施例および第2実施例では、英語のテキスト中に
英語の検索語句があるか否か判定する例を挙げたが、他
の自然言語のテキスト,検索語句に対しても本発明を適
用できる。また、上記実施例では、検索結果を表示装置
400に表示する構成としたが、機械翻訳システムや推
敲システム等に出力し、機械翻訳処理や推敲処理に活用
可能にしてもよい。
【0063】
【発明の効果】本発明の語句検索方法によれば、検索語
句の構文解析により決定した中心語がテキストに存在す
るか否かをまず判定する。このため、検索語句を構成す
る単語がテキストに離散的に存在する場合の挿入条件を
予め記述しておく必要がなく、ユーザの負担が軽くな
る。また、中心語がテキストにない時には、検索を打ち
切ることが出来るので、検索効率を向上させることが出
来る。
【0064】また、本発明の語句検索方法によれば、検
索語句と,テキストの文の構造を比較して、その構造が
一致するか否かを判定するので、テキスト中の語句の順
序が検索語句の順序と一致しない場合についても、テキ
スト中に検索語句があるか否か正しく判定することが出
来る。
【0065】また、本発明の語句検索方法によれば、テ
キストの文の構造の中に検索語句を構成する全ての記述
単位が含まれているか否かを判定するので、単語が離散
した検索語句に対しても、テキスト中に検索語句がある
か否か正しく判定することが出来る。また、予め挿入語
句の条件を記述しておく必要がないので、ユーザの負担
が軽くなる。
【0066】さらに、本発明の語句検索方法によれば、
複数の記述単位(語,句,節など)が共有する‘属性’
を利用してテキストを検索できるので、定型文や熟語な
どの検索を平易に行うことが出来る。
【図面の簡単な説明】
【図1】本発明の第1実施例の語句検索方法を実施する
語句検索装置の全体構成図である。
【図2】図1に示す語句検索装置の動作を示すフロー図
である。
【図3】テキストテーブルの例示図である。
【図4】検索語句テーブルの例示図である。
【図5】構文解析結果テーブルの例示図である。
【図6】語句解析結果テーブルの例示図である。
【図7】テキストテーブルの他の例示図である。
【図8】構文解析結果テーブルの他の例示図である。
【図9】本発明の第2実施例による語句検索方法を実施
する語句検索装置の全体構成図である。
【図10】汎用記号テーブルの例示図である。
【図11】図9に示す語句検索装置の動作を示すフロー
図である。
【図12】テキストテーブルのさらに他の例示図であ
る。
【図13】語句検索テーブルのさらに他の例示図であ
る。
【図14】構文解析結果テーブルのさらに他の例示図で
ある。
【図15】語句解析結果テーブルのさらに他の例示図で
ある。
【符号の説明】
1,2 語句検索装置 200 入力装置 210 CPU 220,220A,220B,220C テキスト
テーブル 230,230A,230B,230C 検索語句
テーブル 240,240A,240B,240C 構文解析
結果テーブル 250,250B,250C 語句解析結果テーブ
ル 260 構文解析辞書 270 構文解析プログラム 280 語句検索プログラム 290 汎用記号テーブル 300,350 記憶装置 400 表示装置
───────────────────────────────────────────────────── フロントページの続き (72)発明者 小澤 邦昭 神奈川県川崎市麻生区王禅寺1099番地 株 式会社日立製作所システム開発研究所内 (72)発明者 寺濱 幸徳 神奈川県川崎市麻生区王禅寺1099番地 株 式会社日立製作所システム開発研究所内 (72)発明者 神成 広之 東京都小平市上水本町5丁目22番1号 株 式会社日立マイコンシステム内 (72)発明者 山崎 英二 神奈川県横浜市中区尾上町6丁目81番地 日立ソフトウェアエンジニアリング株式会 社内 (72)発明者 亀岡 敦子 神奈川県横浜市中区尾上町6丁目81番地 日立ソフトウェアエンジニアリング株式会 社内

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 自然言語で記述されたテキストと,自然
    言語で記述された検索語句を読み込み、前記検索語句を
    記述単位(語,句,節など)に分割し、その分割した記
    述単位の中から構文解析により前記検索語句の中心語を
    決定し、その中心語が前記テキスト中に含まれるか否か
    判定することを特徴とする語句検索方法。
  2. 【請求項2】 請求項1に記載の語句検索方法におい
    て、検索語句の構文解析結果をユーザに報知し、ユーザ
    からの指示により構文解析結果を修正することを特徴と
    する語句検索方法。
  3. 【請求項3】 請求項1または請求項2に記載の語句検
    索方法において、構文解析結果から選んだ中心語をユー
    ザに報知し、ユーザからの指示により中心語を変更する
    ことを特徴とする語句検索方法。
  4. 【請求項4】 請求項1から請求項3のいずれかに記載
    の語句検索方法において、中心語がテキスト中に含まれ
    ていた場合、テキストの構文解析結果および検索語句の
    構文解析結果を用いて、検索語句の文の構造(句構造な
    ど)とテキストの文の構造(句構造など)とを比較し、
    前記検索語句と前記テキストの文の構造とが一致するか
    否か判定することを特徴とする語句検索方法。
  5. 【請求項5】 請求項4に記載の語句検索方法におい
    て、検索語句と,テキストの文の構造が一致した場合、
    前記テキストの文の構造の中に検索語句を構成する全て
    の記述単位(語,句,節)が含まれているか否か判定す
    ることを特徴とする語句検索方法。
  6. 【請求項6】 予め複数の記述単位(語,句,節など)
    が共有する‘属性’(国名,四季等の意味素,品詞な
    ど)と,その‘属性’を示す属性識別子とを対応付けて
    テーブルに格納しておき、検索語句中に前記属性識別子
    が含まれているか判定し、含まれていた場合には、前記
    テーブルを用いて前記属性識別子が示す‘属性’を持つ
    記述単位(語,句,節など)がテキスト中に含まれてい
    るか否か判定することを特徴とする語句検索方法。
JP4186689A 1992-07-14 1992-07-14 語句検索方法 Withdrawn JPH0635958A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4186689A JPH0635958A (ja) 1992-07-14 1992-07-14 語句検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4186689A JPH0635958A (ja) 1992-07-14 1992-07-14 語句検索方法

Publications (1)

Publication Number Publication Date
JPH0635958A true JPH0635958A (ja) 1994-02-10

Family

ID=16192918

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4186689A Withdrawn JPH0635958A (ja) 1992-07-14 1992-07-14 語句検索方法

Country Status (1)

Country Link
JP (1) JPH0635958A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004095310A1 (en) * 2003-04-24 2004-11-04 Soon-Jo Woo Method for sentence structure analysis based on mobile configuration concept and method for natural language search using of it
US7544708B2 (en) 2002-07-08 2009-06-09 Ranbaxy Laboratories Limited Azabicyclo derivatives as muscarinic receptor antagonists

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7544708B2 (en) 2002-07-08 2009-06-09 Ranbaxy Laboratories Limited Azabicyclo derivatives as muscarinic receptor antagonists
WO2004095310A1 (en) * 2003-04-24 2004-11-04 Soon-Jo Woo Method for sentence structure analysis based on mobile configuration concept and method for natural language search using of it
AU2004232276B2 (en) * 2003-04-24 2007-08-02 Soon-Jo Woo Method for sentence structure analysis based on mobile configuration concept and method for natural language search using of it
CN100378724C (zh) * 2003-04-24 2008-04-02 禹蕣朝 基于移动配置概念的句子结构分析方法及使用其的自然语言搜索方法

Similar Documents

Publication Publication Date Title
Rayson Matrix: A statistical method and software tool for linguistic analysis through corpus comparison
Baker Glossary of corpus linguistics
JP2783558B2 (ja) 要約生成方法および要約生成装置
US7243305B2 (en) Spelling and grammar checking system
EP0839357A1 (en) Method and apparatus for automated search and retrieval processing
JPH0644296A (ja) 機械翻訳装置
JPH083815B2 (ja) 自然言語の共起関係辞書保守方法
AU2005327096A1 (en) System and method for automatic enrichment of documents
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
Thomas Choosing headwords from language-for-special-purposes (LSP) collocations for entry into a terminology data bank (term bank)
JP2815714B2 (ja) 翻訳装置
Pretkalniņa et al. Universal dependency treebank for Latvian: a pilot
JPH0635958A (ja) 語句検索方法
Menezes et al. Syntactic models for structural word insertion and deletion during translation
Kingham et al. The ETCBC Database of the Hebrew Bible
Sérasset Recent trends of electronic dictionary research and development in europe
JP3876014B2 (ja) 機械翻訳装置
Cinková et al. Rhymes and Syntax: A Morpho-Syntactic Analysis of Czech Poetry.
Jacquemin A derivational rephrasing experiment for question answering
JP3136973B2 (ja) 言語解析システムおよび方法
JP4361143B2 (ja) テキスト翻訳方法と装置
Vasuki et al. English to Tamil machine translation system using parallel corpus
JPH09179866A (ja) 機械翻訳装置
JP4361146B2 (ja) テキスト翻訳装置と記録媒体
Ore et al. Studying language change through indexed and interlinked dictionaries

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19991005