JP7047825B2

JP7047825B2 - 検索装置、検索方法、検索プログラム

Info

Publication number: JP7047825B2
Application number: JP2019168456A
Authority: JP
Inventors: 倫治山口
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2019-03-25
Filing date: 2019-09-17
Publication date: 2022-04-05
Anticipated expiration: 2039-09-17
Also published as: JP2020161110A

Description

本発明は、検索装置、検索方法、検索プログラムに関する。

一般に、電子辞書には複数の見出し語が登録され、各見出し語のそれぞれについて単語の意味などを含む語義情報が対応づけて記憶されている。通常、１つの見出し語には、少なくとも１つ語義情報が記憶されている。また、見出し語によっては、複数の語義情報が記憶されている場合がある。例えば、一般的な英和辞典において、見出し語「ｒｕｎ」に対して１００以上の語義に対応する語義情報が対応づけて記憶されている。

見出し語に対応する語義が複数ある場合には、ユーザは、語義情報に含まれる意味の説明文あるいは見出し語の単語を含む用例（例文）を参照することにより、検索結果として表示される複数の語義から知りたい意味の語義を判別する必要がある。しかしながら、前述したように、多くの語義情報がある場合には、知りたい意味の語義を特定することが困難となる。特に、用例をもとに語義を判別するためには、複数の語義にそれぞれ対応する用例を読まなくてはならず、簡単に知りたい意味の語義を特定することができない。

従来では、文章で使用される単語の語義を特定することができる自然言語処理装置が知られている（例えば、特許文献１参照）。自然言語処理装置は、文章に含まれる単語の意味を、複数の語義の中から特定する場合に、単語が有する複数の語義を表す複数の単語あるいは語義を表示し、ユーザとの対話的処理によって文章に最もふさわしい語義を指定させる。自然言語処理装置では、表示される複数の単語あるいは語義を参考にして語義を指定できるが、複数の単語あるいは語義を確認した上で最もふさわしい語義を指定しなければならない。

特開平４－１３０５７７号公報

このように従来では、見出し語に対応する複数の語義から知りたい意味の語義を簡単に特定することができなかった。

本発明は、前記のような課題に考慮してなされたもので、１つの見出し語に対応する複数の語義情報から必要とする特定の語義情報を簡単に特定することができる検索装置、検索方法、検索プログラムを提供することを目的とする。

上記の課題を解決するために、本実施形態における検索装置は、単語と、前記単語を含む文章データとが指定された場合に、前記単語を含む複数の用例を辞書データに基づいて特定し、前記特定された複数の用例それぞれの文と、前記文章データの文について、前記単語に対する他の複数の単語の係り受け関係を示す複数の係り受け種類を特定し、特定した前記複数の係り受け種類のうちの共通する係り受け種類の数に基づいて、前記複数の用例に係る情報の出力を制御する制御部を有し、前記共通する係り受け種類の数の計算において、係り受け種類毎に決められている重みを加味した計算を行う。

本発明によれば、１つの見出し語に対応する複数の語義情報から必要とする特定の語義情報を簡単に特定することができる。

本発明の実施形態に係る検索装置の電子回路の構成を示す機能ブロック図。本実施形態における電子辞書の外観構成を示す正面図。本実施形態における辞書データに登録される情報の一例を示す図。本実施形態における電子辞書による辞書制御処理を示すフローチャート。本実施形態における電子辞書による辞書制御処理を示すフローチャート。検索ワード入力画面の一例を示す図。文章表示画面の一例を示す図。構文解析により検出される係り受け関係の一例を示す図。構文解析処理により生成される構文木の一例を示す図。係り受け関係タグ距離セットの一例を示す図。共通関係タグの一例を示す図。共通関係タグの合計の一例を示す図。入力文章に対応する係り受け先関係タグと係り受け元関係タグに対応する距離を示す図。用例に対応する係り受け先関係タグと係り受け元関係タグに対応する距離を示す図。共通関係タグに対応する距離の合計の一例を示す図。本実施形態における電子辞書による辞書制御処理の変形例を示すフローチャート。係り受けタグテーブルの一例を示す図。共通関係タグの一例を示す図。

以下、図面により本発明の実施の形態について説明する。

図１は、本発明の実施形態に係る検索装置の電子回路の構成を示す機能ブロック図である。

本実施形態では、検索装置を例えば電子辞書１０として構成した例について示す。なお、検索装置は、電子辞書１０の他、パーソナルコンピュータ、スマートフォン、タブレットＰＣなどの各種の電子機器により実現することが可能である。

電子辞書１０は、複数の見出し語とする単語にそれぞれ対応する少なくとも１つの語義に関する情報が辞書データとして記録されている。辞書データには、語義に対応する見出し語の単語を含む用例（例文）を含む。電子辞書１０は、見出し語を指定する文字列（単語）を入力することで、見出し語に対応する語義などを含む情報を検索する検索機能を有する。電子辞書１０が有する検索機能では、見出し語を指定する検索ワードとする文字列（単語）だけでなく、文字列（単語）を含む文章を入力することで検索を実行することができる。電子辞書１０は、検索対象として入力された単語を含む文章に対する構文解析結果（第１構文解析情報）と、予め登録されている複数の語義のそれぞれに対応する用例に対する構文解析結果（第２構文解析情報）との類似度に基づいて、検索ワード（単語）に対応する語義を特定する。

電子辞書１０は、各種の記録媒体に記録されたプログラム、又は、伝送されたプログラムを読み込んで、その読み込んだプログラムによって動作が制御されるコンピュータの構成を有し、その電子回路には、ＣＰＵ(central processing unit)１１が備えられる。

ＣＰＵ１１は、電子辞書１０の全体を制御する制御部として機能する。ＣＰＵ１１は、メモリ１２内に予め記憶された制御プログラム、あるいはＲＯＭカードなどの記録媒体１３から記録媒体読取部１４を介してメモリ１２に読み込まれた制御プログラム、あるいはインターネット等を含むネットワークＮを通じて、サーバ２０から通信部１５を介しダウンロードされてメモリ１２に読み込まれた制御プログラムに応じて、回路各部の動作を制御する。

メモリ１２に記憶された制御プログラムは、キー入力部１６からのユーザ操作に応じた入力信号、タッチパネル式表示部１７からのユーザ操作に応じた入力信号、あるいは外部接続されるネットワークＮ上のサーバ２０との通信信号、あるいは記録媒体読取部１４を介して接続されるＥＥＰＲＯＭ（登録商標），ＲＡＭ，ＲＯＭなどの外部記録媒体１３との接続通信信号に応じて起動される。

ＣＰＵ１１には、メモリ１２、記録媒体読取部１４、通信部１５、キー入力部１６、タッチパネル式表示部１７などが接続される。

メモリ１２に記憶される制御プログラムとしては、電子辞書１０の全体の動作を司るシステムプログラム、外部接続されるネットワークＮ上のサーバ２０、パーソナルコンピュータなどの他の電子機器とデータ通信するための通信プログラムが記憶される。さらに、メモリ１２には、入力された文字列をもとに見出し語に対応する情報を検索して出力する検索機能を実行する辞書制御プログラム１２ａが記憶される。辞書制御プログラム１２ａは、文章データに対して構文解析を実行する構文解析プログラム１２ｂが含まれる。

また、メモリ１２には、辞書データ１２ｃ、係り受け関係タグ距離テーブル１２ｄなどが記憶される。

辞書データ１２ｃには、例えば、英和辞書、和英辞書、英英辞書、国語辞書などの複数の辞書を集録したデータベースが含まれる。辞書データ１２ｃには、辞書毎に、各見出し語のそれぞれに対応する意味（語義）を説明する語義情報が含まれる。１つの見出し語に対して複数の語義情報が記憶される場合ある。また、語義情報には、見出し語（単語）の語義に応じた文章内での使用例を示す用例が設定される（図３参照）。なお、辞書データ１２ｃは、電子辞書１０の本体に内蔵せずに、ネットワークＮを通じてアクセス可能な辞書データベース（例えば、サーバ２０）から取得するようにしても良い。

係り受け関係タグ距離テーブル１２ｄは、辞書データ１２ｃに登録された各見出し語について、１つの見出し語に対する複数の語義それぞれに対応する用例に対する構文解析の結果を示す構文解析情報（第２構文解析情報）が記憶される。係り受け関係タグ距離テーブル１２ｄの構文解析情報は、検索対象として検索ワードと共に入力された文章に対する構文解析結果（第１構文解析情報）との類似度の判別に用いられる。

構文解析の結果としては、例えば、語義に対応する用例で使用される見出し語の単語と用例中の他の単語との係り受け関係を示す係り受け種類（係り受け関係タグ）と、用例中の見出し語の単語と係り受け関係にある他の単語との距離を含む。係り受け関係を示す係り受け種類（係り受け関係タグ）と単語間の距離の詳細については後述する（図８～１０参照）。

本実施形態における構文解析情報の類似度は、例えば文章に対する構文解析により抽出される係り受け種類（係り受け関係タグ）の一致数に基づくものとする。すなわち、同じ係り受け種類（係り受け関係タグ）を多く有するほど類似度が高いものとする。さらに、係り受け種類（係り受け関係タグ）の一致数が同じ複数の構文解析情報（用例）がある場合には、係り受け種類（係り受け関係タグ）が一致した係り受け関係にある見出し語と他の単語との距離が小さい方を類似度が高いものと判別する（なお、係り受け種類（係り受け関係タグ）が一致した係り受け関係にある他の単語が複数ある場合には、複数の他の単語のそれぞれに対応する距離の合計を元に判別する）。

係り受け関係タグ距離テーブル１２ｄには、例えば全ての見出し語にそれぞれ対応する各語義の用例に対して、係り受け種類（係り受け関係タグ）、及び係り受け関係にある単語間の距離を示す係り受け関係データを、「係り受け関係タグ距離セット」として作成して登録しておく。「係り受け関係タグ距離セット」は、語義に対応する１つの用例に対して１セット作成される。さらに、辞書データ１２ｃに登録された用例だけではなく、他の文章からも係り受け関係タグ距離セットを作成して、係り受け関係タグ距離テーブル１２ｄに登録することもできる。

なお、係り受け関係タグ距離テーブル１２ｄは、辞書データ１２ｃとは別に生成するのではなく、辞書データ１２ｃの一部として登録されていても良い。また、「係り受け関係タグ距離セット」は、辞書データ１２ｃに予め登録される他に、辞書データ１２ｃに登録された用例とは別の文章に対して構造解析処理を実行することで生成され、係り受け関係タグ距離テーブル１２ｄに追加登録されても良い。この場合、辞書データ１２ｃに登録された「係り受け関係タグ距離セット」と、係り受け関係タグ距離テーブル１２ｄに登録された「係り受け関係タグ距離セット」とを合わせて用いて、後述する辞書制御処理を実行するようにしても良い。

さらに、係り受け関係タグ距離テーブル１２ｄは、電子辞書１０の本体に内蔵せずに、ネットワークＮを通じてアクセス可能な辞書データベース（例えば、サーバ２０）から取得するようにしても良い。

図２は、電子辞書１０の外観構成を示す正面図である。

図２における電子辞書１０の場合、開閉される装置本体の下段側にＣＰＵ１１、メモリ１２、記録媒体読取部１４、通信部１５が内蔵されると共に、キー入力部１６が設けられ、上段側にタッチパネル式表示部１７が設けられる。

キー入力部１６には、文字入力キー１６ａ、各種の辞書や各種機能を選択することができる辞書選択キー１６ｂ、[訳／決定]キー１６ｃ、[戻る]キー１６ｄ、カーソルキー（上下左右キー）１６ｅ、電源ボタン、その他の各種機能キーなどが備えられる。タッチパネル式表示部１７には、各種機能の実行に応じて、各種メニューやボタン１７ａなどが表示される。

電子辞書１０は、ユーザによるキー入力部１６に対する操作、あるいは表示部１７に表示されたメニューやボタンに対するタッチ操作（ペン先、あるいは指先による）に応じて、ユーザによる指示を入力することができる。

このように構成された電子辞書１０は、ＣＰＵ１１が辞書制御プログラム１２ａに記述された命令に従い回路各部の動作を制御し、ソフトウエアとハードウエアとが協働して動作することにより、以下の動作説明で述べる機能を実現する。

図３は、辞書データ１２ｃに登録される情報の一例を示す図である。

図３は、見出し語とする単語「catch」に対応する語義情報を示している。見出し語とする単語「catch」には、複数の語義１，２，…に対応する語義情報が登録されている。例えば、図３では、単語「catch」を動詞として使用した場合の語義１と、名詞として使用した場合の語義２がある場合の例を示している。さらに、図３では、語義１，２のそれぞれに対応づけて、見出し語とする単語「catch」を語義の意味で使用した用例１，２が、辞書データ１２ｃに登録されていることを示している。

例えば、単語「catch」を動詞として使用した場合の語義１の用例としては、例えば「He caught it all on video tape」が登録され、単語「catch」を名詞として使用した場合の語義２の用例としては、例えば「There must be a catch somewhere」が登録されていることを示している。

次に、本実施形態における電子辞書１０の動作について説明する。

図４及び図５は、本実施形態における電子辞書１０による辞書制御処理を示すフローチャートである。

ＣＰＵ１１は、電源オンされると、辞書制御プログラム１２ａを起動して辞書制御処理を開始する。ＣＰＵ１１は、タッチパネル式表示部１７に初期画面であるホーム画面を表示させる（ステップＳ１）。ホーム画面には、検索対象とする辞書を選択するためのメニューが含まれる。メニューでは、検索対象とする辞書を選択することができる。例えば、検索対象とする辞書として、全ての辞書を検索対象とする、特定の範囲の辞書（例えば、英語系辞書など）、あるいは特定の辞書（例えば、○○英和辞書など）を選択することができる。

ＣＰＵ１１は、メニューにおいて検索対象とする辞書が選択されると（ステップＳ２、ＹＥＳ）、検索ワード（単語）を入力するための入力エリアが設けられた検索ワード入力画面をタッチパネル式表示部１７に表示させる（ステップＳ３）。

図６は、検索ワード入力画面Ｄ１の一例を示す図である。図６に示すように、検索ワード入力画面Ｄ１には、検索ワードとする文字列を入力するための入力エリアＡＲ１１、文章を入力するための文章入力エリアＡＲ１２、検索処理の実行を指示するための検索開始ボタンＢ１が設けられている。本実施形態における電子辞書１０では、辞書に登録された見出し語（語義情報）を検索するために、検索ワード（単語）を入力するだけでなく、検索ワードが用いられた文章を入力することができる。

本実施形態の電子辞書１０では、検索ワードだけでなく文章を入力することで、入力した文章と同じように検索ワード（単語）が用いられた用例に対応する語義を検索することができる。従って、１つの見出し語に多くの語義が設定されている場合であっても、用例をもとにユーザが必要とする語義の抽出し易くしている。なお、多くの語義を有しない検索ワードに対して辞書検索する場合には、一般的な辞書検索と同様にして、検索ワードのみを入力して検索を実行することもできる。

ＣＰＵ１１は、文字入力キー１６ａの操作により検索ワードとする文字列（単語）が入力され、[訳／決定]キー１６ｃあるいは検索開始ボタンＢ１の操作により検索の実行が指示されると（ステップＳ４、ＹＥＳ）、文章入力エリアＡＲ１２への文章入力があるか判別する。ここで、検索ワードと共に文章が入力されていない場合（ステップＳ５、ＮＯ）、ＣＰＵ１１は、検索ワードをもとに、検索対象とする辞書の辞書データに対して検索処理を実行する（ステップＳ６）。すなわち、ＣＰＵ１１は、検索ワードに該当する見出し語を辞書データ１２ｃから検索し、検索された見出し語に対応する語義情報を辞書データ１２ｃから読み出して、タッチパネル式表示部１７において表示させる。

一方、検索ワードと共に文章が入力されている場合（ステップＳ５、ＹＥＳ）、ＣＰＵ１１は、入力された文章が既に構文解析が実行済みであるかを判別する。例えば、電子辞書１０では、文章入力エリアＡＲ１２に入力された文章について、後述する係り受け関係解析処理（構文解析）を実行した場合に、処理済みの文章と構文解析結果をメモリ１２に記憶させておく。ＣＰＵ１１は、入力された文章が処理済みの文章に存在するかを判別し、存在しないと判別された場合には（ステップＳ１６、ＮＯ）、入力された文章に対する係り受け関係解析処理（構文解析）を実行する（ステップＳ１７）。一方、入力された文章について構文解析が実行済みである場合、ＣＰＵ１１は、実行済みの構文解析により記憶された構文解析結果を用いた辞書検索を実行する（ステップＳ１８～）。

なお、前述した説明では、検索ワード入力画面Ｄ１において、検索ワードと文章を入力しているが、他の方法で辞書検索の対象とする検索ワードと文章を入力することができる。例えば、ＣＰＵ１１は、ホーム画面において文章表示が指示された場合（ステップＳ１１、ＹＥＳ）、例えばメモリ１２に記憶されたテキストデータに応じた文章を含む文章表示画面をタッチパネル式表示部１７に表示させる。

図７は、文章表示画面Ｄ２の一例を示す図である。図７に示すように、文章表示画面Ｄ２には、文章が表示される文章表示エリアの他、検索処理の実行を指示するための検索開始ボタンＢ２が設けられている。

例えば、文章表示エリアの文章が表示された位置に対するタッチ操作（ペン先、あるいは指先による）を検出した場合、ＣＰＵ１１は、タッチ位置に表示された単語を特定し（ステップＳ１３）、この単語を含む１文章のテキストデータを判別する（ステップＳ１４）。例えば、図７において、単語「caught」Ｗ１に相当する位置がタッチされたものとする。ＣＰＵ１１は、タッチ位置に応じて単語「caught」を検出し、「caught」を含む１文章のテキストデータ「I caught the boy stealing fruit from our orchard.」を抽出する。ＣＰＵ１１は、タッチ操作により指定された単語「caught」を検索ワードとし、単語「caught」を含むテキストデータ「I caught the boy stealing fruit from our orchard.」を入力文章とする。これにより、表示された文章に対するタッチ操作のみにより、検索ワードと文章を簡単に入力して辞書検索を実行させることができる。

ここで、ＣＰＵ１１は、[訳／決定]キー１６ｃあるいは検索開始ボタンＢ２の操作により検索の実行が指示されると（ステップＳ１５、ＹＥＳ）、前述と同様にして、入力された文章が処理済みの文章に存在するかを判別し、存在しないと判別された場合には（ステップＳ１６、ＮＯ）、入力された文章に対する係り受け関係解析処理（構文解析）を実行する（ステップＳ１７）。一方、入力された文章について構文解析が実行済みである場合、ＣＰＵ１１は、実行済みの構文解析により記憶された構文解析結果を用いた辞書検索を実行する（ステップＳ１８～）。

次に、図４に示すステップＳ１７における係り受け関係解析処理（構文解析）について説明する。

図８（Ａ）は、入力文章に対する構文解析により検出される係り受け関係（係り受け関係タグ）の一例を示す図である。図８（Ｂ）（Ｃ）は、用例（図３に示す）に対する構文解析により検出される係り受け関係（係り受け関係タグ）の一例を示す図である。なお、構文解析処理には、既存の方法が用いられるものとして詳細な説明を省略する。

構文解析処理では、文章中の検索ワードに対応する単語（入力単語）と、他の複数の単語の係り受け関係を検出する。係り受け関係は、文書中の入力単語より前にある他の単語（係り受け先単語）との関係と後にある他の単語（係り受け元単語）との関係があり、それぞれの関係を示す関係タグを求める。

例えば、図８（Ａ）に示す文章では、入力単語「caught」に対して他の単語「I」が係り受け先単語となり関係タグ「nsubj」（主語名詞を示す）が求められる。また、入力単語「caught」に対して他の単語「stealing」が係り受け元単語となり関係タグ「xcomp」（補体を示す）が求められる。

また、係り受け関係解析処理では、入力単語から他の単語までの文章中における距離を特定する。１つの文章において、単語間の距離が短い場合には、単語間の関連度が高いと見なすことができる。例えば、図８（Ａ）に示す入力単語「caught」から単語「I」までの距離は「－１」、単語「stealing」までの距離は「３」となる。

なお、前述したように、入力単語から他の単語までの単語数を単純にカウントして距離としても良いが、構文解析結果を利用して距離を特定することも可能である。例えば、構文解析処理を実行して、文章の句構造を表す構文木を作成し、構文木の枝の数を単語間の距離とする。これにより、単語間の係り受け関係に関係しない、例えば冠詞等の単語の有無により、単純な単語数のカウントでは距離の変動が生じるが、構文木の枝の数を距離とすることで、単語間の係り受け関係に対応する距離を特定することができる。

例えば、文章「Ｉｈａｖｅａｐｅｎ．」において、入力単語「ｈａｖｅ」と他の単語「ｐｅｎ」までの単語数は「２」となる。一方、テキスト「Ｉｈａｖｅｐｅｎｓ．」において、入力単語「ｈａｖｅ」から他の単語「ｐｅｎｓ」までの単語数は「１」となる。すなわち、単語の使われ方が同じ文章であるにもかかわらず、関連語候補が単数形「ｐｅｎ」か複数形「ｐｅｎｓ」かの違いにより冠詞の有無の違いが生じてしまう。従って、単純に単語までの単語数を距離とした場合、単語間の係り受け関係が同じであっても距離が変わってしまう。

図９は、構文解析処理により生成される構文木の一例を示す図である。図９（Ａ）は、前述した文章「Ｉｈａｖｅａｐｅｎ．」に対応する構文木を示し、図９（Ｂ）は、前述した文章「Ｉｈａｖｅｐｅｎｓ．」の構文木を示す。

図９（Ａ）に示すように、文章「Ｉｈａｖｅａｐｅｎ．」の入力単語「ｈａｖｅ」Ｋ２と他の単語「ｐｅｎ」Ｔ２の間の枝数は「５」となる。また、図９（Ｂ）に示すように、文章「Ｉｈａｖｅｐｅｎｓ．」の入力単語「ｈａｖｅ」Ｋ３と他の単語「ｐｅｎｓ」Ｔ３の間の枝数は「５」となる。すなわち、文章中の冠詞の有無に関係なく、同じ構造の文章では、入力単語と他の単語の係り受け関係が同じ入力単語と他の単語については同じ距離として特定できる。

こうして、入力単語を含む文章に対する構文解析を実行して、構文木の枝の数を単語間の距離とすることで、冠詞等の有無の違いによる文章の変動があったとしても単語間の位置関係（距離）を正しく特定することが可能となる。

次に、構文解析結果を用いた辞書検索について説明する。

ＣＰＵ１１は、検索ワードをもとに、検索対象とする辞書の辞書データに対して検索処理を実行する（ステップＳ１８）。すなわち、ＣＰＵ１１は、検索ワードの単語の原形に該当する見出し語を辞書データ１２ｃから検索し、検索された見出し語に対応する全ての語義情報の用例を抽出する（ステップＳ１９）。

ＣＰＵ１１は、入力文章との類似度を判別する処理の対象とする、見出し語に対応する１用例を選択する（ステップＳ２０）。ここで、処理対象とする用例がある場合（ステップＳ２１、ＹＥＳ）、ＣＰＵ１１は、全ての用例についての処理が完了していないため、選択した用例についての処理に移行する。ＣＰＵ１１は、選択した用例に対して構文解析処理済みであるか判別する。すなわち、用例に対する「係り受け関係タグ距離セット」が係り受け関係タグ距離テーブル１２ｄに登録されているかを判別する。

ＣＰＵ１１は、用例に対して構文解析処理済みでない場合（ステップＳ２２、ＮＯ）、用例のテキストデータ（文章）を辞書データ１２ｃから抽出して、係り受け関係解析処理（構文解析）を実行する（ステップＳ２４）。

係り受け関係解析処理（構文解析）は、前述した入力された文章に対する係り受け関係解析処理（構文解析）（ステップＳ１７）と同様にして実行される。例えば、図３に示す用例１「He caught it all on video tape」の場合には、図８（Ｂ）に示すように、見出し語「catch」に相当する単語と他の単語との係り受け関係と距離が判別される。同様にして、図３に示す用例２「There must be a catch somewhere」の場合には、図８（Ｃ）に示すように、係り受け関係と距離が判別される。

ここで、実行された構文解析の結果（「係り受け関係タグ距離セット」）については、見出し語の語義情報（用例）と対応づけて、係り受け関係タグ距離テーブル１２ｄに追加記憶させておく。これにより、同じ用例が処理対象となった場合に、処理済みの「係り受け関係タグ距離セット」を利用して、構文解析処理を省くことができる。

このように、用例に対して構文解析処理済みでない場合には、その時点で係り受け関係解析処理を実行可能なので、例えば辞書データ１２ｃに対して語義に対応する用例を追加可能な構成とした場合に、新たに追加された用例についても処理対象とすることができる。

一方、用例に対して構文解析処理済みである場合（ステップＳ２２、ＹＥＳ）、ＣＰＵ１１は、用例に対応する構文解析結果（第２構文解析情報）を示す係り受け関係データ（「係り受け関係タグ距離セット」）を係り受け関係タグ距離テーブル１２ｄから読み出し、入力された文章の構文解析結果（第１構文解析情報）との類似度の判別を行う。

図１０は、係り受け関係タグ距離テーブル１２ｄに登録される「係り受け関係タグ距離セット」の一例を示す図である。図１０では、辞書データ１２ｃに登録された１つの見出し語に対応する複数の語義，１２，３…のそれぞれに対応する用例に「係り受け関係タグ距離セット」を示している。図１０では、語義１，３については、１つの語義に対して複数の用例が設定され、語義２については、１つの用例が設定されている場合をそれぞれ示している。従って、語義１，３については、複数の用例のそれぞれに対する複数の「係り受け関係タグ距離セット」が登録される。

例えば、語義１には複数の用例１，２，３…があり、複数の用例１，２，３…と対応づけてそれぞれ「係り受け関係タグ距離セット」が記憶される。

語義１の用例１に対応する「係り受け関係タグ距離セット」には、用例１中の見出し語の単語と係り受け先単語との係り受け関係を示す関係タグ「advmod」「aux」「nsubj」「dobj」とそれぞれに対応する距離「－３」「－２」「－１」「１」、及び係り受け元単語との係り受け関係を示す関係タグ「root」と対応する距離「０」が含まれる。

このように、用例に対する構文解析結果（「係り受け関係タグ距離セット」）が予め係り受け関係タグ距離テーブル１２ｄに登録されていれば、用例に対する係り受け関係解析処理を、検索ワードと文章データが入力される毎に実行する必要がないので、検索時間の短縮と精度向上を図ることができる。

ＣＰＵ１１は、処理対象とする用例についての「係り受け関係タグ距離セット」を取得すると、入力文章と用例の係り受け先関係タグと係り受け元関係タグのそれぞれについて、共通する関係タグ（共通関係タグ）を判別し、共通関係タグの合計を求める（ステップＳ２５）。

図１１には、共通関係タグの一例を示している。図１１（Ａ）は、入力文章に対応する係り受け先関係タグと係り受け元関係タグを示し、図１１（Ｂ１）は図３に示す用例１、図１１（Ｃ１）は図３に示す用例２のそれぞれに対応する係り受け先関係タグと係り受け元関係タグを示している。

図１１（Ｂ２）に示すように、入力文章と用例１との係り受け先関係タグについては２個の関係タグ「nsubj」「dobj」が共通し、入力文章と用例１との係り受け元関係タグについては１個の「root」が共通し、それぞれ共通関係タグとして判別される。従って、用例１については、図１２に示すように、共通関係タグの合計が「３」として求められる。

一方、図１１（Ｃ２）に示すように、入力文章と用例２との係り受け先関係タグと係り受け元関係タグには共通関係タグが存在しない。すなわち、見出し語の単語が動詞として用いられた入力文章に対して、動詞の語義に対応する用例１では共通関係タグが存在するが、名詞の語義に対応する用例２では共通関係タグが存在しない。こうして、見出し語の語義に応じて用例の構文構造が異なることを利用し、共通関係タグに基づいて、類似度が高い用例１の優先度を高くし、用例２の優先度を低く（あるいは検索対象から除外）することができる。

次に、ＣＰＵ１１は、係り受け先関係タグの共通関係タグに対応する距離と、係り受け元関係タグの共通関係タグに対応する距離の差の合計をそれぞれ求め、係り受け先関係タグと係り受け元関係タグにそれぞれ対応する合計値を合計する（ステップＳ２６）。

図１３には、入力文章に対応する係り受け先関係タグと係り受け元関係タグのそれぞれに対応する距離を示し、図１４は、図３に示す用例１に対応する係り受け先関係タグと係り受け元関係タグのそれぞれに対応する距離を示している。入力文章と用例１との共通関係タグは、前述したように、係り受け先関係タグについては関係タグ「nsubj」「dobj」が共通し、係り受け元関係タグについては「root」が共通する。

入力文章の共通関係タグ「nsubj」に対応する距離が「－１」、用例１の共通関係タグ「nsubj」に対応する距離が「－１」であるので、共通関係タグ「nsubj」についての距離の差は、「－１－（－１）＝０」となる。同じく、共通関係タグ「dobj」ついての距離の差は、「２－１＝１」となる。同じく、共通関係タグ「root」に対応する距離が「２－２＝０」である。従って、図１５に示すように、用例１についての係り受け先関係タグと係り受け元関係タグにそれぞれ対応する合計値は「１」となる。

ＣＰＵ１１は、共通関係タグの個数の合計と距離の合計とを、処理対象とする用例と対応づけてメモリ１２に記憶させる（ステップＳ２７）。

以下、同様にして、ＣＰＵ１１は、見出し語に対応する次に処理対象とする１用例を選択し（ステップＳ２０）、前述した処理を実行して、共通関係タグの個数の合計と距離の合計を求め、用例と対応づけてメモリ１２に記憶させる（ステップＳ２１～Ｓ２７）。

ＣＰＵ１１は、全ての用例についての処理が完了すると（ステップＳ２１、ＮＯ）、入力文章に対する構文解析の結果（第１構文解析情報）と、各用例に対する構文解析により記憶された共通関係タグの個数の合計と距離の合計とを含む構文解析の結果（第２構文解析情報）との類似度を判別する処理を実行する（ステップＳ４０）。

まず、ＣＰＵ１１は、共通関係タグの個数の合計が最も多い用例（語義）を選択する（ステップＳ２８）。すなわち、構文解析情報の類似度が最も高い、入力文章と最も構文構造が一致する用例を特定する。

なお、共通関係タグの個数の合計が同じ用例が複数ある場合（ステップＳ２９、ＹＥＳ）、ＣＰＵ１１は、共通関係タグの距離の合計が最も小さい用例を、類似が高いものと判別して選択する（ステップＳ３０）。共通関係タグの距離の合計は、共通関係タグに該当する係り受け関係にある他の単語と見出し語に対応する単語との関連度がより高いほど小さくなる。よって、共通関係タグの距離の合計が最も小さい用例を選択することで、係り受け関係にある見出し語の単語と他の単語の使用形態が、入力文章とより近い用例を特定し易くなる。

入力文章と各用例との類似度が判別されると、ＣＰＵ１１は、類似の判別結果に基づいて、各用例または各用例に対応する語義に対して優先順位を決定して出力を制御する。すなわち、ＣＰＵ１１は、類似度が最も高い用例を最優先（上位）とし、その他の用例について、共通関係タグの個数の合計をもとに用例（語義）を降順にソートする（ステップＳ３１）。すなわち、入力文章との類似度が高い順番に複数の用例を並べ替えて、優先順位を決定する。

また、共通関係タグの個数の合計が同じ用例が複数ある場合には、ＣＰＵ１１は、前述と同様にして、各用例の共通関係タグに対応する距離の合計をそれぞれ求め、距離の合計をもとに昇順にソートする（ステップＳ３２）。これにより、用例中の見出し語の単語と他の単語との関連度（距離）に基づいて、優先順位を決定することができる。

ＣＰＵ１１は、共通関係タグに基づいて優先順位を決定した複数の用例に対応する語義情報（用例、または用例に対応する語義）を、優先順位に応じて配列し、タッチパネル式表示部１７に表示させる（ステップＳ３３）。なお、共通関係タグがない用例に対応する語義については、表示対象から外すようにしても良い。

このようにして、本実施形態における電子辞書１０では、見出し語を指定する検索ワードとする文字列（単語）だけでなく、文字列（単語）を含む文章を入力することで、入力文章に近い用例が設定された語義情報を優先して検索結果として表示させることができる。すなわち、１つの見出し語に対して多数の語義が存在したとしても、入力文章と語義に対応する用例との構文解析結果の類似度をもとに優先順位が決定されているため、簡単にユーザが知りたい語義に効率的にたどり着くことが可能になる。

なお、前述した説明では、ユーザにより入力された文章及び用例について、電子辞書１０において構文解析（係り受け関係解析処理）を実行するとしているが、ネットワークＮを介して接続されたサーバ２０（クラウド）に対して処理対象とするデータを送信して実行させるようにしても良い。

（変形例）
次に、入力文章に対する構文解析の結果（第１構文解析情報）と、各用例に対する構文解析の結果（第２構文解析情報）との類似度を判別する処理の変形例について説明する。前述した説明では、共通関係タグの個数の合計と距離の合計とをもとに類似度を判別しているが、変形例では、共通関係タグ（係り受け関係タグ）毎に重み値を求め、共通関係タグの重み値の合計をもとに類似度を判別する。

前述した、共通関係タグの個数の合計を用いる方法では、全ての種類の係り受け関係タグを等価に扱い、単純に１つの係り受け関係タグの個数を１にして合計している。しかし、見出し語、見出し語に含まれる語義によって、用例で使用される係り受け関係タグの出現頻度の傾向が異なる。すなわち、見出し語を用いた文章には、見出し語に応じて、発生しやすい係り受け関係タグと発生しにくい係り受け関係タグが存在する。そこで、見出し語毎に係り受け関係タグの出現頻度をもとにして、発生しやすい係り受け関係タグほど値が大きくなる重み値を用いることで、入力文章で発生しやすい係り受け関係タグと発生しにくい係り受け関係タグが同数であっても、発生しやすい係り受け関係タグの方を使用している語義を優先して表示できるようにして精度向上を図る。

以下、重み値の合計をもとに類似度を判別する処理を用いた辞書制御処理について説明する。なお、この辞書制御処理では、図４に示すステップＳ１～Ｓ１９の処理と、図５に示すステップＳ２０～Ｓ３３に対応する図１６に示すフローチャートの処理を実行するものとする。図１６に示すフローチャートにおいて、図５に示すフローチャート同様の処理を実行する部分には同一の符号を付している。図４及び図５を用いた説明と共通する部分については説明を省略する。

共通関係タグの重み値の合計をもとに類似度を判別する場合には、係り受け関係タグ距離テーブル１２ｄの全ての見出し語のそれぞれについて、見出し語に対応する各語義の用例で用いられる係り受け関係タグについて重み値を設定する。係り受け関係タグの重み値は、次のように計算される。

図１７は、例えば見出し語「ｃａｔｃｈ」に対応する各語義の用例で用いられる係り受け関係タグが登録された係り受けタグテーブルの一例を示している。

係り受けタグテーブルには、見出し語「ｃａｔｃｈ」に対応する全ての用例で用いられる全ての係り受け関係タグが設定され、各係り受け関係タグの頻度が算出される。本実施形態では、同一見出し語内の全ての用例で用いられている係り受け関係タグの中で、最も高い頻度をｆｍａｘとする。図１７に示す例では、係り受け関係タグ「ｄｏｂｊ」の頻度「１７」が最も高いため、係り受け関係タグ「ｄｏｂｊ」の頻度「１７」をｆｍａｘとする。そして、各係り受け関係タグの重み値は、それぞれの頻度をｆｍａｘ（「１７」）で割ったものとする。

図１６に示すステップＳ２０において、ＣＰＵ１１は、入力文章との類似度を判別する処理の対象とする、見出し語に対応する１用例を選択する。ここで、処理対象とする用例がある場合（ステップＳ２１、ＹＥＳ）、ＣＰＵ１１は、全ての用例についての処理が完了していないため、選択した用例についての処理に移行する。

図５を用いた説明では、選択した用例に対して構文解析処理済みでない場合には、個々に係り受け関係解析処理（構文解析）を実行しているが、ここでは構文解析処理済みでない全ての用例について係り受け関係解析処理を実行して、その処理結果を係り受けタグテーブルに反映して、全ての係り受け関係タグの頻度、重み値を計算して設定するものとする。

ＣＰＵ１１は、処理対象とする用例についての「係り受け関係タグ距離セット」を取得すると、入力文章と用例の係り受け先関係タグと係り受け元関係タグのそれぞれについて、共通する関係タグ（共通関係タグ）を判別し、共通関係タグの重み値の合計を求める（ステップＳ４５）。

図１８には、前述した図１１に示す例における共通関係タグと、各共通関係タグの重み値と、合計値を示している。すなわち、入力文章と用例１には２つの共通関係タグ「nsubj」「dobj」があり、共通関係タグ「nsubj」の重み値が「０．９４１１７６」、共通関係タグ「dobj」の重み値が「１」であることを示している。従って、用例１については、共通関係タグの重み値の合計が「１．９４１１７６」として求められる。

ＣＰＵ１１は、共通関係タグの重み値の合計と距離の合計とを、処理対象とする用例と対応づけてメモリ１２に記憶させる（ステップＳ４７）。

以下、同様にして、ＣＰＵ１１は、見出し語に対応する次に処理対象とする１用例を選択し（ステップＳ２０）、前述した処理を実行して、共通関係タグの重み値の合計と距離の合計を求め、用例と対応づけてメモリ１２に記憶させる（ステップＳ２１～Ｓ４７）。

ＣＰＵ１１は、全ての用例についての処理が完了すると（ステップＳ２１、ＮＯ）、入力文章に対する構文解析の結果（第１構文解析情報）と、各用例に対する構文解析により記憶された共通関係タグの重み値の合計と距離の合計とを含む構文解析の結果（第２構文解析情報）との類似度を判別する処理を実行する（ステップＳ４０）。

まず、ＣＰＵ１１は、共通関係タグの重み値の合計が最も大きい用例（語義）を選択する（ステップＳ４８）。すなわち、構文解析情報の類似度が最も高い、入力文章と最も構文構造が一致する用例を特定する。

なお、共通関係タグの重み値の合計が同じ用例が複数ある場合（ステップＳ２９、ＹＥＳ）、ＣＰＵ１１は、共通関係タグの距離の合計が最も小さい用例を、類似が高いものと判別して選択する（ステップＳ３０）。

入力文章と各用例との類似度が判別されると、ＣＰＵ１１は、類似の判別結果に基づいて、各用例または各用例に対応する語義に対して優先順位を決定して出力を制御する。すなわち、ＣＰＵ１１は、類似度が最も高い用例を最優先（上位）とし、その他の用例について、共通関係タグの重み値の合計をもとに用例（語義）を降順にソートする（ステップＳ５１）。すなわち、入力文章との類似度が高い順番に複数の用例を並べ替えて、優先順位を決定する。

また、共通関係タグの重み値の合計が同じ用例が複数ある場合には、ＣＰＵ１１は、前述と同様にして、各用例の共通関係タグに対応する距離の合計をそれぞれ求め、距離の合計をもとに昇順にソートする（ステップＳ５２）。これにより、用例中の見出し語の単語と他の単語との関連度（距離）に基づいて、優先順位を決定することができる。

このようにして、見出し語毎に係り受け関係タグの出現頻度をもとにして計算した、係り受け関係タグの重み値を用いることで、発生しやすい係り受け関係タグを使用している語義を優先して表示することができる。

なお、前述した説明では、各係り受け関係タグの重み値を、同一見出し語内の全ての用例で用いられている係り受け関係タグの中で最も高い頻度ｆｍａｘによって、各係り受け関係タグの頻度を割った値としているが、発生しやすい係り受け関係タグほど大きくなる値であれば他の方法で重み値を計算するようにしても良い。

また、図１６を用いた説明では、共通関係タグの重み値の合計が同じ用例（語義）が複数ある場合に、共通関係タグの距離をもとに優先度を決定しているが、前述した共通関係タグの個数、距離、重み値を用いた判別を任意に組み合わせて実施することも可能である。

また、例えば共通関係タグの個数の合計が同じ場合に、さらに距離あるいは重み値の何れに基づいて優先度を判別するかを、ユーザが選択できるようにしても良い。

なお、前述した実施形態では、英語系の辞書を例にして説明しているが、他の言語系の辞書を対象として実施することが可能である。

また、実施形態において記載した手法、すなわちフローチャートに示す処理等の各手法は、コンピュータに実行させることができるプログラムとして、メモリカード（ＲＯＭカード、ＲＡＭカード等）、磁気ディスク（フレキシブルディスク、ハードディスク等）、光ディスク（ＣＤ－ＲＯＭ、ＤＶＤ等）、半導体メモリ等の記録媒体に格納して配布することができる。そして、コンピュータは、外部記録媒体に記録されたプログラムを読み込み、このプログラムによって動作が制御されることにより、実施形態において説明した機能と同様の処理を実現することができる。

また、各手法を実現するためのプログラムのデータは、プログラムコードの形態としてネットワーク（インターネット）上を伝送させることができ、このネットワーク（インターネット）に接続されたコンピュータ（サーバ装置等）からプログラムデータを取り込み、前述した実施形態と同様の機能を実現することもできる。

なお、本願発明は、実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。さらに、実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適宜な組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件から幾つかの構成要件が削除されたり、幾つかの構成要件が組み合わされても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除されたり組み合わされた構成が発明として抽出され得るものである。

以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。

［１］単語と、前記単語を含む文章データとが指定された場合に、
前記単語を含む複数の用例を辞書データに基づいて特定し、
前記特定された複数の用例それぞれの構文と、前記文章データの構文とを比較し、
前記構文の比較結果に基づいて、前記複数の用例に係る情報の出力を制御する制御部を有する検索装置。

［２］前記制御部は、
前記文章データに対する構文解析の結果を示す第１構文解析情報を取得し、
前記特定された各用例に対する構文解析の結果を示す第２構文解析情報を取得し、
前記第１構文解析情報と各用例に対応する前記第２構文解析情報との類似度を判別し、
前記類似度の判別結果に基づいて、前記複数の用例に係る情報の出力を制御する請求項１記載の検索装置。

［３］前記辞書データには、１つの単語に対応する複数の語義と、前記複数の語義それぞれに対応する、前記１つの単語を含む用例が記憶されており、
前記制御部は、前記構文の比較結果に基づいて、前記特定された各用例、または前記特定された各用例に対応する語義の出力を制御する請求項１記載の検索装置。

［４］前記構文の比較は、前記用例および前記文章データそれぞれの文における、前記単語に対する他の複数の単語の係り受け関係を示す係り受け種類の比較である請求項１記載の検索装置。

［５］前記構文の比較結果は、前記単語に対する他の複数の単語の係り受け関係を示す複数の係り受け種類の一致度である請求項４記載の検索装置。

［６］前記構文の比較結果は、複数の係り受け種類のうちの共通する係り受け種類の数である請求項５記載の検索装置。

［７］前記構文の比較結果は、複数の係り受け種類のうちの共通する係り受け種類における単語間の距離である請求項６記載の検索装置。

［８］前記構文の比較結果は、共通する係り受け種類の数の計算において、係り受け種類の数に応じた重みを加味した計算を行う請求項６記載の検索装置。

［９］複数の係り受け種類のうちの最も高い頻度に対する各係り受け種類の頻度の割合を重みとする請求項８記載の検索装置。

［１０］コンピュータを、
単語と、前記単語を含む文章データとが指定された場合に、
前記単語を含む複数の用例を辞書データに基づいて特定し、
前記特定された複数の用例それぞれの構文と、前記文章データの構文とを比較し、
前記構文の比較結果に基づいて、前記複数の用例に係る情報の出力を制御する制御部として機能させるための検索プログラム。

［１１］検索装置が、
単語と、前記単語を含む文章データとが指定された場合に、
前記単語を含む複数の用例を辞書データに基づいて特定し、
前記特定された複数の用例それぞれの構文と、前記文章データの構文とを比較し、
前記構文の比較結果に基づいて、前記複数の用例に係る情報の出力を制御する検索方法。

１０ …電子辞書
１１ …ＣＰＵ
１２ …メモリ
１２ａ…辞書制御処理プログラム
１２ｂ…構文解析プログラム
１２ｃ…辞書データ
１２ｄ…係り受け関係タグ距離テーブル
１３ …外部記録媒体
１４ …記録媒体読取部
１５ …通信部
１６ …キー入力部
１７ …タッチパネル式表示部
２０ …サーバ

Claims

単語と、前記単語を含む文章データとが指定された場合に、
前記単語を含む複数の用例を辞書データに基づいて特定し、
前記特定された複数の用例それぞれの文と、前記文章データの文について、前記単語に対する他の複数の単語の係り受け関係を示す複数の係り受け種類を特定し、
特定した前記複数の係り受け種類のうちの共通する係り受け種類の数に基づいて、前記複数の用例に係る情報の出力を制御する制御部を有し、
前記共通する係り受け種類の数の計算において、係り受け種類毎に決められている重みを加味した計算を行う、検索装置。
前記辞書データには、１つの単語に対応する複数の語義と、前記複数の語義それぞれに対応する、前記１つの単語を含む用例が記憶されており、
前記制御部は、前記重みを加味した計算により求められた前記共通する係り受け種類の数に基づいて、前記特定された各用例、または前記特定された各用例に対応する語義の出力を制御する、請求項１記載の検索装置。
前記制御部は、前記共通する係り受け種類の数および前記共通する係り受け種類における単語間の距離に基づいて、前記複数の用例に係る情報の出力を制御する、請求項１記載の検索装置。
前記係り受け種類毎に決められている重みは、単語毎の複数の係り受け種類の出現頻度に基づいて、出現頻度が高いほど大きい重みとなるようにして決められている、請求項１乃至３のいずれか一項に記載の検索装置。
前記係り受け種類毎に決められている重みは、複数の係り受け種類のうちの最も高い出現頻度に対する各係り受け種類の出現頻度の割合を重みとする、請求項４記載の検索装置。
コンピュータを、
単語と、前記単語を含む文章データとが指定された場合に、
前記単語を含む複数の用例を辞書データに基づいて特定し、
前記特定された複数の用例それぞれの文と、前記文章データの文について、前記単語に対する他の複数の単語の係り受け関係を示す複数の係り受け種類を特定し、
特定した前記複数の係り受け種類のうちの共通する係り受け種類の数に基づいて、前記複数の用例に係る情報の出力を制御する制御部として機能させ、
前記共通する係り受け種類の数の計算において、係り受け種類毎に決められている重みを加味した計算を行わせる、検索プログラム。
検索装置が、
単語と、前記単語を含む文章データとが指定された場合に、
前記単語を含む複数の用例を辞書データに基づいて特定し、
前記特定された複数の用例それぞれの文と、前記文章データの文について、前記単語に対する他の複数の単語の係り受け関係を示す複数の係り受け種類を特定し、
特定した前記複数の係り受け種類のうちの共通する係り受け種類の数に基づいて、前記複数の用例に係る情報の出力を制御し、
前記共通する係り受け種類の数の計算において、係り受け種類毎に決められている重みを加味した計算を行う、検索方法。