JP7443667B2 - 検索装置、辞書検索プログラム、辞書検索方法 - Google Patents

検索装置、辞書検索プログラム、辞書検索方法 Download PDF

Info

Publication number
JP7443667B2
JP7443667B2 JP2019056157A JP2019056157A JP7443667B2 JP 7443667 B2 JP7443667 B2 JP 7443667B2 JP 2019056157 A JP2019056157 A JP 2019056157A JP 2019056157 A JP2019056157 A JP 2019056157A JP 7443667 B2 JP7443667 B2 JP 7443667B2
Authority
JP
Japan
Prior art keywords
word
headword
dictionary
words
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019056157A
Other languages
English (en)
Other versions
JP2020160514A (ja
Inventor
倫治 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2019056157A priority Critical patent/JP7443667B2/ja
Publication of JP2020160514A publication Critical patent/JP2020160514A/ja
Application granted granted Critical
Publication of JP7443667B2 publication Critical patent/JP7443667B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、検索装置、辞書検索プログラム、辞書検索方法に関する。
従来、特定の文書集合を対象とした統計的な手法によって、この特定の文書集合に関連する単語を自動抽出し、この抽出された単語による文書の検索を可能にした文書検索システムが知られている(例えば、特許文献1参照)。文書検索システムでは、特定の文書集合に関連する単語を抽出することができるが、各文書に付与された属性情報や検索式などを条件として入力する必要がある。
特開平11-025108号公報
ところで、特定の文書集合を対象として、文書内容について学習したいという要求がある。例えば、試験問題において用いられる文書について、文書内で使用される単語について学習するというものである。
しかしながら、従来のシステムにおいて、特定の文書集合に関連する単語を抽出するためには、各文書に付与された属性情報や検索式などを条件として入力する必要があり、簡単な操作によってユーザが学習対象とする単語を効率的に抽出することができなかった。
本発明は、前記のような課題に考慮してなされたもので、特定の分野の文書を対象として、ユーザが必要とする単語を効率的に抽出することができる検索装置、辞書検索プログラム、辞書検索方法を提供することを目的とする。
上記の課題を解決するために、本実施形態における検索装置は、特定分野に分類される第1文書データから抽出された複数の単語それぞれを見出し語とし、複数の前記見出し語のそれぞれに対応付けて、前記見出し語の意味を含む語義情報および前記第1文書データにおいて前記見出し語との関連度が所定以上であると判断される単語である関連語を含む関連語情報が記憶された第1辞書データと、指定された見出し語に対応する前記語義情報および前記関連語情報を前記第1辞書データから検索し、検索された前記語義情報に含まれる意味および前記関連語情報に含まれる関連語を表示させる制御部を有し、前記関連語情報は、複数の関連語と、前記第1文書データにおいて前記複数の関連語のそれぞれが出現する各範囲の文章の内容を表す分類であるジャンルの情報とを含み、前記制御部は、ユーザにより見出し語およびジャンルが指定された場合に、前記指定された見出し語に対応する前記関連語情報に含まれる複数の関連語のうち、前記指定されたジャンルに分類される文章の範囲に出現する関連語を優先して表示させる。
本発明によれば、特定の分野の文書を対象として、ユーザが必要とする単語を効率的に抽出することができる。
本発明の実施形態に係る検索装置の電子回路の構成を示す機能ブロック図。 本実施形態における電子辞書の外観構成を示す正面図。 本実施形態における辞書データ作成処理を示すフローチャート。 本実施形態における単語間の距離を説明するための図。 構文解析処理により生成される構文木の一例を示す図。 本実施形態におけるジャンルリストに登録されたジャンルの一例を示す図。 本実施形態における特定分野辞書データに登録されるデータの一例を示す図。 本実施形態における辞書制御処理を示すフローチャート。 本実施形態における特定分野辞書検索処理を示すフローチャート。 本実施形態における電子辞書のホーム画面の一例を示す図。 本実施形態における特定分野辞書一覧画面の一例を示す図。 本実施形態における特定分野辞書検索画面の一例を示す図。 本実施形態における検索結果画面の一例を示す図。 本実施形態における検索結果画面の一例を示す図。
以下、図面により本発明の実施の形態について説明する。
図1は、本発明の実施形態に係る検索装置の電子回路の構成を示す機能ブロック図である。
本実施形態では、検索装置を例えば電子辞書10として構成した例について示す。なお、検索装置は、電子辞書10の他、パーソナルコンピュータ、スマートフォン、タブレットPCなどの各種の電子機器により実現することが可能である。
電子辞書10は、複数の見出し語にそれぞれ対応する少なくとも1つの語義に関する情報が辞書データとして記録されている。電子辞書10は、見出し語を指定する文字列を入力することで、見出し語に対応する情報を検索する検索機能を有する。本実施形態における電子辞書10は、一般の全分野において用いられる単語を見出し語として登録された一般の辞書と、特定分野において使用頻度が高い単語を見出し語として登録された特定分野辞書を対象にして検索をすることができる。特定分野辞書には、例えばTOEIC(Test of English for International Communication)を対象とするTOEIC用の辞書がある。TOEIC用の特定分野辞書は、例えばTOEICの公式問題集、参考書、ETS(Educational Testing Service)による出版物など、特定分野(TOEIC関連分野)で使用される文書データ(テキストデータ)で使用される単語が見出し語として登録される。特定分野辞書には、見出し語と対応づけて登録される情報として、一般の辞書と同様に見出し語の意味(語義)を説明する語義情報の他、特定分野で使用される文書データに基づいて作成される、特定分野辞書に特有の情報が含まれる(TOEIC用の特定分野辞書の一例については図7に示す)。従って、特定分野辞書を用いた検索により、特定分野で使用される見出し語(単語)に関する情報を効率的に抽出することができる。
特定分野辞書データは、予め電子辞書10に記憶させておくこともできるし、特定分野で使用される文書データ(テキストデータ)をもとに生成して、記憶させることができる。特定分野辞書は、TOEIC用に限らず、例えば大学入試用、高校入試用、医学分野用、経済分野用、特定の人物のブログ用、小説等の書籍用など、各種の特定分野を対象とすることが可能である。
電子辞書10は、各種の記録媒体に記録されたプログラム、又は、伝送されたプログラムを読み込んで、その読み込んだプログラムによって動作が制御されるコンピュータの構成を有し、その電子回路には、CPU(central processing unit)11が備えられる。
CPU11は、電子辞書10の全体を制御する制御部として機能する。CPU11は、メモリ12内に予め記憶された制御プログラム、あるいはROMカードなどの記録媒体13から記録媒体読取部14を介してメモリ12に読み込まれた制御プログラム、あるいはインターネット等を含むネットワークNを通じて、サーバ20から通信部15を介しダウンロードされてメモリ12に読み込まれた制御プログラムに応じて、回路各部の動作を制御する。
メモリ12に記憶された制御プログラムは、キー入力部16からのユーザ操作に応じた入力信号、タッチパネル式表示部17からのユーザ操作に応じた入力信号、あるいは外部接続されるネットワークN上のサーバ20との通信信号、あるいは記録媒体読取部14を介して接続されるEEPROM(登録商標),RAM,ROMなどの外部記録媒体13との接続通信信号に応じて起動される。
CPU11には、メモリ12、記録媒体読取部14、通信部15、キー入力部16、タッチパネル式表示部17などが接続される。
メモリ12に記憶される制御プログラムとしては、電子辞書10の全体の動作を司るシステムプログラム、外部接続されるネットワークN上のサーバ20、パーソナルコンピュータなどの他の電子機器とデータ通信するための通信プログラムが記憶される。さらに、メモリ12には、入力された文字列をもとに見出し語に対応する情報を検索して出力する検索機能を実行する辞書制御プログラム12aが記憶される。辞書制御プログラム12aは、特定分野用の辞書データ(特定分野辞書データ)を作成する辞書データ作成プログラム12b(辞書作成プログラム)が含まれる。
また、メモリ12には、辞書データ12c、特定分野辞書データ12d、ジャンルリスト12e、テキストデータ12fなどが記憶される。
辞書データ12cには、例えば、英和辞書、和英辞書、英英辞書、国語辞書などの複数の一般の辞書を集録したデータベースが含まれる。辞書データ12cには、辞書毎に、各見出し語のそれぞれに対応する意味(語義)を説明する語義情報が含まれる。1つの見出し語に対して複数の語義情報が記憶される場合ある。また、語義情報には、見出し語(単語)の語義に応じた文章内での使用例を示す例文(用例)が設定される。なお、辞書データ12cは、電子辞書10の本体に内蔵せずに、ネットワークNを通じてアクセス可能な辞書データベース(例えば、サーバ20)から取得するようにしても良い。
特定分野辞書データ12dには、特定分野の文書データ(テキストデータ)をもとに作成された辞書データが含まれる。特定分野辞書データ12dには、複数の特定分野のそれぞれに対応する辞書データが含まれていても良い。特定分野辞書は、電子辞書10に追加登録されたライブラリデータとして管理される。
特定分野辞書データ12dには、一般の辞書と同様に、各見出し語のそれぞれに対応する意味(語義)を説明する語義情報が含まれる。さらに、特定分野辞書データ12dには、特定分野で使用される文書データに基づいて作成される、特定分野辞書に特有の情報が見出し語と対応づけて設定される。
特定分野辞書に特有の情報には、例えば、見出し語が多く含まれる文書データの区分(パート)を示す情報、文書データにおける見出し語の単語と関連度が高い単語(関連語)の情報、関連度が高い単語(関連語)が含まれる文書データの内容を示すジャンル(分類)の情報などが含まれる。これらの各情報は、複数の見出し語のそれぞれと対応づけて、特定分野辞書データ12dに登録される。関連語は、特定分野に属する複数の文書データを対象として、文書データに含まれる見出し語とする単語と他の単語との位置関係に基づく関連度を算出することにより、文書データに含まれる見出し語との関連度が所定以上であると判断された単語である。関連語は、文書データに含まれる見出し語とする単語のそれぞれについて求められ、条件を満たせば1つの見出し語に対して複数あっても良い。
例えば、TOEIC用の特定分野辞書を作成する場合には、TOEIC関連分野で使用されるテキストデータとして、TOEICの公式問題集、参考書、ETSによる出版物などで用いられる文書データが含まれる。特定分野に関係する複数の文書データを利用することで、特定分野辞書に登録される見出し語と、見出し語に対応する各種情報の数を増やすことができる。また、特定分野辞書の作成において、1つの見出し語について、異なる意味での使用例(異なるジャンルのテキストでの使用例)を対象とし易くすることができる。これらの複数の文書データをまとめたテキストデータは、TOEICのテスト問題構成で定められている複数のパート毎に区分される。TOEICでは、試験問題として、リスニングセクションに対応するパート1~4と、リーディングセクションに対応するパート5~7が設けられている。例えば、パート4は、説明文問題のパートである。従って、TOEIC関連分野で使用されるテキストデータのうち、説明文問題に関係するテキストデータがパート4に分類される。
見出し語の単語と関連度が高い単語(関連語)は、例えばテキストデータの特定範囲内における、テキスト中の単語間の位置関係に基づいて決定される。単語間の位置関係は、例えば注目する単語から対象とする単語までの単語数または文字数(単語間の距離)、あるいは構文解析により判別される構文木における単語間の枝数を用いることができる(図5参照)。例えば、過去のTOEIC問題集の(特定分野に属する)文書データをサンプルとして見出し語との関連度が高いと判断された関連語については、将来のTOEIC問題集などのTOEICに関係する(特定分野に属する)文書データを対象とした場合であっても関連度が高いことが推定される。
テキストデータの特定範囲は、例えばTOEICの1つの設問、1つのパート、1センテンスなど、任意の範囲とすることができる。なお、テキストデータの特定範囲に、一緒に用いられていない単語については、例えば、関連無し(単語間の距離が無限大)として関連語の対象外とする。
ジャンルは、文書データの内容を示すもので、例えばTOEIC関連分野で使用されるテキストデータに対して、該当するテキストデータの特定範囲に設定される。例えば、TOEICの設問に用いられたテキストが、空港アナウンスに関する内容であれば、この設問に用いられたテキストデータに対してジャンル「空港アナウンス」が設定される。同様にして、例えば「社内メモ」「求人情報」「学業」「技術アナウンス」「芸術」などの複数のジャンルが、それぞれに対応するテキストデータの特定範囲に設定される。
なお、特定分野辞書データ12dは、電子辞書10の本体に内蔵せずに、ネットワークNを通じてアクセス可能な辞書データベース(例えば、サーバ20)から取得するようにしても良い。また、特定分野辞書データ12dは、電子辞書10とは別の電子機器によって作成され、電子辞書10に記憶されても良いし、電子辞書10において特定分野のテキストデータをもとに作成しても良い。
ジャンルリスト12eは、特定分野辞書データ12dに見出し語と対応づけて設定された関連語のジャンルが登録される。
テキストデータ12fは、特定分野辞書データ12dの作成に用いられる特定分野に関するデータである。テキストデータ12fは、例えば複数のパート毎に分類され、また所定のテキスト範囲ごとにジャンルが設定される。パート及びジャンルを示すデータは、テキストデータ12fに含まれていても良いし、テキストデータ12fとは別の付属データとして記憶されていても良い。パート及びジャンルを示すデータは、例えばテキストデータ12fに対する解析処理(例えばテキストマイニング)などによって抽出される。テキストデータ12fは、複数の特定文書別のデータを含み、電子辞書10に追加登録されたライブラリデータとして管理される。例えば、TOEIC用の特定分野辞書を作成するために、TOEIC関連分野で使用されるテキストデータが追加登録された場合、「TOEIC」に対応するライブラリとして管理される。
なお、特定分野に関するデータには、テキストデータの他に、特定分野で使用される単語が登録された単語リストを含んでいても良い。例えば、TOEICでは、必要な単語数が5000~8000と言われている。これらの単語が登録されたTOEIC用の単語リストが既に作成済みである場合には、TOEIC用のテキストデータと共に単語リストデータのデータをメモリ12に記憶させる。なお、単語リストは、特定分野のテキストデータから見出し語に用いる単語を抽出して、作成するようにしても良い。
テキストデータ12fは、例えば記録媒体読取部14を介して記録媒体13に記憶されてからメモリ12に読み込まれる他、ネットワークNを通じてサーバ20からダウンロードされてメモリ12に読み込まれる。
図2は、電子辞書10の外観構成を示す正面図である。
図2における電子辞書10の場合、開閉される装置本体の下段側にCPU11、メモリ12、記録媒体読取部14、通信部15が内蔵されると共に、キー入力部16が設けられ、上段側にタッチパネル式表示部17が設けられる。
キー入力部16には、文字入力キー16a、各種の辞書や各種機能を選択することができる辞書選択キー16b、[訳/決定]キー16c、[戻る]キー16d、カーソルキー(上下左右キー)16e、電源ボタン、その他の各種機能キーなどが備えられる。タッチパネル式表示部17には、各種機能の実行に応じて、各種メニューやボタン17aなどが表示される。
電子辞書10は、ユーザによるキー入力部16に対する操作、あるいは表示部17に表示されたメニューやボタンに対するタッチ操作(ペン先、あるいは指先による)に応じて、ユーザによる指示を入力することができる。
このように構成された電子辞書10は、CPU11が辞書制御プログラム12aに記述された命令に従い回路各部の動作を制御し、ソフトウエアとハードウエアとが協働して動作することにより、以下の動作説明で述べる機能を実現する。
次に、本実施形態における電子辞書10の動作について説明する。
まず、電子辞書10のメモリ12に記憶される特定分野辞書データ12dを作成する辞書データ作成処理について説明する。図3は、本実施形態における辞書データ作成処理を示すフローチャートである。
辞書データ作成処理は、特定分野辞書データ12dが電子辞書10とは別の電子機器から提供される場合、別の電子機器において実行される。また、特定分野辞書データ12dが電子辞書10により作成される場合、辞書データ作成処理は、辞書データ作成プログラム12bに基づいてCPU11により実行される。ここでは、電子辞書10において辞書データ作成処理が実行される場合について説明する。
CPU11は、電源オンされると、辞書制御プログラム12aを起動して辞書制御処理を開始する。CPU11は、タッチパネル式表示部17に初期画面であるホーム画面を表示させる。
図10は、電子辞書10のホーム画面D1の一例を示す図である。ホーム画面D1は、検索対象とする文字列を入力するための入力エリアAR11、検索モードを選択するためのタグT11,T12,T13,T14、設定ボタンB11、メニューM1が設けられる。ホーム画面D1では、入力エリアAR11に文字列を入力することにより複数の辞書を対象として検索を実行することができる。
タグT11は、入力エリアAR11に入力された文字列をもとに、見出し語が日本語とする辞書を対象として検索を実行するモードを選択するためのタグである。同様にして、タグT12は、見出し語が日本語とする辞書の検索、タグT13は、複数の辞書に対応する例文(例文データベース12c)の検索、タグT14は、複数の辞書に対応する成句の検索を、それぞれ実行するモードを選択するためのタグである。
設定ボタンB11は、設定機能の実行を指示するためのボタンである。
メニューM1は、電子辞書10に設けられたコンテンツや各種機能、特定の辞書の選択を受け付けるためのボタン、ライブラリに登録されたデータを選択するためのボタンB12を含む。特定分野辞書を利用して検索処理を実行する場合、あるいはライブラリデータとして記憶されたテキストデータをもとに特定分野辞書を作成する場合には、ボタンB12が操作される。
CPU11は、メニューM1のボタンB12が選択されたことを検出すると、ライブラリとして管理された特定分野辞書、あるいは特定分野辞書を作成するためのテキストデータが記憶されているかを判別する。
ここでは、例えば「TOEIC」の特定分野辞書を作成するためのテキストデータがメモリ12に記憶されているものとする。また、「TOEIC」用だけでなく、他の特定分野の辞書「○○大学入試」「○○高校入試」を作成するためのテキストデータがメモリ12に記憶されているものとする。例えば、「○○大学入試」の特定分野辞書を作成するためのテキストデータは、英語の試験に関係する過去問題、参考書、問題集などの複数の文書データをまとめたデータである。
CPU11は、特定分野辞書を作成するためにライブラリとして管理されたテキストデータ12fに応じて、特定分野辞書を選択するための特定分野辞書一覧画面をタッチパネル式表示部17において表示させる。
図11は、特定分野辞書一覧画面D2の一例を示す図である。電子辞書10に「TOEIC」「○○大学入試」「○○高校入試」に対応する特定分野辞書を作成するためのテキストデータが記憶されている場合、あるいは「TOEIC」「○○大学入試」「○○高校入試」に対応する特定分野辞書が作成済みである場合には、図11に示すように、各特定分野辞書に対応する「TOEIC」ボタンB21、「○○大学入試」ボタンB22、「○○高校入試」ボタンB23が特定分野辞書一覧画面D2において表示される。
ここで、例えば、「TOEIC」ボタンB21を設定する操作が検出された場合(ステップA1)、CPU11は、「TOEIC」用の特定分野辞書を作成するためのテキストデータ(抽出元データ)を読み込み、TOEIC用の特定分野辞書を作成するための処理を開始する。CPU11は、テキストデータの特定範囲毎に、テキストに含まれる見出し語に対応する単語について、関連語候補とする単語、距離、ジャンル、パートを特定する処理を実行する。
まず、CPU11は、単語リストから見出し語の候補とする1単語を読み込む(ステップA3)。なお、単語リストには、「TOEIC」用のテキストデータ(抽出元データ)から見出し語に用いる単語を抽出して登録されているものとする。CPU11は、単語リストから単語を読み込めた場合、すなわち全ての見出し語候補とする単語についての処理が完了していない場合(ステップA4、YES)、単語リストから読み込んだ単語を見出し語対象としてセットする(ステップA5)。
CPU11は、見出し語対象としてセットした単語とは別の他の1単語を単語リストから読み込む(ステップA6)。CPU11は、単語リストから他の1単語を読み込めた場合、すなわち全ての関連語候補とする単語について処理が完了していない場合(ステップA7、YES)、単語リストから読み込んだ単語を関連語候補にセットする(ステップA9)。
CPU11は、見出し語対象(単語)に対して、全抽出元データ内で関連単語候補を探して、距離、ジャンル、パートを記憶する(ステップA10)。例えば、CPU11は、全抽出元データのうち、見出し語対象の単語を含む、1つの設問に含まれる範囲(特定範囲)のテキストデータに、見出し語候補の単語が含まれていれば、テキスト中の見出し語対象の単語と関連語候補の単語の位置関係を判別する。CPU11は、単語間の位置関係として、テキスト中の見出し語対象の単語から関連語候補の単語までの距離を求める。1つのテキストにおいて、単語間の距離が短い場合には、単語間の関連度が高いと見なすことができる。
図4には、単語間の距離を説明するための図である。図4では、1つの設問に含まれる範囲(特定範囲)のテキストデータの一例を示している。
図4において、例えば単語「technical」が見出し語対象K1、単語「software」を関連語候補T1とする。この場合、CPU11は、テキスト中の見出し語対象K1から関連語候補T1までの単語数をカウントして、見出し語対象K1と関連語候補T1との距離とする。
なお、図4に示すように、見出し語対象から関連語候補までの単語数を距離とする場合、単語間の関連度に関係しない、例えば冠詞等の単語の有無により、単語の使われ方が同じ文章であっても異なる距離となる場合がある。このため、以下に説明するように、見出し語対象と関連語候補の単語間の距離を、対象とするテキストに対する構文解析の結果を利用して特定するようにしても良い。
例えば、テキスト「I have a pen.」において、単語「have」を見出し語対象K2、単語「pen」を関連語候補T2とした場合、見出し語対象K2から関連語候補T2までの距離は「2」となる。一方、テキスト「I have pens.」において、単語「have」を見出し語対象K3、単語「pens」を関連語候補T3とした場合、見出し語対象K3から関連語候補T3までの距離は「1」となる。すなわち、単語の使われ方が同じ文章であるにもかかわらず、関連語候補が単数形「pen」か複数形「pens」かの違いにより冠詞の有無の違いが生じて、単語間の距離が変わってしまう。
そこで、CPU11は、見出し語対象と関連語候補の単語間の距離を特定する場合、単語を含むテキスト(文章)について構文解析処理を実行して、文章の句構造を表す構文木を作成する。
図5は、構文解析処理により生成される構文木の一例を示す図である。図5(A)は、前述したテキスト「I have a pen.」に対応する構文木を示し、図5(B)は、前述したテキスト「I have pens.」の構文木を示す。
CPU11は、構文木に基づいて、見出し語対象とする単語から関連語候補とする単語までの枝の数をカウントし、枝の数を単語間の距離とする。
図5(A)に示すように、テキスト「I have a pen.」の見出し語対象K2の単語「have」と関連語候補T2の単語「pen」の間の枝数は「5」となる。また、図5(B)に示すように、テキスト「I have pens.」の見出し語対象K3の単語「have」と関連語候補T3の単語「pens」の間の枝数は「5」となる。すなわち、テキスト中の冠詞の有無に関係なく、見出し語対象の単語と関連語候補の単語の距離が同じであると特定できる。
こうして、テキストに対する構文解析を実行して、構文木の枝の数を単語間の距離とすることで、冠詞等の有無の違いによる文章の変動があったとしても単語間の位置関係(距離)を正しく特定することが可能となる。
また、CPU11は、見出し語対象及び関連単語候補の単語が存在する、1つの設問に含まれる範囲(特定範囲)のテキストデータについて、例えばテキストデータに対応する付属データをもとにジャンルとパートを判別する。例えば、「空港アナウンス」を設問としたテキストについては、ジャンルが「空港アナウンス」と判定される。また、「空港アナウンス」の設問が、パート4に対応する説明文問題に分類されている場合には、パート4と判別される。
こうして、CPU11は、1つの見出し語対象(単語)に対して、全抽出元データ内で全ての関連単語候補を個々に探して、それぞれの関連単語候補に対応して距離、ジャンル、パートを特定してメモリ12に記憶させる(ステップA6~A10)。
CPU11は、1つの見出し語対象(単語)に対する、その他の全ての関連単語候補について距離、ジャンル、パートの記憶が完了すると(ステップA7、No)、見出し語対象に対する頻出パートを設定し、各関連単語候補に対して、関連度、ジャンルを設定してメモリ12に記憶させる。
CPU11は、例えば全ての関連単語候補に対応する距離を5段階に分けて、各段階を関連度0~4とする。CPU11は、個々の関連単語候補に対応する距離が何れの段階に相当するかに応じて、関連単語候補の関連度を決定する。なお、1つの関連単語候補とする単語がテキスト中に複数存在する場合には、例えば、個々の単語について特定された距離の平均、個々の単語について特定された距離の中央値をもとに関連度を決定するようにしても良い。
また、CPU11は、1つの関連単語候補の単語が複数のジャンルのテキストに存在する場合には、複数のジャンルを記憶させることができる。また、複数のジャンルがテキストに存在する場合には、頻出回数が多い順に予め決められた数の上位(例えば2つ)のジャンルを選択するようにしても良い。また、CPU11は、各関連単語候補に対して設定したジャンルをジャンルリスト12eに登録(追加)して、メモリ12に記憶させる。
図6は、ジャンルリスト12eに登録されたジャンルの一例を示す図である。図6に示すように、TOEIC関連分野で使用されるテキストデータに対して処理することで、例えば「空港アナウンス」「学業」「技術アナウンス」「求人情報」「芸術」「社内メモ」…のジャンルが登録されたことを示している。
また、CPU11は、例えば、見出し語対象の単語を含むテキストデータ(例えば、1つの設問のテキスト)の数をパート毎に集計し、見出し語対象の単語が含まれるテキストデータの数が多いパートを頻出パートとして特定する。
CPU11は、頻出パート、関連度、ジャンルの設定が完了すると、単語リストから次に見出し語の候補とする1単語を読み込み(ステップA3)、以下、前述と同様の処理を繰り返して実行する(ステップA4~A8)。
CPU11は、単語リストの全ての見出し語候補とする単語についての処理が完了すると(ステップA4)、メモリ12に記憶させた見出し語候補に対応する頻出パート、関連度、ジャンルを特定分野辞書データ12dに登録する(ステップA9)。
図7は、特定分野辞書データ12dに登録されるデータの一例を示す図である。
CPU11は、見出し語候補とする単語を見出し語31として登録する。図7に示す例では、単語「technical」を見出し語31としている。また、見出し語31に対応づけて頻出パート32、関連語33、及び意味情報34を登録する。
図7では、頻出パート32として、パート4,5,6,7が登録されている。すなわち、単語「technical」がパート4,5,6,7に分類されるテキストデータに多く用いられていることを示す。
また、関連語33は、見出し語候補に対応する関連単語候補として記憶された単語である。関連語33には、単語33a、関連度33b、ジャンル33cが対応づけて登録される。関連語33には、関連単語候補として記憶された全ての単語を登録しても良いし、基準以上の関連度(例えば最上位の関連度4のみ)を有する単語を登録しても良い。
図7に示す例では、関連語33として、例えば単語「software」が登録され、見出し語31の単語「technical」との関連度が関連度4であることを示している。また、関連語とする単語「software」がジャンル「技術アナウンス」のテキストデータに含まれていることを示している。関連語に対するジャンル(単語が用いられるテキストの内容別の分類)を対応づけて登録し、検索処理において表示できるようにすることで、検索対象としている単語と関連語との関係を把握し易くする。
意味情報34は、見出し語の意味(語義)を説明する語義情報である。意味情報34では、語義情報と対応づけて、前述したジャンルを対応づけて記憶させておくことができる。図7では、見出し語の単語「technical」に対応する複数の意味(語義情報)に対して、それぞれジャンルが対応づけて記憶された例を示している。
すなわち、1つの見出し語の単語に対して複数の意味(語義情報)が存在する場合、単語が用いられるテキストのジャンル毎に、テキスト内で使用される単語の意味(語義)が異なることがある。従って、複数の意味(語義情報)のそれぞれに対応するジャンルを対応づけて、辞書検索時に参照できるようにする。これにより、単語が用いられるジャンルと共に見出し語の単語の語義について効率的に学習することができる。
さらに、特定分野辞書データ12dには、見出し語(あるいは語義情報)に対応づけて、見出し語の単語を含む例文、さらには例文を読み上げる音声の音声データを記憶させておいても良い。特に、TOEICのパート1~4は、リスニングセクションに対応するため、パート1~4の何れかを頻出パートとして設定された見出し語(あるいは語義情報)と対応づけて、例文と共に、例文を読み上げる音声データを記憶させておく。これにより、電子辞書10は、見出し語に対応する音声データをもとに、例文を読み上げる音声を出力させることができる。ユーザは、例文の音声を聞くことで、TOEICのパート1~4に対応するリスニングの学習ができる。
このようにして、本実施形態における辞書データ作成処理では、特定分野のテキストデータをもとに、特定分野で使用される単語を見出し語とする特定分野辞書を作成することができる。例えば、TOEICに関係するテキストデータをもとに特定分野辞書を作成することにより、TOEICの学習に好適な単語が見出し語として収容された、TOEIC用の特定分野辞書を作成できる。
次に、本実施形態における電子辞書10による辞書制御処理について説明する。図8は、本実施形態における辞書制御処理を示すフローチャートである。
CPU11は、電源オンされると、辞書制御プログラム12aを起動して辞書制御処理を開始する。CPU11は、タッチパネル式表示部17に初期画面であるホーム画面Dを表示させる(ステップS1)(図10参照)。ホーム画面Dでは、特定の一般の辞書と特定分野辞書をまとめて検索対象として選択することもでき、また特定の一般の辞書あるいは特定分野辞書を個別に選択して検索対象とすることができる。これにより、ユーザによる単語の学習目的に応じて検索対象とする辞書を限定して、必要とする単語の情報を効率に抽出できるようにする。
CPU11は、メニューM1から特定の辞書が選択されない場合(ステップS2、NO)、複数の辞書を対象とした検索を実行する。CPU11は、ホーム画面D1において、入力エリアAR11に対して、文字入力キー16aの操作により検索ワードとする文字列(単語)が入力され(ステップS3、YES)、[訳/決定]キー16cにより検索の実行が指示されると検索処理を実行する。CPU11は、タグT11~T14の選択状態に応じて、入力エリアAR11に入力された文字列による検索処理を実行する。
ここでは、例えば英語の辞書を検索対象とするタグT12が選択され、入力エリアAR11に英単語の文字列が入力され、検索の実行が指示されたものとする(ステップS4、YES)。CPU11は、英単語を見出し語として登録された英語系辞書を対象として、入力された検索ワードにもとに検索を実行する(ステップS5)。すなわち、CPU11は、辞書データ12cに含まれる英語系の複数の一般の辞書を対象として、検索ワードに対応する見出し語を検索する。
さらに、英語系の特定分野辞書が作成済みである場合、CPU11は、特定分野辞書データ12dに含まれる英語系の特定分野辞書を対象として、検索ワードに対応する見出し語を検索する。
CPU11は、複数の辞書を対象とした検索結果を、タッチパネル式表示部17において表示させる(ステップS6)。例えば、CPU11は、英語系の複数の辞書を対象とした検索結果として、辞書毎の見出し語の一覧と語義情報をタッチパネル式表示部17において表示させる(ステップS6)。ここでは、一般の辞書から検索された検索内容と、特定分野辞書から検索された検索内容を、例えばタッチパネル式表示部17の同一画面で並べて表示させることができる。なお、特定分野辞書に対する検索結果の表示例については後述する(図13、図14参照)。
このように、本実施形態における電子辞書10では、特定分野辞書を作成済みであれば、一般の辞書と同様にして一括して検索対象とすることができ、特定分野辞書からの検索結果を一般の辞書の検索結果と同様に表示させることができる。従って、ユーザが学習対象とする単語についての情報を、一般の辞書と特定分野辞書から一括して効率的に抽出することができる。
一方、ホーム画面D1において、ユーザによる選択操作によりメニューM1から何れかの辞書が選択された場合(ステップS2、YES)、CPU11は、選択された辞書を対象とした検索モードに移行する。CPU11は、選択された辞書が一般の辞書である場合、選択された辞書に対応する辞書検索画面を表示させる(ステップS12)。
CPU11は、一般の辞書に対応する辞書検索画面において、文字入力キー16aの操作により検索ワードとする文字列(単語)が入力され(ステップ13、YES)、[訳/決定]キー16cにより検索の実行が指示されると選択された辞書を対象とする検索処理を実行する。CPU11は、辞書検索画面におけるタグにより単語検索が設定されている場合には(ステップS14、YES)、入力された単語による検索処理を実行する。CPU11は、検索対象として選択された辞書データ12cに含まれる一般の辞書を対象として、入力された文字列(単語)に対応する見出し語を検索する(ステップS15)。CPU11は、選択された辞書を対象とした検索結果として、見出し語の一覧と語義情報をタッチパネル式表示部17において表示させる(ステップS16)。
また、ホーム画面D1において、メニューM1のボタンB12が選択されたことを検出すると、CPU11は、ライブラリとして管理された特定分野辞書、あるいは特定分野辞書を作成するためのテキストデータが記憶されているかを判別し、特定分野辞書を選択するための特定分野辞書選択画面をタッチパネル式表示部17において表示させる(ステップS21)。
例えば、特定分野辞書選択画面には、前述した特定分野辞書一覧画面D2と同様にして、例えば、各特定分野辞書に対応する「TOEIC」ボタンB21、「○○大学入試」ボタンB22、「○○高校入試」ボタンB23が表示される。
特定分野辞書選択画面において何れかのボタンの操作により特定分野辞書が選択されると(ステップS22)、CPU11は、選択された特定分野辞書の特定分野辞書データ12dが作成済みであるか判別する。特定分野辞書データ12dが作成済みでない場合(ステップS23、NO)、CPU11は、前述した辞書データ作成処理(図3)を実行して、特定分野辞書の特定分野辞書データ12dを作成する(ステップS27)。
一方、選択された特定分野辞書の特定分野辞書データ12dが作成済みである場合(ステップS23、YES)、CPU11は、選択された特定分野辞書に対応する、特定分野辞書検索画面をタッチパネル式表示部17に表示させる。
図12は、図11において「TOEIC」ボタンB21が選択された場合の「TOEIC」用の特定分野辞書に対応する特定分野辞書検索画面D3の一例を示す図である。
「TOEIC」用の特定分野辞書検索画面では、検索対象とする文字列(検索ワード)を入力するための入力エリアAR31、パートの指定を入力するためのパートエリアAR32、ジャンルの指定を入力するためのジャンルエリアAR33、検索処理の実行を指示するための検索開始ボタンB31が設けられている。パートエリアAR32では、「TOEIC」用の特定分野辞書で使用されるパート1~7の何れかを選択(あるいは入力)することができる。ジャンルエリアAR33では、「TOEIC」用の特定分野辞書を作成した際に、ジャンルリスト12eに登録されたジャンルの何れかを選択(あるいは入力)することができる。
特定分野辞書検索画面では、例えば入力エリアAR31、パートエリアAR32、ジャンルエリアAR33の何れか1つに入力して検索実行しても良いし、2つ以上に入力して検索実行することもできる。
パートあるいはジャンルを指定することで、特定分野辞書に登録された情報のうち検索対象を限定することができる。ここでは、検索対象を限定するパートあるいはジャンルを検索対象種類とする。「TOEIC」用の特定分野辞書では、パートとジャンルの指定をしているが、別の分野の特定分野辞書では、パートとジャンルとは異なる検索対象種類の指定をする場合がある。
CPU11は、特定分野辞書検索画面において、検索ワード、検索対象種類(パート、ジャンル)が入力され、検索開始ボタンB31の操作により検索実行が指示されると、特定分野辞書データ12d(特定分野辞書)に対する特定分野辞書検索処理を実行する(ステップA26)。
図9は、「TOEIC」用の特定分野辞書を対象とする特定分野辞書検索処理を示すフローチャートである。
CPU11は、入力エリアAR31に検索ワードが入力されている場合、検索ワードをもとに特定分野辞書データ12d(特定分野辞書)の見出し語を検索する(ステップB1)。CPU11は、検索ワードと共に、ジャンルエリアAR33においてジャンルが指定されていない場合(ステップB2、NO)、検索された見出し語に対応する情報を含む検索結果画面をタッチパネル式表示部17に表示させる。検索結果とする情報には、見出し語と対応づけられた関連語と意味(語義情報)を含む。
図13は、例えば、検索ワード「technical」による検索結果画面D4の一例を示す図である。図13に示すように、検索ワード「technical」による検索では、特定分野辞書データ12dから図7に示す見出し語「technical」が検索され、見出し語「technical」と対応づけられた各情報が表示される。すなわち、見出し語「technical」に対応する複数の意味(語義情報)、関連語、及び頻出パートが表示される。
複数の意味(語義情報)には、それぞれに対応するジャンルが表示される。また、関連語としては、複数の単語「software」「expert」「manual」「class」が表示される。検索結果画面D4に表示される関連語は、例えば関連度が所定以上(例えば、最上位の関連度4のみ)である単語とし、予め決められた数(例えば4つ)とする。すなわち、見出し語と関連性の高い単語のみを関連語として優先して参照することができる。また、関連語とする単語は、単語に関連する情報を参照することを表す形態(リンク情報)により表示される。すなわち、単語を指定することで、指定した単語に対応する情報を表示できることをユーザに明示する。
こうして、特定分野辞書に対する検索結果画面D4では、見出し語に対応する複数の意味(語義情報)を一覧表示させるだけでなく、見出し語とする単語が用いられるテキストのジャンル毎に、見出し語の単語が何れの意味で使用されるか表示される。従って、特定分野のテキスト中で使用される1つの見出し語に対する複数の意味(語義)について、効率的に学習することができる。また、見出し語に対応する意味だけでなく、関連語も合わせて学習することができるので学習効率を向上させることができる。
一方、検索ワードと共にジャンルエリアAR33においてジャンルが指定された場合、CPU11は、検索ワードをもとに特定分野辞書データ12d(特定分野辞書)の見出し語を検索し(ステップB1)、検索された見出し語に対応する情報を、選択されたジャンルに応じて並び替えた検索結果画面をタッチパネル式表示部17に表示させる(ステップB3)。
図14は、図13に対応する情報が並べ替えられた検索結果画面D5の一例を示す図である。図14は、例えばジャンルエリアAR33において、ジャンル「学業」が指定された場合の例を示している。
図14に示すように、見出し語に対応する意味情報については、ジャンル「学業」が対応づけられた意味情報を優先させて上位に並べ替える。また、関連語については、図7に示すように、単語「class」に対してジャンル「学業」が対応づけられているため、単語「class」を上位(先頭)にして並べ替える。
こうして、ジャンルを指定して検索を実行することで、特定分野の該当ジャンルのテキスト中で使用される情報を優先させて、上位に並べ替えて表示される。従って、ジャンルに対応する情報を優先して参照することができ、効率的に学習することができる。
なお、本実施形態における電子辞書10では、検索結果画面D4,D5が表示された状態において、情報を並べ替えるためにジャンルを指定することができる。CPU11は、ジャンルの指定を検出すると(ステップB5、YES)、指定されたジャンルに応じて並び替えた検索結果画面をタッチパネル式表示部17に表示させる(ステップB6)。すなわち、CPU11は、前述と同様にして、指定されたジャンルに対応する意味情報と関連語を上位となるように並べ替える。例えば、図14に示す検索結果画面D5において、ジャンル「芸術」を指定することで、ジャンル「芸術」に対応する情報が上位に表示される。
これにより、学習対象とするジャンルを任意に指定して、指定したジャンルに対応する情報を容易に確認できるので、各ジャンルに対応する情報を効率的に学習することができる。
なお、特定分野辞書検索画面D3において、パートエリアAR32にのみ入力があった場合、CPU11は、パートエリアAR32において指定されたパートを頻出パートとして設定された見出し語を特定分野辞書データ12dから検索し(ステップB1)、該当する見出し語の一覧をタッチパネル式表示部17において表示させる(ステップB4)。見出し語の一覧では、見出し語とする単語のみを一覧表示しても良いし、検索結果画面D4,D5と同様に見出し語に対応する各情報を表示させても良い。単語のみを一覧表示する場合には、一覧表示中から単語が選択されることにより、選択された単語(見出し語)に対応する検索結果画面を表示させる。
これにより、特定分野のパート毎に、頻出する単語を効率的に検索して学習することができる。
また、検索結果画面D4,D5において、関連語とする単語が選択された場合(ステップB7、YES)、CPU11は、選択された単語(関連語)を検索ワードとして、前述したように特定分野辞書データ12dを検索して、検索された検索ワード(関連語)に対応する検索結果画面をタッチパネル式表示部17において表示させる(ステップB8)。すなわち、検索結果画面D4,D5において、関連語とする単語を指定するだけで、関連語の単語の情報にジャンプすることができる。
なお、特定分野辞書に登録された関連語の単語と対応づけて、特定分野辞書における単語の情報が記憶された場所を示す情報(リンク情報)を記憶させておくことで、関連語の単語を検索ワードとして、特定分野辞書を検索するのではなく、リンク情報を参照して情報の記憶場所から読み出すようにしても良い。例えば、図7に示す関連語の単語「software」と対応づけて、見出し語「software」と対応する各情報が記憶された場所を示すリンク情報を記憶させておく。CPU11は、リンク情報が示す場所から、見出し語「software」と対応する各情報を読み出して表示する。
これにより、見出し語と関連度の高い他の単語(関連語)についても、簡単に単語と対応づけられた各情報を参照することができるので、効率的に学習することが可能となる。
このようにして、本実施形態における電子辞書10では、特定の分野の文書を対象として、ユーザが必要とする単語を効率的に抽出し、学習することができ学習効率の向上を図ることができる。
なお、前述した実施形態では、英語のテキストデータをもとに特定分野辞書を作成する例について説明しているが、他の言語のテキストデータについても同様に特定分野辞書を作成することが可能である。また、見出し語に対応する意味(語義)の情報が対応づけられた言語系の特定分野辞書を作成する例について説明しているが、見出し語に対応づけて意味以外の各種情報を対応付けた、各種の特定分野辞書(辞典)を作成することが可能である。
また、実施形態において記載した手法、すなわちフローチャートに示す処理等の各手法は、コンピュータに実行させることができるプログラムとして、メモリカード(ROMカード、RAMカード等)、磁気ディスク(フレキシブルディスク、ハードディスク等)、光ディスク(CD-ROM、DVD等)、半導体メモリ等の記録媒体に格納して配布することができる。そして、コンピュータは、外部記録媒体に記録されたプログラムを読み込み、このプログラムによって動作が制御されることにより、実施形態において説明した機能と同様の処理を実現することができる。
また、各手法を実現するためのプログラムのデータは、プログラムコードの形態としてネットワーク(インターネット)上を伝送させることができ、このネットワーク(インターネット)に接続されたコンピュータ(サーバ装置等)からプログラムデータを取り込み、前述した実施形態と同様の機能を実現することもできる。
なお、本願発明は、実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。さらに、実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適宜な組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件から幾つかの構成要件が削除されたり、幾つかの構成要件が組み合わされても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除されたり組み合わされた構成が発明として抽出され得るものである。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[1]特定分野に属する文書データから抽出された複数の単語それぞれを見出し語とし、複数の前記見出し語のそれぞれに対応付けて、前記特定分野に属する文書データにおいて前記見出し語との関連度が所定以上であると判断される単語である関連語を含む情報が記憶された第1辞書データと、
指定された見出し語に対応する前記情報を前記第1辞書データから検索し、検索された前記情報を、前記関連語を含めて表示させる制御部を有する検索装置。
[2]前記第1辞書データの前記関連語は、前記特定分野に属する文書データにおける前記見出し語と他の単語との位置関係に基づく関連度が所定以上であると判断される単語である、[1]記載の検索装置。
[3]前記第1辞書データの前記見出し語は、前記特定分野に属する複数の異なる文書データから抽出された単語であり、
前記第1辞書データの前記関連語は、前記特定分野に属する複数の文書データを対象として、前記文書データに含まれる各見出し語と他の単語との位置関係に基づく関連度を算出することにより、前記文書データに含まれる各見出し語との関連度が所定以上であると判断された単語である、[1]記載の検索装置。
[4]前記第1辞書データに対応する複数の第1見出し語の集合とは異なる、複数の第2見出し語の集合を対象として、前記第2見出し語のそれぞれに対応する情報が記憶された第2辞書データをさらに有し、
前記制御部は、
前記第1辞書データあるいは前記第2辞書データを選択し、
指定された見出し語に対応する情報を、選択した前記第1辞書データあるいは前記第2辞書データから検索する[1]記載の検索装置。
[5]前記第1辞書データに含まれる1つの見出し語に対して複数の関連語が対応付けられており、
前記複数の関連語は、第1分類に関係する文書データにおける関連度が所定以上の単語である第1関連語と、前記第1分類とは異なる第2分類に属する文書データにおける関連度が所定以上の単語である第2関連語とを含む、[1]記載の検索装置。
[6]前記制御部は、
前記第1辞書データを作成するための特定の文書データを取得し、
前記特定の文書データから抽出される単語を見出し語対象として指定し、
前記特定の文書データから抽出される複数の単語を関連語候補として指定し、
前記見出し語対象と複数の関連語候補との位置関係に基づいて、前記見出し語対象と複数の関連語候補とのそれぞれの関連度を求め、
複数の関連語候補のそれぞれの関連度をもとに、前記見出し語対象に対する関連語を特定し、
前記見出し語対象を見出し語とし、前記見出し語に対応する情報に前記関連語を含めて前記第1辞書データに追加する、[1]記載の検索装置。
[7]前記制御部は、
ジャンル毎に分類された複数のテキストデータを取得し、
ジャンル毎に、テキストデータにおける見出し語と関連語との関連度を求め、
前記関連度が所定以上である関連語に対応するジャンルを、見出し語に対応づけて前記第1辞書データに追加し、
指定された見出し語に対応する情報を前記第1辞書データから検索し、前記情報に含まれる前記関連語と共に前記ジャンルを表示させる、[1]記載の検索装置。
[8]前記制御部は、
前記第1辞書データには、1つの見出し語に対応づけて複数の異なるジャンルを対応づけて追加し、
指定された見出し語とジャンルに対応する情報を前記第1辞書データから検索し、指定された見出し語に対応する前記情報に含まれる、指定されたジャンルに対応する前記関連語を優先して表示させる、[7]記載の検索装置。
[9]前記第1辞書データは、TOEIC(Test of English for International Communication)に関係する文書データを前記特定分野の文書データとして、前記見出し語との関連語を含む情報が記憶されたTOEIC用の特定分野辞書データを含み、
前記制御部は、
TOEICが選択された場合に、前記第1辞書データからTOEIC用の特定分野辞書データを選択して、指定された見出し語に対応する情報を検索する、[1]記載の検索装置。
[10]前記TOEICに関係する文書データは複数のパートの何れかに対応するテキストデータを含み、
前記特定分野辞書データには、前記関連語が含まれるテキストデータに対応するパートの情報が、前記見出し語と対応づけて記憶され、
前記制御部は、
指定された見出し語とパートに対応する情報を、前記特定分野辞書データから検索する、[9]記載の検索装置。
[11]前記TOEICに関係する文書データは複数の文書内容を示すジャンルの何れかに対応するテキストデータを含み、
前記特定分野辞書データには、前記見出し語に対応する複数の意味情報のそれぞれに対して、前記見出し語が用いられる文書データの内容を示すジャンルの情報を対応づけて記憶させ、
前記制御部は、
指定された見出し語に対応する情報を前記特定分野辞書データから検索し、前記複数の意味情報とそれぞれに対応するジャンルとを表示させる、[9]記載の検索装置。
[12]前記文書データにおける前記見出し語と前記関連語との距離が近いほど高くなる関連度を求める、[6]または[7]に記載の検索装置。
[13]前記制御部は、
表示された前記関連語を指定する操作を検出した場合に、前記関連語を見出し語として前記第1辞書データを検索する、[1]記載の検索装置。
[14]電子機器により実行される辞書データ作成方法であって、
辞書データを作成するための特定の文書データを取得し、
前記特定の文書データから抽出される単語を見出し語対象として指定し、
前記特定の文書データから抽出される複数の単語を関連語候補として指定し、
前記見出し語対象と複数の関連語候補との位置関係に基づいて、前記見出し語対象と複数の関連語候補とのそれぞれの関連度を求め、
複数の関連語候補のそれぞれの関連度をもとに、前記見出し語対象に対する関連語を特定し、
前記見出し語対象を見出し語とし、特定した前記関連語を含む情報を前記見出し語と対応づけた辞書データを記憶させる、辞書データ作成方法。
[15]前記文書データにおける前記見出し語対象と前記関連語候補との距離が近いほど高くなる関連度を求める、[14]記載の辞書データ作成方法。
[16]コンピュータに、
辞書データを作成するための特定の文書データを取得させ、
前記特定の文書データから抽出される単語を見出し語対象として指定させ、
前記特定の文書データから抽出される複数の単語を関連語候補として指定させ、
前記見出し語対象と複数の関連語候補との位置関係に基づいて、前記見出し語対象と複数の関連語候補とのそれぞれの関連度を求めさせ、
複数の関連語候補のそれぞれの関連度をもとに、前記見出し語対象に対する関連語を特定させ、
前記見出し語対象を見出し語とし、特定した前記関連語を含む情報を前記見出し語と対応づけた辞書データを記憶させるための辞書作成プログラム。
10 …電子辞書
11 …CPU
12 …メモリ
12a…辞書制御処理プログラム
12b…辞書データ作成プログラム
12c…辞書データ
12d…特定分野辞書データ
12e…ジャンルリスト
12f…テキストデータ
13 …外部記録媒体
14 …記録媒体読取部
15 …通信部
16 …キー入力部
17 …タッチパネル式表示部
20 …サーバ

Claims (12)

  1. 特定分野に分類される第1文書データから抽出された複数の単語それぞれを見出し語とし、複数の前記見出し語のそれぞれに対応付けて、前記見出し語の意味を含む語義情報および前記第1文書データにおいて前記見出し語との関連度が所定以上であると判断される単語である関連語を含む関連語情報が記憶された第1辞書データと、
    指定された見出し語に対応する前記語義情報および前記関連語情報を前記第1辞書データから検索し、検索された前記語義情報に含まれる意味および前記関連語情報に含まれる関連語を表示させる制御部を有し、
    前記関連語情報は、複数の関連語と、前記第1文書データにおいて前記複数の関連語のそれぞれが出現する各範囲の文章の内容を表す分類であるジャンルの情報とを含み、
    前記制御部は、ユーザにより見出し語およびジャンルが指定された場合に、前記指定された見出し語に対応する前記関連語情報に含まれる複数の関連語のうち、前記指定されたジャンルに分類される文章の範囲に出現する関連語を優先して表示させる、
    検索装置。
  2. 前記制御部は、ユーザにより見出し語とジャンルが指定された場合に、指定された見出し語に対応する前記関連語情報に含まれる複数の関連語を表示させるとともに、前記複数の関連語それぞれが出現する文章の範囲に対応するジャンルを表示させる、請求項1記載の検索装置。
  3. 前記制御部は、指定された見出し語に対応する複数の関連語を並べて表示させる場合に、前記指定されたジャンルに分類される文章の範囲に出現する関連語を優先して上位に並べ変えて表示させる、請求項2記載の検索装置。
  4. 前記語義情報は、前記見出し語が使用される複数の文章のそれぞれにおける前記見出し語の意味と、前記見出し語が各意味で使用される文章の内容を表す分類であって、前記関連語情報に含まれる複数のジャンルに対応するジャンルの情報を含み、
    前記制御部は、ユーザにより見出し語とジャンルが指定された場合に、指定された見出し語に対応する複数の意味および複数の関連語のうち、指定されたジャンルに分類される文章で使用される場合の意味および指定されたジャンルに分類される文章の範囲に出現する関連語を優先して表示する、請求項1記載の検索装置。
  5. 前記制御部は、ユーザにより指定された見出し語に対応する複数の意味および複数の関連語を表示させるとともに、前記複数の意味それぞれに対応するジャンルおよび前記複数の関連語それぞれに対応するジャンルを表示させる、請求項4記載の検索装置。
  6. 前記制御部は、指定された見出し語に対応する複数の意味および複数の関連語を並べて表示させる場合に、前記指定されたジャンルに分類される文章で使用される場合の意味を優先して上位に並べ変えて表示させるとともに、前記指定されたジャンルに分類される文章の範囲に出現する関連語を優先して上位に並べ変えて表示させる、請求項5記載の検索装置。
  7. 前記第1辞書データの前記関連語は、前記第1文書データにおける前記見出し語と他の単語との位置関係に基づく関連度が所定以上であると判断される単語である、請求項1記載の検索装置。
  8. 前記第1文書データは、文書データが対象としている試験問題の種類による分類においてTOEIC(Test of English for International Communication)の分野に分類される文書データであり
    前記制御部は、複数種類の試験問題の中からTOEICが選択された場合に、TOEICの試験問題に関する文書データから抽出された複数の単語を見出し語とする辞書データを前記第1辞書データとして選択して、指定された見出し語に対応する前記語義情報および前記関連語情報を検索する、請求項1記載の検索装置。
  9. 前記TOEICの試験問題に関する文書データは複数のパートの何れかに対応するテキストデータを含み、
    前記TOEICの試験問題に関する辞書データには、前記関連語が含まれるテキストデータに対応するパートの情報が、前記見出し語と対応づけて記憶され、
    前記制御部は、
    複数種類の試験問題の中からTOEICが選択された場合に、指定された見出し語とパートに対応する情報を、前記第1辞書データから検索する、請求項8記載の検索装置。
  10. 前記制御部は、
    表示された前記関連語を指定する操作を検出した場合に、前記関連語を見出し語として前記第1辞書データを検索する、請求項1記載の検索装置。
  11. 電子機器により実行される辞書検索方法であって、
    特定分野に分類される第1文書データから抽出された複数の単語それぞれを見出し語とし、複数の前記見出し語のそれぞれに対応付けて、前記見出し語の意味を含む語義情報および前記第1文書データにおいて前記見出し語との関連度が所定以上であると判断される単語である関連語を含む関連語情報が記憶された第1辞書データから、指定された見出し語に対応する前記語義情報および前記関連語情報を検索し、
    検索された前記語義情報に含まれる意味および前記関連語情報に含まれる関連語を表示させ、
    前記関連語情報は、複数の関連語と、前記第1文書データにおいて前記複数の関連語のそれぞれが出現する各範囲の文章の内容を表す分類であるジャンルの情報とを含み、
    ユーザにより見出し語およびジャンルが指定された場合に、前記指定された見出し語に対応する前記関連語情報に含まれる複数の関連語のうち、前記指定されたジャンルに分類される文章の範囲に出現する関連語を優先して表示させる、
    辞書検索方法。
  12. コンピュータに、
    特定分野に分類される第1文書データから抽出された複数の単語それぞれを見出し語とし、複数の前記見出し語のそれぞれに対応付けて、前記見出し語の意味を含む語義情報および前記第1文書データにおいて前記見出し語との関連度が所定以上であると判断される単語である関連語を含む関連語情報が記憶された第1辞書データから、指定された見出し語に対応する前記語義情報および前記関連語情報を検索し、
    検索された前記語義情報に含まれる意味および前記関連語情報に含まれる関連語を表示させ、
    前記関連語情報は、複数の関連語と、前記第1文書データにおいて前記複数の関連語のそれぞれが出現する各範囲の文章の内容を表す分類であるジャンルの情報とを含み、
    ユーザにより見出し語およびジャンルが指定された場合に、前記指定された見出し語に対応する前記関連語情報に含まれる複数の関連語のうち、前記指定されたジャンルに分類される文章の範囲に出現する関連語を優先して表示させる、
    処理を実行させるための辞書検索プログラム。
JP2019056157A 2019-03-25 2019-03-25 検索装置、辞書検索プログラム、辞書検索方法 Active JP7443667B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019056157A JP7443667B2 (ja) 2019-03-25 2019-03-25 検索装置、辞書検索プログラム、辞書検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019056157A JP7443667B2 (ja) 2019-03-25 2019-03-25 検索装置、辞書検索プログラム、辞書検索方法

Publications (2)

Publication Number Publication Date
JP2020160514A JP2020160514A (ja) 2020-10-01
JP7443667B2 true JP7443667B2 (ja) 2024-03-06

Family

ID=72643328

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019056157A Active JP7443667B2 (ja) 2019-03-25 2019-03-25 検索装置、辞書検索プログラム、辞書検索方法

Country Status (1)

Country Link
JP (1) JP7443667B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117851538B (zh) * 2024-03-07 2024-07-12 济南浪潮数据技术有限公司 一种分布式检索方法、系统、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271631A (ja) 2002-03-13 2003-09-26 Ntt Data Technology Corp 特許文献検索方法及び装置
JP2005250916A (ja) 2004-03-05 2005-09-15 Senku:Kk 電子文書の話題単語関連図作成方法
JP2006031351A (ja) 2004-07-15 2006-02-02 Casio Comput Co Ltd 情報表示制御装置、サーバ及びプログラム
JP2008193377A (ja) 2007-02-05 2008-08-21 Seiko Epson Corp 記録装置、電子機器、記録方法、および、プログラム
JP2011186972A (ja) 2010-03-11 2011-09-22 Nec Corp 関連語辞書作成装置、関連語辞書作成方法、プログラム、及び、文書検索システム
JP2013008372A (ja) 2010-11-10 2013-01-10 Rakuten Inc 関連語登録装置、情報処理装置、関連語登録方法、関連語登録装置用プログラム、および、記録媒体
JP2013152594A (ja) 2012-01-25 2013-08-08 Casio Comput Co Ltd 電子辞書装置およびプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271631A (ja) 2002-03-13 2003-09-26 Ntt Data Technology Corp 特許文献検索方法及び装置
JP2005250916A (ja) 2004-03-05 2005-09-15 Senku:Kk 電子文書の話題単語関連図作成方法
JP2006031351A (ja) 2004-07-15 2006-02-02 Casio Comput Co Ltd 情報表示制御装置、サーバ及びプログラム
JP2008193377A (ja) 2007-02-05 2008-08-21 Seiko Epson Corp 記録装置、電子機器、記録方法、および、プログラム
JP2011186972A (ja) 2010-03-11 2011-09-22 Nec Corp 関連語辞書作成装置、関連語辞書作成方法、プログラム、及び、文書検索システム
JP2013008372A (ja) 2010-11-10 2013-01-10 Rakuten Inc 関連語登録装置、情報処理装置、関連語登録方法、関連語登録装置用プログラム、および、記録媒体
JP2013152594A (ja) 2012-01-25 2013-08-08 Casio Comput Co Ltd 電子辞書装置およびプログラム

Also Published As

Publication number Publication date
JP2020160514A (ja) 2020-10-01

Similar Documents

Publication Publication Date Title
Hogenboom et al. Multi-lingual support for lexicon-based sentiment analysis guided by semantics
TWI470450B (zh) 多合一中文輸入方法及其電子裝置
JP2003248676A (ja) 解データ編集処理装置、解データ編集処理方法、自動要約処理装置、および自動要約処理方法
KR20040102071A (ko) 자연어 인식 애플리케이션 구축을 위한 통합 개발 툴
KR101318712B1 (ko) 사전 정보 표시 장치
US20090112845A1 (en) System and method for language sensitive contextual searching
JP2014106665A (ja) 文書検索装置、文書検索方法
Jackson Corpus and concordance: Finding out about style
Wilson et al. Advanced corpus solutions for humanities researchers
JP7443667B2 (ja) 検索装置、辞書検索プログラム、辞書検索方法
Ariffin et al. Review on Cultural Design Elements for Mobile Applications User Interface.
JP2012230544A (ja) 画像検索装置およびプログラム
JP5269399B2 (ja) 構造化文書検索装置、方法およびプログラム
JP5877775B2 (ja) コンテンツ管理装置、コンテンツ管理システム、コンテンツ管理方法、プログラム、及び記憶媒体
JP4972271B2 (ja) 検索結果提示装置
JP2018156552A (ja) 計算機システム及び文章データの検索方法
JP2004118476A (ja) 電子辞書装置、電子辞書の検索結果表示方法、プログラムおよび記録媒体
JP4301879B2 (ja) 抄録作成支援システム及び特許文献検索システム
JP7047825B2 (ja) 検索装置、検索方法、検索プログラム
JP7439429B2 (ja) 検索装置、検索方法、検索プログラム
JP2004220226A (ja) 検索文書のための文書分類方法及び装置
JP7379839B2 (ja) 文検索装置、文検索プログラム
JP5998779B2 (ja) 検索装置、検索方法、及びプログラム
JP7293782B2 (ja) 電子機器、テキスト表示方法およびプログラム
JP7304008B1 (ja) 情報処理装置、情報制御方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220316

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20230104

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230601

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230919

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240123

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240205

R150 Certificate of patent or registration of utility model

Ref document number: 7443667

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150