JP2004192344A

JP2004192344A - 情報処理装置

Info

Publication number: JP2004192344A
Application number: JP2002359742A
Authority: JP
Inventors: Masumi Tabuchi; 眞澄田渕; Ichiro Arita; 一郎有田
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2002-12-11
Filing date: 2002-12-11
Publication date: 2004-07-08

Abstract

【課題】辞書検索機能を有する情報処理装置に関し、見出し語として用いられない文字、記号を含む文章でも、簡単な操作で検索ができるようにすることを課題とする。
【解決手段】画面上に表示された文章の中から、所望の文字列を選択する文字列選択部と、選択された文字列から、予め設定登録された文字および記号を削除した検索文字列を抽出する文字列抽出部と、検索文字列を用いて辞書検索を行なう検索部とを備えたことを特徴とする。
【選択図】図４

Description

【０００１】
【発明の属する技術分野】
この発明は、情報処理装置に関し、特に画面上に表示された文字列に対して、辞書検索を行う機能を有する情報処理装置に関する。
【０００２】
【従来の技術】
国語辞典、英和辞典、和英辞典などが電子化された電子辞書がすでに利用されている。例えば、意味を調べたい英単語を入力したり、文章中の英単語を選択することにより、その英単語の意味あるいは説明文が表示される。
この説明文の中に、さらに分らない英語表現や、調べたい英単語が出てきた場合には、通常英単語はスペースで区切られて独立しているので、その英単語を単に選択するだけで容易に切り出すことがき、さらにその英単語を検索して意味を表示させることが実現されている。
【０００３】
しかし、日本語の文章は、単語ごとに分けて表記するものではないので、調べたい単語を簡単に選択することは難しい。そのため従来は例えば、日本語文章中の調べたい語句の始めの文字と終わりの文字を指定する操作をして検索文字列を選択した後、辞書検索をしてその意味を表示するようにしていた。このとき、検索文字列と完全一致した見出し語だけが検索候補として抽出されていた。
【０００４】
また、日本語の文章中の語句の検索や形態素抽出の方法として種々のものが提案されている（例えば特許文献１、２、３参照）。
【０００５】
【特許文献１】
特公平２５７９９７６号公報（第４頁，第３図）
【特許文献２】
特公平２６８４１３８号公報（第４頁，第５頁）
【特許文献３】
特公平２９３３３６７号公報（第３頁，第５頁，第５図）
【０００６】
特許文献１には、テキスト中に意味不明の語句があった場合、その語句中の任意の１つの文字を指定することによって、その文字を任意の位置に含む複数の文字列を検索対象として抽出し、電子辞書の検索操作回数を減らすようにした電子辞書の検索方法が記載されている。
また、特許文献２には、見出し語の先頭文字とその活用文字列の最大長の情報を含む見出し長存在判定テーブルを備え、見出し対応文字列の範囲を効率よく決定して辞書検索回数を削減した日本語形態素解析システムが記載されている。
さらに、特許文献３には、登録語句ごとに、ポインタインクリメント情報と検索補助情報とを記憶し、直前の辞書引き処理で抽出した最長の形態素に対するポインタインクリメント情報と検索補助情報とを取り出して次の検索を行なう日本語形態素抽出方法が記載されている。
【０００７】
【発明が解決しようとする課題】
しかし、従来の検索方法を用いたとしても、次のような文字列に対しては、適切な検索や形態素抽出ができない場合がある。
例えば、「蟷螂の斧」という文字列が含まれた文章があり、この文字列「蟷螂の斧」の意味を調べるために辞書検索したいと仮定する。ここで、「蟷螂の斧」という４文字からなる文字列がそのまま文章中に存在し、「蟷螂の斧」という見出し語が辞書中に存在する場合は、特許文献１の検索方法でも検索可能である。
【０００８】
しかし、文章に含まれている文字列が、「蟷螂（とうろう）の斧」というように、「蟷螂」の読みがカッコ書きで含まれた１０文字の文字列である場合には、一般に見出し語の中に「（とうろう）」という文字列は含まれていないので、単にこの１０文字の文字列を選択しただけでは、辞書の中に登録された「蟷螂の斧」を検索することはできない。
特に、特許文献１に記載の検索方法では、「蟷螂（とうろう）の斧」という文字列に対して、現在のポインタが「蟷」を示していたとすると、「蟷螂」という文字列は抽出できるが、「（とうろう）」という文字列が存在するために、「蟷螂の斧」という文字列は抽出できない。
【０００９】
また、特許文献２および３に記載された形態素抽出方法では、「蟷螂（とうろう）の斧」という文字列に対して形態素解析をしたとすると、名詞「蟷螂」、記号「（」、名詞「とうろう」、記号「）」、助詞「の」、名詞「斧」という６つの形態素に分解されるだけで、「（とうろう）」の部分を含まない「蟷螂の斧」を抽出することはできない。
したがって、辞書の中に「蟷螂の斧」という４文字からなる見出し語があったとしても、これを検索することができずに、そのような用語はないというような表示がされることになる。
【００１０】
そこで、この発明は、以上のような事情を考慮してなされたものであり、辞書の見出し語の中に現れる文字等とそうでない文字等を区別して予め設定しておくことにより、検索対象の文章の中に見出し語として直接登録されていない文字列が含まれていたとしても、その中に含まれる見出し語に相当する文字列を抽出して検索することを可能とする情報処理装置を提供することを課題とする。
【００１１】
【課題を解決するための手段】
この発明は、画面上に表示された文章の中から、所望の文字列を選択する文字列選択部と、選択された文字列から、予め設定登録された文字および記号を削除した検索文字列を抽出する文字列抽出部と、検索文字列を用いて辞書検索を行なう検索部とを備えたことを特徴とする情報処理装置を提供するものである。
これによれば、辞書の見出し語に現れることのない文字や記号が含まれる文章でも、容易な操作で所望の文字列の辞書検索が可能となり、辞書検索時の利用者の操作性を向上できる。
【００１２】
この発明の文字列選択部、文字列抽出部、検索部は、ＣＰＵを中心として、ＲＡＭ、ＲＯＭ、タイマー、Ｉ／Ｏコントローラ等からなるマイクロコンピュータにより構成できる。
また、これらの各部の機能は、ＲＡＭ、ＲＯＭ等のメモリに記載されたプログラムとプログラムに基づいて動作するハードウェアとによって実現される。
プログラムは、ＲＡＭ、ＲＯＭ等の半導体メモリに記憶される場合の他、ＦＤ、ＨＤ、ＭＤ、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、ＩＣカード、などの種々の記録媒体に格納された形態で提供できる。
また、電気通信回路を通した通信により、遠隔地のサーバからダウンロードする形態でも提供できる。
【００１３】
この発明において、選択文字列とは、ＣＲＴやＬＣＤ等の表示画面に表示された文章において、利用者の特定の指示入力により切り出された文字列を言い、漢字、ひらがな、かたかな、数字、アルファベットの他、種々の記号も含まれた文字列であってもよい。
予め設定登録された文字および記号は、特定の記録領域（設定文字メモリと呼ぶ）に格納されているが、ＲＯＭ等に固定的に記憶された形態で提供される他、ＲＡＭ、ＨＤ等に記憶させ、利用者が書き換え可能な形態で提供してもよい。
【００１４】
【発明の実施の形態】
この発明は、表示された文章中に、見出し語となるべき文字列の間に特殊な記号や文字が含まれる場合においても、その特殊な記号等を削除する操作をすることなく、見出し語に相当する部分の文字列を抽出する情報処理装置であり、簡単な操作をするだけで調べたい文字列の検索が可能となり、辞書検索処理における利用者の操作性を向上させることができる。
【００１５】
また、この発明は、画面上に表示された文章の中から、所望の文字列を選択する文字列選択部と、選択された文字列から、予め設定登録された２つ以上の文字および記号と、前記設定登録された特定の２つの文字または記号に挟まれた文字列とを削除した検索文字列を抽出する文字列抽出部と、検索文字列を用いて辞書検索を行なう検索部とを備えたことを特徴とする情報処理装置を提供するものである。
【００１６】
さらに、この発明は、入力部と、表示部と、見出し語とその意味内容からなる辞書を記憶した第１記憶部と、特定の文字および記号を予め記憶した第２記憶部と、前記表示部に表示された文字列のうち入力部からの指示入力により選択された選択文字列を記憶した第３記憶部と、見出し語の検索に用いられる検索文字列を記憶した第４記憶部と、前記第３記憶部に記憶された選択文字列の中から、前記第２記憶部に記憶された特定文字または記号を除いた文字列を抽出して前記第４記憶部に検索文字列として記憶させる文字列抽出部と、前記検索文字列に対応する第１記憶部の辞書の見出し語を検索する検索部とを備えたことを特徴とする情報処理装置を提供するものである。
ここで、各記憶部は、半導体メモリや記録媒体、記録装置を用いることができるが、辞書を記憶した第１記憶部は、ＲＯＭ、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、ＨＤ等の比較的大容量の読み出し専用のメモリを用いることが好ましく、第２、第３および第４記憶部は、書き換え可能なメモリ、例えば、ＲＡＭ、ＨＤを用いることが好ましい。特に第４記憶部は、不揮発性のメモリ（フラッシュメモリ、ＨＤ）が好ましい。
【００１７】
また、この発明は、画面上に表示された文章の中から所望の文字列を選択させ、選択された文字列から予め設定登録された文字および記号を削除した検索文字列を抽出し、検索文字列を用いて辞書検索を行なうことを特徴とする情報処理装置の検索方法を提供するものである。
ここで、前記選択された文字列から、設定登録された特定の２つの文字または記号に挟まれた文字列もさらに削除した検索文字列を抽出するようにしてもよい。これによれば、辞書検索時の利用者の操作性を向上できる。
【００１８】
さらに、この発明は、画面上に表示された文章の中から検索候補とすべき最初の一文字を指示入力させ、入力された最初の一文字とそれ以後に存在する文字列群とからなる任意長の文字列を選択し、選択された異なる文字長の文字列のそれぞれについて、予め設定登録された文字および記号を削除した検索文字列を抽出し、抽出された検索文字列を用いて辞書検索を行ない、一致する見出し語が見つかった検索文字列を選択可能なように表示させることを特徴とする情報処理装置の検索方法を提供するものである。
ここで、前記選択された異なる文字長の文字列のそれぞれについて、予め設定登録された特定の２つの文字または記号に挟まれた文字列も削除した検索文字列を抽出するようにしてもよい。これによれば、利用者は最初の一文字を指示入力すればよいので、文字列の選択操作をより容易にすることができる。
【００１９】
また、この発明は、コンピュータに、画面上に表示された文章の中から所望の文字列を選択させる機能、選択された文字列から予め設定登録された文字および記号を削除した検索文字列を抽出する機能、検索文字列を用いて辞書検索を行なう機能を実現させるためのプログラムを提供するものである。
さらに、コンピュータに、画面上に表示された文章の中から検索候補とすべき最初の一文字を指示入力させる機能、入力された最初の一文字とそれ以後に存在する文字列群とからなる任意長の文字列を選択する機能、選択された異なる文字長の文字列のそれぞれについて、予め設定登録された文字および記号を削除した検索文字列を抽出する機能、抽出された検索文字列を用いて辞書検索を行ない、一致する見出し語が見つかった検索文字列を選択可能なように表示させる機能を実現させるためのプログラムを提供するものである。
プログラムは、ＦＤ、ＨＤ、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ等の記録媒体に格納された形態や、電気通信回線を介してそのプログラムが格納されたサーバからダウンロードする形態で提供され、実行時には主記録に実行可能な形式で読み出される。
【００２０】
以下、図に示す実施例に基づいて、この発明を具体的に説明する。なお、この発明はこれらに限定されるものではない。
【００２１】
〈情報処理装置の構成〉
図１に、この発明の情報処理装置の構成ブロック図を示す。この発明の情報処理装置は、主として、入力部１、制御部２、表示部３、辞書メモリ４、データメモリ５、設定文字メモリ６とから構成される。
情報処理装置は、デスクトップパソコン、ノート型パソコン、ＰＤＡ、電子辞書、携帯電話、その他文字等の入力および表示機能を持つ装置を意味し、携帯性を有する小型の情報端末でもよい。
【００２２】
入力部1は、文字、記号、図形、画像等の電子データを入力する部分であり、キーボードの他、マウス、ペン、タブレットなどのポインティングデバイス、タッチパネル、文字認識装置、マイク、音声認識装置、スキャナ、ＣＣＤカメラ等が用いられ、文字、記号等がいわゆる電子データとして入力できるように構成されていればよい。
【００２３】
制御部２は、主として文字列抽出部と検索部の２つの機能ブロックからなり、この発明の入力機能、表示機能、電子データの加工機能等を制御する部分であり、例えばＣＰＵ、ＲＯＭ、ＲＡＭ、Ｉ／Ｏインタフェース、タイマー等から構成される。ＣＰＵがＲＯＭ等に記憶された制御プログラムに基づいて動作することにより、この発明の文字列抽出処理や検索処理が実現される。
表示部３は、情報を表示するための装置であり、ＣＲＴ、ＬＣＤ、ＥＬなどの種々のディスプレイを用いることができる。
【００２４】
辞書メモリ４は、国語辞典、漢和辞典、英和辞典、和英辞典、その他専門用語辞典などを記憶した記憶装置であり、ＲＯＭ、ＲＡＭなどの半導体メモリのほか、ＩＣカード型のメモリ、ＨＤ、ＦＤ、ＭＯ、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ等のディスク型メモリ等を用いることができる。
また、辞書メモリ４の内容および、この発明の情報処理装置の制御プログラムは、ネットワークに接続された外部の記憶装置やサーバ等からダウンロードして、内蔵されたＨＤ等の記憶装置に格納するようにしてもよい。
【００２５】
データメモリ５は、この発明の入力部から入力されたデータ、検索処理により生成されたデータおよび表示データ等を一時保存しておくメモリであり、ＲＡＭ等の書き換え可能なメモリを用いることができる。データメモリ５には、後述するような「選択文字列」、「検索文字列」、表示部に現在表示されている文章に関する情報が格納される。
【００２６】
設定文字メモリ６は、後述するこの発明の文字列抽出処理で用いるメモリであり、予め設定された文字、記号が格納される。ここに格納される文字、記号は、製造時にＲＯＭの中に予め固定的に用意しておいてもよいが、利用者が後で自由に追加、削除ができるようにフラッシュメモリ等の書き換え可能な不揮発性メモリに記憶してもよい。
【００２７】
設定文字メモリ６に格納されている文字等を見出し語文字候補から除くという設計仕様の場合には、例えば、図２に示すような記号が、このメモリ６に格納される。
逆に設定文字メモリ６に格納されている文字等のみを、見出し語文字候補として選択するという設計仕様の場合には、例えば、全角漢字、ひらかな、カタカナ、英文字、数字がこのメモリ６に格納される。
以上が、この発明の情報処理装置の主要な構成であるが、この他に、ＬＡＮ、ブロードバンド、Ｂｌｕｅｔｏｏｔｈなどを介して情報通信するために、外部機器との接続のための各種インタフェース機能を備えてもよい。
【００２８】
〈実施例１〉
図２、図３、図４および図５を用いて、この発明の実施例1の文字列抽出処理と検索処理について説明する。
図２は、前記したように、見出し語文字候補から除かれる記号であり、設定文字メモリ６の中に格納されているものとする。この実施例では、設定文字メモリ６の中の記号は、見出し語となる文字を抽出する際に除かれる文字とする。
図３に、この発明の実施例1の見出し語候補となる文字列の抽出処理の概略説明図を示す。
図４に、この発明の実施例1の文字列抽出処理と検索処理のフローチャートを示す。
図５に、この発明の実施例1の文字列選択処理の説明図を示す。
この実施例1では、図５（ａ）に示すような文章が、表示部３に表示されているものとする。
【００２９】
まず、図３を用いて、見出し語候補の文字列抽出処理について説明する。
図５（ａ）の文章から選択文字列５１として「関ヶ原（※）の戦」が選択されたとする。次にこの選択文字列５１の先頭の文字から順に、設定文字メモリ６の中に含まれる文字か否かをチェックする。
ここで、設定文字メモリ６の中の記号は、見出し語候補とならない記号であるので、チェックしようとする文字がこのメモリ６に含まれれば、見出し語として無効、メモリ６に含まれなければ、その文字は有効と判断する。
【００３０】
「関ヶ原（※）の戦」という８文字の文字列については、まず「関」がチェックされるが、「関」は、設定文字メモリ６の中には含まれないので、見出し語として有効な文字と判断される。
次に「ヶ」がチェックされ、これも設定文字メモリ６には含まれないので、見出し語として有効な文字と判断される。
同様にして、「原」も有効な文字と判断される。
【００３１】
次に、「（」（開き括弧）がチェックされるが、これは設定文字メモリ６の中に含まれるので、見出し語として無効と判断される。
さらに、次の「※」、「）」（閉じ括弧）も、設定文字メモリ６の中に含まれるので、無効な文字と判断される。
次に、「の」、「戦」がチェックされるが、これらは有効な文字と判断される。
以上の一連のチェックにより、選択文字列５１のうち、「（」、「※」、「）」が無効な文字と判断され、見出し語として「関ヶ原の戦」という文字列のみが抽出される。
【００３２】
この後、「関ヶ原の戦」という５文字の文字列が検索文字列５２として採用され、この文字列と一致可能な文字列を辞書メモリ４の中から検索する。
辞書メモリ４の中に、見出し語として「関ヶ原の戦」という５文字の文字列があれば、その見出し語の意味内容が表示部３に表示される。文章中に出てくる文字列「関ヶ原（※）の戦」を、そのまま選択して検索するだけでは、一致する見出し語なしという結果となる可能性が高いが、このように見出し語候補とはならない記号「（」、「※」、「）」を自動的に除いて、残った文字列「関ヶ原の戦」について検索をかけるので、一致する見出し語が見つかり、所望の意味内容が表示できるようになる。
【００３３】
次に、図５を用いて、選択文字列５１を選択する手順について説明する。図５（ａ）のように表示部３に文章が表示されている状態で、利用者が「関ヶ原（※）の戦」の意味を調べようとする場合、図５（ｂ）に示すように、利用者はまず調べたい文字列の先頭の「関」の位置までカーソルを移動させる。カーソルの移動は、カーソル移動キーがあればそれを用い、なければマウスのようなポインティングデバイスを用いる。
そして、図５（ｂ）のように、「関」の位置にカーソルを移動させた後、この文字が、選択文字列５１の先頭となることを示す指示を入力する。例えば、専用の「先頭指示キー」があればそれを用い、なければ指示入力に相当する操作をすればよい。
【００３４】
次に、図５（ｃ）に示すように、利用者は調べたい文字列の末尾の文字である「戦」の位置にカーソルを移動させ、この文字が、選択文字列５１の末尾となることを示す指示入力をする。
この後、図５（ｄ）に示すように、「関ヶ原（※）の戦」という文字列が選択文字列５１として選択されたことが表示部３に表示される。
【００３５】
図５（ｄ）では、選択文字列５１を四角で囲んでいるが、この表示に限ることなく、実際の表示では、選択文字列５１が他の文章部分と区別できるような表示であればよい。例えば、選択文字列５１である「関ヶ原（※）の戦」に対して、下線の付加、点滅表示、強調表示、白黒反転表示、色の変更等の表示をすればよい。
以上の操作により、検索対象とすべき選択文字列５１が選択される。
なお、図５（ｄ）の表示の後、利用者が選択文字列５１を確認し、所定の指示入力をすれば、文字列抽出処理と検索処理が実行される。
【００３６】
次に、図４のフローチャートを用いて、この実施例１の文字列抽出処理と、検索処理について説明する。
図４のステップＳ１において、利用者が選択文字列５１の先頭の文字を指示する入力をすると、制御部２は、表示部３の画面上のカーソル位置の情報から、そのカーソル位置に表示されている文字が何であるかを調べ、その文字の表示位置を示す情報を、先頭位置アドレスとして、データメモリ５に記憶する。
【００３７】
次に、ステップＳ２において、利用者が選択文字列５１の末尾の文字を指示する入力をすると、制御部２は、その末尾の文字が何であるかを調べ、その文字の表示位置を示す情報を最終位置アドレスとして、データメモリ５に記憶する。
ステップＳ３において、先頭位置アドレスと最終位置アドレスとで挟まれた文字列を選択文字列５１として記憶する。例えば、図５に示した例では、「関ヶ原（※）の戦」という文字列が選択文字列５１として記憶される。
ステップＳ４において、検索文字列５２の候補を一時保存するための文字変数Ａをヌルに初期化する。
【００３８】
ステップＳ５において、選択文字列５１の中の先頭の文字を取り出す。図５の例では「関」が取り出される。
そして、ステップＳ６において、取り出された文字が、見出し語として有効な文字であるか否か判断する。
ここで、判断のために、図２に示したような設定文字メモリ６の内容が用いられる。
【００３９】
すなわち、取り出された文字が、設定文字メモリ６の中にあれば、見出し語として無効な文字と判断され、ステップＳ８へ進む。一方、設定文字メモリ６の中になければ見出し語として有効な文字と判断され、ステップＳ７へ進み、取り出された文字を文字変数Ａに追加する。取り出された文字が「関」という漢字の場合、図２の設定文字メモリ６の中には存在しないので、「関」は有効文字と判断され、文字変数Ａに追加されることになる。この時、文字変数Ａの内容は「関」となる。
【００４０】
次にステップＳ８において、選択文字列５１の中の末尾の文字について有効文字であるかどうかのチェックをしたか否か判断し、まだチェックしていない場合は、ステップＳ９へ進み、選択文字列５１の中から次の文字を取り出し、ステップＳ６へ戻り、その文字をチェックする。例えば、「関」のチェックをした後は、文字「ヶ」を取り出す。
この時、「ヶ」についても、設定文字メモリ６の中に存在するか否かがチェックされ、「ヶ」は有効文字であるので、文字変数Ａに追加される。文字変数Ａは「関ヶ」となる。
【００４１】
その後、同様に「原（※）の戦」の各文字についてステップＳ６からＳ９が繰り返される。
ステップＳ６で、「（」、「※」、「）」の各文字についてチェックした時、これらは図２の設定文字メモリ６の中に含まれるので、無効文字と判断され、文字変数Ａには追加されない。
したがって、末尾の文字「戦」までのチェックが終了した時は、文字変数Ａの内容は、「関ヶ原の戦」という文字列となる。
以上のステップＳ５からステップＳ９までの処理が、文字列抽出処理に相当する。
【００４２】
ステップＳ８で末尾の文字をチェックしたと判断した時は、ステップＳ１０へ進み、文字変数Ａの内容の文字列と一致する見出し語が辞書メモリ４の中にないかどうか調べる。すなわち、辞書検索を行なう。
ステップＳ１１において、見出し語が見つかった時は、ステップＳ１２へ進み、その見出し語に対応して格納されている辞書の内容を読み出して表示部３に表示する。
一方、見出し語がなかった時は、ステップＳ１３へ進み、該当する見出し語がない旨の表示を表示部３にする。
以上のステップＳ１０からＳ１３までの処理が、検索処理に相当する。
【００４３】
図５の例では、文字変数Ａとして文字列「関ヶ原の戦」が抽出されたので、「関ヶ原の戦」という文字列に一致する見出し語がないか否か調べられる。
一般に「関ヶ原の戦」という漢字のみからなる文字列が見出し語として辞書に登録されている可能性はあるが「（※）」のような特殊な記号を含む文字列「関ヶ原（※）の戦」が登録されている可能性は少ない。
【００４４】
したがって、表示された文章が「関ヶ原（※）の戦」の場合で、単にこの８文字の文字列をもとに検索したのでは、「該当見出し語なし」となる可能性が高いが、この発明では、表示された文章が、「関ヶ原の戦」または、「関ヶ原（※）の戦」のどちらであっても、「関ヶ原の戦」という文字列が辞書に見出し語として登録している限り、検索が成功する。すなわち、検索の柔軟性が高く、（※）の部分を除去するような特別な操作をすることもなく、利用者の操作性が向上できる。
この実施例によれば、選択文字列５１としては、「関ヶ原（※）の戦」という文字列の他、「関ヶ原※の戦」、「関ヶ原の戦（※）」、「関ヶ原※（の戦）」のように特殊な記号を含む場合も、同様にして「関ヶ原の戦」が検索文字列として抽出され、検索処理が実行できる。
【００４５】
〈実施例２〉
上記した実施例１では、利用者が先頭と末尾を指示することにより、選択文字列５１を選択した後、文字列抽出処理を実行したが、利用者が先頭の一文字のみを指示した直後に、文字列抽出処理および検索処理を実行するようにしてもよい。すなわち、実施例２では、末尾の指示入力を省略したことを特徴とする。
【００４６】
例えば、図５（ａ）の文章が表示されている状態で、図５（ｂ）のように、利用者が「関」を検索したい語句の先頭文字として指示入力したとする。
このとき、「関」について前方一致検索を行い、「関」を先頭に含む見出し語をすべて抽出する。そして、抽出された見出し語の中で「関」の文字の後方に続く文字列群に対して、一文字ずつ追加させたものを選択文字列５１として文字列抽出処理を実行し、さらに検索処理を実行する。文字列抽出処理では、追加した文字が図２に示した設定文字メモリに含まれるか否かをチェックする。含まれる場合は検索せずに、その文字を削除し、次の一文字を加えたものについて処理を続行する。
【００４７】
一方、含まれない場合は検索処理を行い、今注目している文字列と完全一致する見出し語が存在する場合は検索候補として、その文字列をデータメモリ５に保存しておく。この場合、検索候補として抽出される文字列は複数個存在する場合があるので、検索できた文字列に対する意味内容をいきなり表示するのではなく、複数の検索候補の文字列リストをまず表示させる。そして、この中から調べたい文字列を利用者が選択する操作をした後に、その選択された文字列に対応する意味内容を表示するようにする。これによれば、利用者は先頭文字のみの指示入力をするだけでよく、カーソルを移動させて末尾の文字を指示する必要がないので、より操作性を向上できる。
【００４８】
図５（ａ）の文章の場合、前方一致検索をするとすれば、先頭文字である「関」に続く文字列群が、文字列抽出と検索の対象となる。すなわち「関」から「である。」の「。」までの文字列が対象となる。
例えば、「関」、「関ヶ原」、「関ヶ原の戦」という３つの見出し語が辞書に登録されているとすると、前方一致検索により「関」を先頭に含むこの３つの見出し語が抽出される。
まず、「関」について文字列抽出処理が行われるが、「関」は図２には含まれないので、有効な検索対象文字として抽出され、検索処理が実行される。検索処理により、辞書の中に完全一致する見出し語が存在するので、「関」を検索候補文字列リストに入れる。
【００４９】
次に、「関」の後の一文字を追加させた文字列「関ヶ」について文字列抽出処理を行う。ここで、この文字列を構成する文字は全て図２には含まれないので、有効な文字として抽出され、検索処理が実行される。
すなわち、「関ヶ」について辞書検索が行なわれるが、これに完全一致する見出し語は存在しないので、検索は失敗し、「関ヶ」は検索候補文字列リストには登録されない。
【００５０】
次に、「原」を加えた「関ヶ原」について文字列抽出処理が行われる。この文字列を構成する文字は、有効な文字として抽出され、検索処理が実行される。この「関ヶ原」は完全一致する見出し語が存在するので、検索候補文字列リストに登録される。
【００５１】
次に、「（」を加えた「関ヶ原（」について文字列抽出処理が実行されるが、この「（」は、図２のメモリ中に存在するので、無効文字と判断されて抽出されず、検索処理は行われない。
同様に「関ヶ原（※」、「関ヶ原（※）」についても、文字列抽出処理において「※」、「）」が無効文字と判断されて抽出されず、検索処理は行われない。
【００５２】
次に、「の」が加えられた「関ヶ原（※）の」について文字列抽出処理が実行されるが、ここでは、「（※）」が無効文字で、「の」が有効文字と判断されるので、「（※）」の部分を除いた「関ヶ原の」が検索文字列５２として抽出されることになる。そして「関ヶ原の」について検索処理が実行される。しかし、「関ヶ原の」は辞書の中に完全一致する見出し語がないので、検索は失敗し、検索候補文字列リストには登録されない。
【００５３】
次に、「戦」を加えた「関ヶ原（※）の戦」について文字列抽出処理が実行されると、「（※）」の部分を除いた「関ヶ原の戦」が検索文字列５２として抽出され、検索処理により完全一致する見出し語があるので、「関が原の戦」が検索候補文字列リストに登録される。
【００５４】
次に、「と」を加えた「関ヶ原（※）の戦と」について文字列抽出処理および検索処理が行われるが、「（※）」の部分が除かれた「関ヶ原の戦と」は、完全一致する見出し語が存在しないので、検索は失敗する。
また、最初に行った前方一致検索で抽出された見出し語は、「関」、「関ヶ原」、「関ヶ原の戦」の３つであって、「関ヶ原の戦と」よりも長い完全一致可能な見出し語は存在しないので、検索処理はここで終了する。
【００５５】
したがって、結局検索候補文字列リストには、「関」、「関ヶ原」、「関ヶ原の戦」の３つの文字列が格納されることになる。
この３つの文字列が、検索候補として抽出された旨の表示をして、利用者に調べたい文字列を選択させるような表示をする。利用者が、入力部１のキー入力等により、調べたい文字列を選択する入力をすると、その選択した文字列を見出し語とする意味内容を辞書メモリから読み出して、画面上に表示する。
【００５６】
検索候補が複数個ある場合は、どれかを選択する操作をする必要があるが、先頭文字を指定入力するだけで、検索候補文字列リストが表示されるので、図２のような特殊な文字が含まれる場合の検索では、利用者の操作性を向上できる。
【００５７】
〈実施例３〉
上記実施例では、図２に示すような特殊な文字を除いて検索処理をする場合を説明したが、ここでは、特定の文字または記号で挟まれた部分に存在する文字全てを除いて検索処理をする実施例について、図６、図７および図８を用いて説明する。
図６に、この発明の実施例３の特定記号の説明図を示す。
図７に、この発明の実施例３の文字列抽出処理の説明図を示す。
図８に、この発明の実施例３の文字列抽出および検索処理のフローチャートを示す。
【００５８】
ここでは、図７に示すように、表示された文章の中に、「蟷螂（とうろう）の斧」という文字列が含まれていたとする。また、特定記号として、開き括弧「（」、閉じ括弧「）」が設定登録されていたとする。この実施例３では、特定記号「（」および「）」と、これらの特定記号で挟まれた部分の文字「とうろう」を除いた文字列「蟷螂の斧」を抽出し、これを検索文字列５２として採用する。「とうろう」という文字列は、図２に示したメモリには含まれていないので、実施例１では、無効文字とはせずに見出し語対象としていたが、実施例３では、この文字列は特定記号「（」と「）」に挟まれているので、無効文字と判断する。
【００５９】
ここで、特定記号としては、「（」と「）」の他に、図６に示すような種々の開き括弧と閉じ括弧を用いてもよい。
例えば、文章中に開き括弧として「｛」が存在した場合は、「｛」からこれと対になる閉じ括弧「｝」までの間に存在する文字列を無効文字と判断する。
図６に示した特定記号は、設定文字メモリ６の中に記憶しておき、文字列抽出処理の時に利用する。
なお、特定記号としては、図６に示すような括弧に関する記号に限るものではなく、他の記号や文字を用いてもよい。
例えば、特定記号として「％」を設定しておき、「あいう％えおかきく％けこ」という文字列の場合の2つの「％」で挟まれた「えおかきく」を無効文字と判断するようにしてもよい。
【００６０】
また、図２のような設定文字メモリ６がある場合において、どの記号を特定記号の最初の記号とし、どの記号を特定記号の末尾の記号とするかを設定入力するようにしてもよい。この場合には、利用者が設定した独自の最初の記号から独自の末尾の記号までの間に存在する文字列を無効文字として文字列抽出処理が実行される。
例えば、表示された文章中に「＠」や「＃」が特定記号として用いられており、「アカ＠サタナハ＃マヤラ」という文字列がある場合において、「＠」を最初の記号とし、「＃」を末尾の記号と設定しておけば、「サタナハ」が無効文字として取り扱われる。
【００６１】
次に、図８を用いて、実施例３の文字列抽出処理について説明する。
ここでは、特定文字としては、図６に示した開き括弧と閉じ括弧が用いられるものとする。
また、ステップＳ３１からＳ３５の処理は、図４の実施例１と同じである。
さらに、検索処理は、ステップＳ４３からＳ４６に示されているが、これは図４の実施例１の検索処理と同じである。
文字列抽出処理は、ステップＳ３５からＳ４２に示されているが、ステップＳ３６、Ｓ３７、Ｓ３８が実施例３で追加されたステップであり、他のステップは図４の実施例１と同じである。
【００６２】
図８において、実施例１と同様の処理を行い、選択文字列５１の先頭の文字を取り出す（ステップＳ３５）。
ステップＳ３６において、取り出した先頭の文字が、開き括弧か否かチェックする。
開き括弧でなければ、ステップＳ３９へ進み、実施例１のステップＳ６以降と同様の処理をする。
一方、開き括弧である場合は、ステップＳ３７へ進み、選択文字列５１の次の文字を取り出す。
【００６３】
ステップＳ３８において、取り出した文字が閉じ括弧か否かチェックする。閉じ括弧であれば、ステップＳ３９へ進み、閉じ括弧でなければ、ステップＳ３７へ戻り、さらに次の文字を取り出す。
このステップＳ３７およびＳ３８の処理は、開き括弧と閉じ括弧の間に存在する文字を無効文字とみなす処理に相当する。
【００６４】
ステップＳ３８で閉じ括弧が見つけられた場合は、ステップＳ３９へ進み、有効文字か否か判断されるが、閉じ括弧が、図２のメモリに設定されているものとすると、ステップＳ４１へ進み、ステップＳ４０を通らないので、開き括弧と閉じ括弧と共に、両括弧の間の文字も、文字変数Ａには加えられないことになる。
【００６５】
例えば、前記した「蟷螂（とうろう）の斧」が選択文字列５１の場合、「ステップＳ３６からＳ３９の処理により「（とうろう）」部分が無効文字と判断されることになる。その結果、文字列抽出処理が終了した時点（ステップＳ４１）では、文字変数Ａには「蟷螂の斧」という４文字の文字列が設定されることになる。この後、「蟷螂の斧」という文字変数Ａをもとに検索処理が行われる。
【００６６】
この実施例３では、以上のように、特定記号で挟まれた部分の文字列が図２のメモリに設定された文字でない場合も、無効文字とみなし、見出し語と一致可能な文字列部分のみを抽出して検索することができる。
【００６７】
また、実施例３では、特定記号で挟まれた文字列のほか、実施例１で示したような単独で存在する無効文字も除去して検索文字列５２を抽出することができる。
例えば、「ファン＝デル＝ワールス（オランダの物理学者）の状態式」という文字列が、選択文字列５１として選択されたとする。また、「＝」、「（」、「）」が図２のメモリに無効記号として設定され、「（」と「）」が特定記号として設定されているものとする。
【００６８】
この時、文字列抽出処理によって、２つの「＝」は、無効文字として除かれ、「（オランダの物理学者）」は、特定記号に挟まれているので、除かれる。
したがって、残りの「ファン」、「デル」、「ワールス」、「の状態式」の文字列が有効文字として判断され、文字変数Ａの内容は、「ファンデルワールスの状態式」となり、これが検索文字列５２として採用される。
【００６９】
〈実施例４〉
実施例３では、先頭の文字と、末尾の文字とを利用者が指示入力するようにしたが、実施例２と同様に、先頭の文字を指定するだけで、文字列抽出処理と検索処理を実行するようにしてもよい。この場合は、検索候補文字列リストに、見出し語として存在するいくつかの文字列が格納されることになり、利用者がこのリストの中から検索したい文字列を選択することにより、その意味内容が表示される。
【００７０】
以下、図９に示した具体例をもとに、実施例４の文字列抽出処理について説明する。
表示部３に、「テストでファン＝デル＝ワールス（オランダの物理学者）の状態式を説明せよという問題が出題された」という文章が表示されているものとする。
また、実施例３と同様に、「＝」、「（」、「）」が図２の設定文字メモリ６に設定され、「（」と「）」とが図６の特定記号として設定されているものとする。
また、辞書メモリ４の見出し語として、「ファ（音の名前〉」、「ファン（扇風機）」、「ファン（ひいきにする人）」、「ファンデルワールス」、「ファンデルワールスの状態式」が登録されているものとする。
【００７１】
この表示状態で、利用者が調べようとする語句の先頭文字として「フ」を選択する操作をしたとすると、この「フ」から始まり「た」で終わる文字列に対して、次のような文字列抽出処理および検索処理が実行され、図９に示すような５つの検索候補文字列リストが生成される。
まず、前方一致検索により、「フ」を先頭に持つ見出し語がすべて抽出される。
【００７２】
次に、「フ」が選択文字列５１として選択され、見出し語として有効な文字か否かチェックされ、これは有効な文字であるので、この「フ」をもとに完全一致する見出し語が検索される。
しかし、「フ」は見出し語として登録されていないので、検索は失敗する。
次に、「ファ」について文字列抽出処理と検索処理が実行される。「ファ」は有効文字列であるので、検索処理が実行され、完全一致する見出し語が見つかった場合、その見出し語「ファ（音の名前）」は、検索候補文字列リストの中に格納される。
【００７３】
次に、「ン」の文字列が追加された「ファン」について文字列抽出処理と検索処理が実行され、検索により完全一致する２つの見出し語「ファン（扇風機）」、「ファン（ひいきにする人）」が、検索候補文字列リストに格納される。
【００７４】
次に、「＝」が追加された「ファン＝」について文字列抽出処理が実行されるが、「＝」は図２のメモリ６に含まれているので、無効文字と判断され、検索処理は実行されない。
【００７５】
次に、「ファンデ」、「ファンデル」について、この順に文字列抽出処理と検索処理が実行されるが、いずれも完全一致する見出し語が見つけられないので、検索は失敗する。
次に、「ファンデル＝」について、文字列抽出処理が実行されるが、上記したように、「＝」は無効文字なので、検索処理は実行されない。
【００７６】
次に、「ファンデルワ」、「ファンデルワー」、「ファンデルワール」について、この順に文字列抽出処理と検索処理が実行されるが、いずれも完全一致する見出し語が見つけられないので、検索は失敗する。
次に、「ファンデルワールス」について、文字列抽出処理と検索処理が実行されるが、完全一致する見出し語が見つけられるので、「ファンデルワールス」が、検索候補文字列リストの中に追加される。
【００７７】
次に、「ファンデルワールス（」について、文字列抽出処理が行われるが、「（」という特定記号が検出されるので、次に対となる「）」という特定記号が検出されるまで、これらの特定文字の間の文字は全て無効文字として判断される。すなわち「オランダの物理学者」は無効文字と判断される。
【００７８】
したがって、「（」および「）」を含む「（オランダの物理学者）」の部分は無効文字列と判断され、次に「ファンデルワールスの」について、文字列抽出処理と検索処理が行われる。
「ファンデルワールスの」については、完全一致する見出し語が見つからないので、検索は失敗する。
【００７９】
次に、「ファンデルワールスの状」、「ファンデルワールスの状態」、「ファンデルワールスの状態式」の順に文字列抽出処理と検索処理が実行されるが、「ファンデワールスの状態式」のみが、完全一致する見出し語が存在するので、これが検索候補文字列リストに加えられる。
【００８０】
次に、「ファンデルワールスの状態式を」について文字列抽出処理が実行され、有効文字であると判断されて、検索処理が行なわれるが、完全一致する見出し語が見つからないので、検索は失敗する。
また、前方一致検索によりこれ以上長い見出し語であって完全一致可能な見出し語は存在しないので、ここで検索は終了する。
【００８１】
以上のように、全ての文字列に対して文字列抽出処理と検索処理が実行された結果、図９に示すように、５つの検索候補の文字列リストが抽出される。この検索候補文字列リストは、画面上に表示される。利用者は、この表示を見て、調べたい文字列を選択する操作をすれば、その選択した文字列の意味内容が表示されることになる。
【００８２】
以上のように、この実施例４では、調べたい語句の先頭の１文字だけを指示入力するだけで、辞書メモリ４の中に見出し語として存在するものをリスト表示することができ、さらにリスト表示された複数個の文字列の中から希望する文字列を選択するだけで、その文字列の意味内容を表示させることができる。
また、指示された先頭の文字の後方の文字列群に、いわゆる無効文字が存在しても、その無効文字を削除するような操作をする必要はなく、検索が可能となるので、利用者の操作性を向上できる。
【００８３】
【発明の効果】
この発明によれば、辞書の見出し語として用いられていない文字、記号等が含まれる文章であっても、その文字、記号等を削除する操作をする必要はなく、所望の文字列の検索が可能となるので、検索時の利用者の操作性を向上できる。
【図面の簡単な説明】
【図１】この発明の情報処理装置の一実施例の構成ブロック図である。
【図２】この発明の設定文字メモリの内容の一実施例の説明図である。
【図３】この発明の実施例１の検索文字列抽出処理の説明図である。
【図４】この発明の実施例１の文字列抽出と検索処理のフローチャートである。
【図５】この発明の実施例１の選択文字列の指示操作の説明図である。
【図６】この発明の実施例３の特定文字としての括弧の一実施例の説明図である。
【図７】この発明の実施例３の検索文字列抽出処理の説明図である。
【図８】この発明の実施例３の文字列抽出と検索処理のフローチャートである。
【図９】この発明の実施例４の検索文字列抽出処理の説明図である。
【符号の説明】
１．入力部
２．制御部
３．表示部
４．辞書メモリ
５．データメモリ
６．設定文字メモリ
５１．選択文字列
５２．検索文字列

Claims

画面上に表示された文章の中から、所望の文字列を選択する文字列選択部と、選択された文字列から、予め設定登録された文字および記号を削除した検索文字列を抽出する文字列抽出部と、検索文字列を用いて辞書検索を行なう検索部とを備えたことを特徴とする情報処理装置。
画面上に表示された文章の中から、所望の文字列を選択する文字列選択部と、選択された文字列から、予め設定登録された２つ以上の文字および記号と、前記設定登録された特定の２つの文字または記号に挟まれた文字列とを削除した検索文字列を抽出する文字列抽出部と、検索文字列を用いて辞書検索を行なう検索部とを備えたことを特徴とする情報処理装置。
入力部と、表示部と、見出し語とその意味内容からなる辞書を記憶した第１記憶部と、特定の文字および記号を予め記憶した第２記憶部と、前記表示部に表示された文字列のうち入力部からの指示入力により選択された選択文字列を記憶した第３記憶部と、前記見出し語の検索に用いられる検索文字列を記憶した第４記憶部と、前記第３記憶部に記憶された選択文字列の中から前記第２記憶部に記憶された特定文字または記号を除いた文字列を抽出して前記第４記憶部に検索文字列として記憶させる文字列抽出部と、前記検索文字列に対応する第１記憶部の辞書の見出し語を検索する検索部とを備えたことを特徴とする情報処理装置。
画面上に表示された文章の中から所望の文字列を選択させ、選択された文字列から予め設定登録された文字および記号を削除した検索文字列を抽出し、検索文字列を用いて辞書検索を行なうことを特徴とする情報処理装置の検索方法。
前記選択された文字列から、設定登録された特定の２つの文字または記号に挟まれた文字列もさらに削除した検索文字列を抽出することを特徴とする請求項４の情報処理装置の検索方法。
画面上に表示された文章の中から検索候補とすべき最初の一文字を指示入力させ、入力された最初の一文字とそれ以後に存在する文字列群とからなる任意長の文字列を選択し、選択された異なる文字長の文字列のそれぞれについて、予め設定登録された文字および記号を削除した検索文字列を抽出し、抽出された検索文字列を用いて辞書検索を行ない、一致する見出し語が見つかった検索文字列を選択可能なように表示させることを特徴とする情報処理装置の検索方法。
前記選択された異なる文字長の文字列のそれぞれについて、予め設定登録された特定の２つの文字または記号に挟まれた文字列も削除した検索文字列を抽出することを特徴とする請求項６の情報処理装置の検索方法。
コンピュータに、画面上に表示された文章の中から所望の文字列を選択させる機能、選択された文字列から予め設定登録された文字および記号を削除した検索文字列を抽出する機能、検索文字列を用いて辞書検索を行なう機能を実現させるためのプログラム。
コンピュータに、画面上に表示された文章の中から検索候補とすべき最初の一文字を指示入力させる機能、入力された最初の一文字とそれ以後に存在する文字列群とからなる任意長の文字列を選択する機能、選択された異なる文字長の文字列のそれぞれについて、予め設定登録された文字および記号を削除した検索文字列を抽出する機能、抽出された検索文字列を用いて辞書検索を行ない、一致する見出し語が見つかった検索文字列を選択可能なように表示させる機能を実現させるためのプログラム。