JP2024017326A - 検索装置、検索方法およびプログラム - Google Patents

検索装置、検索方法およびプログラム Download PDF

Info

Publication number
JP2024017326A
JP2024017326A JP2022119881A JP2022119881A JP2024017326A JP 2024017326 A JP2024017326 A JP 2024017326A JP 2022119881 A JP2022119881 A JP 2022119881A JP 2022119881 A JP2022119881 A JP 2022119881A JP 2024017326 A JP2024017326 A JP 2024017326A
Authority
JP
Japan
Prior art keywords
character string
search
tone
character
pinyin
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022119881A
Other languages
English (en)
Inventor
理紗 須藤
Risa Sudo
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2022119881A priority Critical patent/JP2024017326A/ja
Priority to US18/218,627 priority patent/US20240037129A1/en
Publication of JP2024017326A publication Critical patent/JP2024017326A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3337Translation of the query language, e.g. Chinese to English
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】一部の読み及びその声調が不明な声調言語を精度よく検索する。【解決手段】方法は、読みの不明な部分の文字(ワイルドカード[?])を含む声調記号付きのピンイン検索文字列に対応する四声数字付きピンイン検索文字列から、四声数字の無い文字(子音を示すアルファベット)には“0”を、ワイルドカード[?]の直後に四声数字についてのワイルドカード[?]を付加したワイルド検索用の四声数字付きピンイン検索文字列を生成する。また、四声数字無しのピンイン検索文字列と一致した中日辞書の見出し語に対応する四声数字付きピンイン見出し語文字列の四声数字の無い文字には、“0”を付加したワイルド検索用の四声数字付きピンイン見出し語文字列を生成する。生成した前記検索文字列と、四声数字付きピンイン見出し語文字列とが一致するかを比較判定することで、声調記号付きのピンイン検索文字列に基づいた中国語のワイルドカード検索が行なえる。【選択図】図1

Description

特許法第30条第2項適用申請有り 1.2022年4月1日 https://classpad.net/jp/university/にて発表 2.2022年4月1日 https://classpad.net/jp/university/ https://order.mycommerce.com/cart/viewにて販売
本発明の実施形態は、声調言語を検索するための検索装置、検索方法およびプログラムに関する。
従来の電子辞書等において、声調言語として、例えば中国語の単語を検索する操作としては、手書き、部首画数、総画数等から漢字を入力し、当該入力された漢字を含む単語を検索する漢字検索操作、中国語の単語を声調記号付きのアルファベット文字列に変換した発音表記体系、すなわち、ピンインを入力して対応する単語を検索するピンイン検索操作がある。
ピンインは母音子音を表すアルファベットと抑揚を表す声調記号とで構成される。通常ピンイン検索操作では、調べたい中国語の単語のピンインのアルファベットに声調記号に対応する四声数字(1~4)を付加することにより、所望する単語を検索することができる。
しかしながら声調記号を含む読みの一部を不明、すなわち“?”とした単語をワイルドカード検索する場合、その読みに対応するアルファベットのみならずそれに付加される声調記号も不明であることが多いため、例えば、中国語のピンイン検索においては、声調記号の無い軽声の母音には四声数字「0」を付加し、声調記号が不明のときは「-」を付加して索引語の入力を行ない、「-」に声調記号に対応する四声数字を0、1、2、…と順に入力して、索引語と比較して検索する技術が考えられているが、検索の手間や検索精度においては未だ課題が残されている(例えば、特許文献1参照。)。
特開平10-269239号公報
本発明が解決しようとする課題は、一部の読みおよびその声調が不明な声調言語を精度よく検索することを可能とすることにある。
本発明に係る一態様の検索装置は、
不明の文字を含む所定数の文字と声調記号とから構成される文字列を第1の検索対象文字列として取得し、
取得された前記第1の検索対象文字列から声調記号を除いた文字列に一致するものを変換候補として取得し、
前記変換候補について声調記号を付加し、所定の文字数からなる変換候補文字列を生成し、
前記第1の検索対象文字列の各文字のうち、少なくとも前記不明の文字の直後に不明の声調記号を示す文字を付加して、第2の検索対象文字列を生成し、
前記第2の検索対象文字列と前記変換候補文字列とを比較し、比較結果を出力する、
制御部を備えることを特徴とする。
本発明によれば、一部の読みおよびその声調が不明な声調言語を精度よく検索することが可能になる。
本発明の検索装置、検索方法およびプログラムの実施形態に係る検索システム1の全体構成を示す図。 外国語検索サーバ10および通信端末20の機能的構成を示すブロック図。 外国語検索サーバ10の四声数字無しピンイン検索テーブル記憶領域12cに記憶される四声数字無しピンイン検索テーブルの内容を示す図。 外国語検索サーバ10の四声数字付きピンイン検索テーブル記憶領域12dに記憶される四声数字付きピンイン検索テーブルの内容を示す図。 外国語検索サーバ10の中日辞書を対象に実行される四声ピンインワイルドカード検索処理(その1)を示すフローチャート。 外国語検索サーバ10の中日辞書を対象に実行される四声ピンインワイルドカード検索処理(その2)を示すフローチャート。 外国語検索サーバ10の四声ピンインワイルドカード検索処理に伴い通信端末20に表示される中日辞書の外国語検索画面Gを示す図。
以下、図面を参照して本発明の実施形態について説明する。
(実施形態の構成)
図1は、本発明の検索装置、検索方法およびプログラムの実施形態に係る検索システム1の全体構成を示す図である。
検索システム1は、インターネットなどの通信ネッワーク上に設けられる外国語検索サーバ10(検索装置)と、外国語検索サーバ10を利用するアプリケーションプログラム(サーバ利用アプリ)をインストールした通信端末20とを含んで構成される。
通信端末20は、外国語検索サーバ10との通信機能を有するスマートフォン、タブレット端末、電子辞書、PC(personal computer)、携帯電話、電子ブック、携帯ゲーム機などの電子機器として構成され得る。
<外国語検索サーバ10の機能>
外国語検索サーバ10は、少なくとも以下(a)(b)の機能を有する。
(a)サーバ利用アプリをインストールした通信端末20のユーザ情報(ID:識別情報を含む)を記憶して管理する機能。
(b)通信端末20の表示部21に表示させた外国語検索画面Gから入力された検索文字(検索文字列)に基づき、辞書データベース(DB)から検索文字列に対応する見出し語を検索し、検索結果である見出し語とその訳、語義、用例、解説などを含む説明情報を通信端末20に表示させる機能。
<外国語検索サーバ10および通信端末20の電子回路>
図2は、外国語検索サーバ10および通信端末20の機能的構成を示すブロック図である。
外国語検索サーバ10は、コンピュータである制御部(CPU:central processing unit)11と、記憶部12と、記録媒体読取部14と、通信部15と、入力部16と、表示部17とを備えている。
制御部11は、記憶部12に記憶されているサーバ制御プログラム12aに従い、入力部16からのユーザ操作に応じた入力信号、あるいは通信ネットワークN上の通信端末20からの通信部15による受信信号に応じて回路各部の動作を制御する。
サーバ制御プログラム12aは、記憶部12に予め記憶されていてもよいし、あるいはCD-ROMなどの外部記録媒体13から記録媒体読取部14を介して記憶部12に読み込まれて記憶されたものであってもよい。
サーバ制御プログラム12aは、少なくとも前述の(a)(b)の機能を実行するためのプログラムを含む。
記憶部12には、サーバ制御プログラム12aの記憶領域のほか、辞書データベース記憶領域12b、四声数字無しピンイン検索テーブル記憶領域12c、四声数字付きピンイン検索テーブル記憶領域12d、ユーザ管理データ記憶領域12e、検索文字データ記憶領域12f、検索結果データ記憶領域12g、作業データ記憶領域12hが確保される。
辞書データベース記憶領域12bには、声調言語である中国語の単語や用法と日本語の単語や用法とを相互に変換する中日辞書、英和辞書、独和辞書、仏和辞書、国語辞書などの各種の辞書データが、索引となるデータ番号毎に見出し語である語句と同見出し語に対応する訳、語義、用例、解説などの説明情報とを対応付けた辞書データとして記憶される。
図3は、外国語検索サーバ10の四声数字無しピンイン検索テーブル記憶領域12cに記憶される四声数字無しピンイン検索テーブルの内容を示す図である。
四声数字無しピンイン検索テーブル(12c)には、辞書データベース記憶領域12bの中日辞書の見出し語のデータ番号に対応付けて、当該見出し語を声調記号付きのアルファベット文字列に変換した発音表記体系における声調記号(四声数字1~4)を含まない読みに対応する四声数字無しピンイン見出し語文字列が記述される。
図4は、外国語検索サーバ10の四声数字付きピンイン検索テーブル記憶領域12dに記憶される四声数字付きピンイン検索テーブルの内容を示す図である。
四声数字付きピンイン検索テーブル(12d)には、辞書データベース記憶領域12bの中日辞書の見出し語のデータ番号に対応付けて、当該見出し語を声調記号付きのアルファベット文字列に変換した発音表記体系における声調記号(四声数字1~4)を音節毎に含む読みに同見出し語に対応する四声数字付きピンイン見出し語文字列が記述される。
なお、実施形態の外国語検索サーバ10は、四声数字無しピンイン検索テーブル(12c)と四声数字付きピンイン検索テーブル(12d)との2つのテーブルを記憶しているが、四声数字無しピンイン検索テーブル(12c)を記憶することなく、四声数字無しピンイン見出し語文字列の取得を要する場合には、四声数字付きピンイン検索テーブル(12d)から四声数字(1~4)を省略して読み出すようにしてもよい。
ユーザ管理データ記憶領域12eには、サーバ利用アプリをインストールした通信端末20のユーザ毎に、ユーザID(ユーザ識別情報:例えばアプリID)に対応付けられて、ユーザの属性(学校、学年など)が記憶される。
検索文字データ記憶領域12fには、通信端末20による外国語検索サーバ10の利用に伴い当該通信端末20から入力された検索文字(検索文字列)のデータが記憶される。
検索結果データ記憶領域12gには、検索文字データ記憶領域12fに記憶された検索文字(検索文字列)のデータに基づき、辞書データベース(12b)から検索された検索結果のデータ(例えば、検索対象となった辞書の種類と検索された見出し語のデータ番号または検索された見出し語とその説明情報)が記憶される。
作業データ記憶領域12hには、制御部11による各部の動作の制御に応じて生成または取得される各種のデータが必要に応じて一時的に記憶される。
このように構成された外国語検索サーバ10は、制御部11がサーバ制御プログラム12aに記述された命令に従い回路各部の動作を制御し、ソフトウエアとハードウエアとが協働して動作することにより、後述の動作説明で述べるような各種の機能を実現する。
なお、通信端末20の電子回路は、外国語検索サーバ10と同様に、制御部(CPU)22と、記憶部23と、記録媒体読取部24と、通信部25と、入力部26と、表示部(タッチパネル式)21とを備え、記憶部23には、上述のサーバ利用アプリが記憶されている。尚、このサーバ利用アプリは、外国語検索サーバ10と通信端末20とが接続された際に、外国語検索サーバより受信され、Webブラウザ上で実行可能なプログラムとして実行されるものであってもよい。
(実施形態の動作)
次に、実施形態の検索システム1の動作について説明する。
図5は、外国語検索サーバ10の中日辞書を対象に実行される四声ピンインワイルドカード検索処理(その1)を示すフローチャートである。
図6は、外国語検索サーバ10の中日辞書を対象に実行される四声ピンインワイルドカード検索処理(その2)を示すフローチャートである。
図7は、外国語検索サーバ10の四声ピンインワイルドカード検索処理に伴い通信端末20に表示される中日辞書の外国語検索画面Gを示す図である。
例えば、通信端末20にインストールされたサーバ利用アプリに従い、通信端末20が外国語検索サーバ10に通信接続された状態で、ユーザ任意の辞書として中日辞書が指定され、調べたい見出し語に対応する検索文字列が入力されると、外国語検索サーバ10は、図7に示すように、中日辞書の外国語検索画面Gを通信端末20の表示部(タッチパネル式)21に表示させる。
なお、図7に示す外国語検索画面Gは、検索文字入力エリアAEに対する検索文字列の入力が完了し、検索結果である見出し語とその説明情報がプレビュー領域PVに表示された状態であって、最初は、検索文字入力エリアAEに対する検索文字列の入力が完了してなく、当該入力が完了していない検索文字列と先頭一致する見出し語の一覧LSが表示されると共に、一覧LSから指定して識別表示Hさせた見出し語とその説明情報がプレビュー領域PVに表示されていると仮定する。
ユーザは、読みの一部が不明な中国語の見出し語を検索するために、声調記号を読みのアルファベットに振った四声付きピンイン検索文字列のうち、読みの不明な部分の文字をワイルドカード[?]に代えた四声付きピンイン検索文字列を検索文字入力エリアAEに入力し、四声ピンインによるワイルドカード検索を行なう。
声調記号を読みのアルファベットに振った四声付きピンイン検索文字列は、例えば、アルファベットキーと声調記号のキーとを含むソフトキーボードを、外国語検索サーバ10が通信端末20に表示させることで入力される。
ここでは、検索文字入力エリアAEに入力したワイルドカード[?]を含む四声付きピンイン検索文字列を「ba?cai」(2文字目「a」には二声の声調記号、5文字目「a」には四声の声調記号が振られている)として入力した場合について説明する。
外国語検索サーバ10の制御部11は、検索文字入力エリアAEに四声付きピンイン検索文字列が入力されると、入力された四声付きピンイン検索文字列「ba?cai」(声調記号付き)を検索文字データ記憶領域12fに記憶させる(ステップS1)。
制御部11は、検索文字データ記憶領域12fに記憶された四声付きピンイン検索文字列「ba?cai」(声調記号付き)の四声(声調記号)を、声調記号の付加ルール(声調記号の存在位置に関する規則:四声の対象となる母音に付加)に従ったXML形式の記述言語への変換により、四声数字(四声の記号:二声は“2”、四声は“4”)に変換し、四声数字付きピンイン検索文字列「ba2?ca4i」(第1の検索対象文字列)を生成する(ステップS2)。
制御部11は、四声数字付きピンイン検索文字列「ba2?ca4i」(第1の検索対象文字列)の複製を生成し作業データ記憶領域12hを記憶させる(ステップS3)。
制御部11は、ステップS2にてXML変換して検索文字データ記憶領域12fに記憶させている四声数字付きピンイン検索文字列「ba2?ca4i」(第1の検索対象文字列)の数字の無い文字(子音を示すアルファベット)の直後に“0”を、ワイルドカード[?]の直後に四声数字についてのワイルドカード[?]を夫々付加し、ワイルド検索用の四声数字付きピンイン検索文字列「b0a2??c0a4i0」(第2の検索対象文字列)を生成する(ステップS4)。尚、本実施形態では、ユーザが読みの不明な部分の文字をワイルドカード[?]として入力した際に制御部11が四声数字についてのワイルドカード[?]を付加する構成としたが、ユーザの任意の操作により不明な部分の文字をワイルドカード[?]と四声数字についてのワイルドカード[?]とが連続して入力される構成としてもよい。
ここで、数字の無い文字(子音を示すアルファベット)の直後に付加した“0”は、該当する文字が子音であることから声調記号(四声数字)が無いことを意味し、ワイルドカード[?]の直後に付加した[?]は、ワイルドカード[?]が2つ連続することで、該当する位置の文字(アルファベット)が子音であるか母音であるか、また、母音である場合はその声調記号が不明であることを意味する。
一方、制御部11は、ステップS3にて複製して作業データ記憶領域12hを記憶させた四声数字付きピンイン検索文字列「ba2?ca4i」(第1の検索対象文字列)の四声数字を削除し、四声数字無しのピンイン検索文字列「ba?cai」を生成する(ステップS5)。
制御部11は、中日辞書を対象とする見出し語の検索開始位置と検索終了位置とを、データ番号(例えば、検索開始位置“1”、検索終了位置“最終番号”)として取得する(ステップS6)。
制御部11は、検索対象として未判定の見出し語のデータ番号(ここでは“1”)を取得し(ステップS7)、四声数字無しピンイン検索テーブル(12c)(図3参照)から、ステップS7にて取得した未判定の見出し語のデータ番号に対応する四声数字無しピンイン見出し語文字列を取得する(ステップS8)。
制御部11は、ステップS5にて生成したワイルドカード[?]を含む四声数字無しのピンイン検索文字列「ba?cai」と、ステップS8にて取得した四声数字無しピンイン見出し語文字列とを比較し、全体の文字数およびワイルドカード[?]以外の文字が一致するか否(不一致)かを判定する(ステップS9)。
ステップS9にて不一致と判定された場合(ステップS9<不一致>)、制御部11は、ステップS9にて判定の対象となった四声数字無しピンイン見出し語文字列に対応するデータ番号が検索終了位置“最終番号”に到達したか否かを判定し(ステップS15)、検索終了位置“最終番号”に到達しないと判定された場合(ステップS15<終了位置でない>)、検索対象として未判定の次の見出し語のデータ番号を取得し、ワイルドカード[?]を含む四声数字無しのピンイン検索文字列「ba?cai」と、取得したデータ番号に対応する四声数字無しピンイン見出し語文字列との比較を繰り返す(ステップS7~S9)。
ここで、四声数字無しのピンイン検索文字列「ba?cai」に対して、例えば図3に示すデータ番号“11”の四声数字無しピンイン見出し語文字列「baicai」が一致したと判定された場合(ステップS9<一致>)、制御部11は、四声数字付きピンイン検索テーブル(12d)(図4参照)から、一致した四声数字無しピンイン見出し語文字列「baicai」(変換候補)のデータ番号“11”に対応する四声数字付きピンイン見出し語文字列「bai2cai4」を取得する(ステップS10)。
制御部11は、ステップS10にて取得した四声数字付きピンイン見出し語文字列「bai2cai4」の数字(ここでは“2”と“4”)の位置を、声調記号の付加ルール(四声の対象となる母音に付加)に従い並び替えた四声数字付きピンイン見出し語文字列「ba2ica4i」(変換候補文字列)を生成する(ステップS11)。
そして、ステップS11にて生成した四声数字付きピンイン見出し語文字列「ba2ica4i」の数字の無い文字(子音を示すアルファベット)に“0”を付加し、ワイルド検索用の四声数字付きピンイン見出し語文字列「b0a2i0c0a4i0」(変換候補文字列)を生成する(ステップS12)。
制御部11は、ステップS4にて生成したワイルド検索用の四声数字付きピンイン検索文字列「b0a2??c0a4i0」(第2の検索対象文字列)と、ステップS12にて生成したワイルド検索用の四声数字付きピンイン見出し語文字列「b0a2i0c0a4i0」(変換候補文字列)とを比較し、全体の文字数およびワイルドカード[?]以外の文字が一致するか否(不一致)かを判定する(ステップS13)。
ここで、ワイルド検索用の四声数字付きピンイン検索文字列「b0a2??c0a4i0」(第2の検索対象文字列)に対して、ワイルド検索用の四声数字付きピンイン見出し語文字列「b0a2i0c0a4i0」(変換候補文字列)が一致したと判定された場合(ステップS13<一致>)、制御部11は、一致したピンイン見出し語文字列「b0a2i0c0a4i0」に対応するデータ番号(ステップS10にて取得した四声数字付きピンイン見出し語文字列「bai2cai4」に対応するデータ番号“11”)を、検索結果(比較結果)として検索結果データ記憶領域12gに記憶させる(ステップS14)。
なお、検索結果データ記憶領域12gには、検索結果(比較結果)として、データ番号に対応する見出し語のデータを辞書データベース(12b)から読み出して記憶させてもよい。
制御部11は、ステップS14にて検索結果として記憶されたデータ番号が検索終了位置“最終番号”に到達したか否かを判定し(ステップS15)、検索終了位置“最終番号”に到達しないと判定された場合(ステップS15<終了位置でない>)、検索対象として未判定の次の見出し語のデータ番号を取得し、ステップS7以降の処理を繰り返す。
この後、ステップS7において、未判定の次の見出し語のデータ番号(例えば“45”)が取得された場合に、四声数字無しのピンイン検索文字列「ba?cai」に対して、図3に示すデータ番号“45”の四声数字無しピンイン見出し語文字列「bancai」が一致したと判定された場合(ステップS9<一致>)、制御部11は、四声数字付きピンイン検索テーブル(12d)(図4参照)から、一致した四声数字無しピンイン見出し語文字列「bancai」(変換候補)のデータ番号“45”に対応する四声数字付きピンイン見出し語文字列「ban3cai2」を取得する(ステップS10)。
制御部11は、前述同様に、ステップS10にて取得した四声数字付きピンイン見出し語文字列「ban3cai2」の数字(ここでは“3”と“2”)の位置を、声調記号の付加ルール(四声の対象となる母音に付加)に従い並び替えた四声数字付きピンイン見出し語文字列「ba3nca2i」(変換候補文字列)を生成する(ステップS11)。
そして、ステップS11にて生成した四声数字付きピンイン見出し語文字列「ba3nca2i」の数字の無い文字(アルファベット)に“0”を付加し、ワイルド検索用の四声数字付きピンイン見出し語文字列「b0a3n0c0a2i0」(変換候補文字列)を生成する(ステップS12)。
制御部11は、ステップS4にて生成したワイルド検索用の四声数字付きピンイン検索文字列「b0a2??c0a4i0」(第2の検索対象文字列)と、ステップS12にて生成したワイルド検索用の四声数字付きピンイン見出し語文字列「b0a3n0c0a2i0」(変換候補文字列)とを比較し、全体の文字数およびワイルドカード[?]以外の文字が一致するか否(不一致)かを判定する(ステップS13)。
ワイルド検索用の四声数字付きピンイン検索文字列「b0a2??c0a4i0」に対して、ワイルド検索用の四声数字付きピンイン見出し語文字列「b0a3n0c0a2i0」が一致しないと判定された場合(ステップS13<不一致>)、制御部11は、ステップS13にて判定の対象となったワイルド検索用の四声数字付きピンイン見出し語文字列「b0a3n0c0a2i0」に対応する四声数字付きピンイン見出し語文字「ban3cai2」(変換候補文字列)のデータ番号“45”が検索終了位置“最終番号”に到達したか否かを判定し(ステップS15)、検索終了位置“最終番号”に到達しないと判定された場合(ステップS15<終了位置でない>)、再び検索対象として未判定の次の見出し語のデータ番号を取得し、ステップS7以降の処理を繰り返す。
この後、ステップS15において、ステップS9にて判定の対象となった四声数字無しピンイン見出し語文字列に対応するデータ番号が検索終了位置“最終番号”に到達したと判定されるか、またはステップS13にて判定の対象となった四声数字付きピンイン見出し語文字列に対応するデータ番号が検索終了位置“最終番号”に到達したと判定された場合(ステップS15<終了位置>)、制御部11は、一連の四声ピンインワイルドカード検索処理を終了する。
制御部11は、中日辞書のデータ(12b)から、検索結果データ記憶領域12gに記憶されている検索結果(比較結果)のデータ番号に対応する見出し語“baicai[白菜]”を読み出し(検索結果として複数のデータ番号が記憶されている場合には該当する複数の見出し語を読み出す)、図7に示すように、通信端末20の表示部21に表示させている外国語検索画面Gの一覧LSに表示させる。そして、一覧LSにて指定され識別表示Hさせた見出し語“baicai[白菜]”とその説明情報をプレビュー領域PVに表示させる。
外国語検索画面Gのプレビュー領域PVが、例えばユーザによりタッチされることで指定されると、制御部11は、プレビュー領域PVに表示させている見出し語とその説明情報を、見出し語説明画面(図示せず)として表示部21の全画面に展開して表示させる。
このように、読みの一部が不明な中国語の単語(語句)であっても、声調記号を読みのアルファベットに振った四声付きピンイン検索文字列のうち、読みの不明な部分の文字をワイルドカード[?]に代えた四声付きピンイン検索文字列を検索文字入力エリアAEに入力することで、四声ピンインによるワイルドカード検索処理を実行し、所望の単語(語句)を精度よく検索できる。
(実施形態のまとめ)
実施形態の検索システム1によれば、通信端末20から不明の読みの部分をワイルドカード[?]に代えた声調記号付きのピンイン検索文字列を入力すると、外国語検索サーバ10は、入力された声調記号付きのピンイン検索文字列から、声調記号の付加ルールに従い四声数字を付加した四声数字付きピンイン検索文字列(第1の検索対象文字列)をXML変換して生成する。
外国語検索サーバ10は、四声数字付きピンイン検索文字列(第1の検索対象文字列)から四声数字を除いた四声数字無しピンイン検索文字列とワイルドカード[?]以外で一致する四声数字無しピンイン見出し語文字列(変換候補)を、中日辞書の見出し語に対応する四声数字無しピンイン検索テーブル12cから取得し、同中日辞書の見出し語に対応する四声数字付きピンイン検索テーブル12dから該当する見出し語の四声数字付きピンイン見出し語文字列(変換候補文字列)を取得する。そして四声数字付きピンイン見出し語文字列(変換候補文字列)から、声調記号の付加ルールに従い四声数字を並び替え、更に四声数字が無い文字に“0”を付加したワイルド検索用の四声数字付きピンイン見出し語文字列(変換候補文字列)を生成する。
外国語検索サーバ10は、四声数字付きピンイン検索文字列(第1の検索対象文字列)の四声数字が無い文字に“0”、ワイルドカード[?]の直後に[?]を付加したワイルド検索用の四声数字付きピンイン検索文字列(第2の検索対象文字列)を生成し、このワイルド検索用の四声数字付きピンイン検索文字列(第2の検索対象文字列)に対し、ワイルド検索用の四声数字付きピンイン見出し語文字列(変換候補文字列)が一致するかを比較して判定する。一致した場合、一致したワイルド検索用の四声数字付きピンイン見出し語文字列(変換候補文字列)に対応する中日辞書の見出し語を検索結果(比較結果)として記憶し通信端末20に出力して表示させる。
このように、入力されたワイルドカード[?]を含む声調記号付きのピンイン検索文字列に対応する四声数字付きピンイン検索文字列(第1の検索対象文字列)から、四声数字の無い文字には“0”を、ワイルドカード[?]には[?]を付加したワイルド検索用の四声数字付きピンイン検索文字列(第2の検索対象文字列)を生成し、また四声数字無しのピンイン検索文字列と一致した中日辞書の見出し語に対応する四声数字付きピンイン見出し語文字列の四声数字の無い文字には“0”を付加したワイルド検索用の四声数字付きピンイン見出し語文字列(変換候補文字列)を生成する。生成したワイルド検索用の四声数字付きピンイン検索文字列(第2の検索対象文字列)と四声数字付きピンイン見出し語文字列(変換候補文字列)とが一致するかを比較判定することで、不明の読みの部分をワイルドカード[?]に代えた声調記号付きのピンイン検索文字列を入力して、中国語のワイルドカード検索を行なうことができる。
よって、一部の読みおよびその声調が不明な中国語(声調言語)を精度よく検索することが可能になる。
なお、本実施形態では声調言語として中国語単語におけるワイルドカード検索について詳述したが、声調言語であれば他の外国語、例えば、ベトナム語、タイ語、クロアチア語であっても本発明は適用可能である。
更に、前記実施形態では、検索システム1を、外国語検索サーバ10(検索装置)と、当該外国語検索サーバ10との通信機能を有する通信端末20とにより構成したが、外国語検索サーバ10(検索装置)が有するデータおよび機能を、通信端末20などの電子機器、すなわちスマートフォン、タブレット端末、電子辞書、PC、携帯電話、電子ブック、携帯ゲーム機などの電子機器に持たせ、当該電子機器(検索装置)の単体により前述した四声ピンインワイルドカード検索処理を含む外国語検索機能を実現する構成としてもよい。
以上の実施形態において記載した検索システム1の外国語検索サーバ10(検索装置)による各処理の手法、すなわち、図5、図6のフローチャートに示す四声ピンインワイルドカード検索処理などの各手法は、何れもコンピュータに実行させることができるプログラムとして、メモリカード(ROMカード、RAMカードなど)、磁気ディスク(フロッピ(登録商標)ディスク、ハードディスクなど)、光ディスク(CD-ROM、DVDなど)、半導体メモリなどの外部記録装置の媒体に格納して配布することができる。そして、電子機器の制御部(CPU)は、この外部記録装置の媒体に記録されたプログラムを記憶装置に読み込み、この読み込んだプログラムによって動作が制御されることにより、実施形態において説明した各種の機能を実現し、前述した手法による同様の処理を実行することができる。
また、各手法を実現するためのプログラムのデータは、プログラムコードの形態として通信ネットワーク(N)上を伝送させることができ、この通信ネットワーク(N)に接続されたコンピュータ装置(プログラムサーバ)から、前記プログラムのデータを電子機器に取り込んで記憶装置に記憶させ、前述した各種の機能を実現することもできる。
なお、本発明は、実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、実施形態には種々の発明が含まれており、開示される複数の構成要件から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、課題が解決でき、効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
1 …検索システム
10 …外国語検索サーバ(検索装置)
11 …制御部(CPU)
12 …記憶部
12a…サーバ制御プログラム
12b…辞書データベース記憶領域
12c…四声数字無しピンイン検索テーブル記憶領域
12d…四声数字付きピンイン検索テーブル記憶領域
12e…ユーザ管理データ記憶領域
12f…検索文字データ記憶領域
12g…検索結果データ記憶領域
12h…作業データ記憶領域
13 …外部記録媒体
14 …記録媒体読取部
15 …通信部
20 …通信端末
21 …表示部(タッチパネル式)
G …外国語検索画面

Claims (10)

  1. 不明の文字を含む所定数の文字と声調記号とから構成される文字列を第1の検索対象文字列として取得し、
    取得された前記第1の検索対象文字列から声調記号を除いた文字列に一致するものを変換候補として取得し、
    前記変換候補について声調記号を付加し、所定の文字数からなる変換候補文字列を生成し、
    前記第1の検索対象文字列の各文字のうち、少なくとも前記不明の文字の直後に不明の声調記号を示す文字を付加して、第2の検索対象文字列を生成し、
    前記第2の検索対象文字列と前記変換候補文字列とを比較し、比較結果を出力する、
    制御部を備えることを特徴とする検索装置。
  2. 前記制御部は、更に前記第1の検索対象文字列の各文字のうち、前記不明の文字以外の文字について、声調無しを意味する文字を付加して、第2の検索対象文字列を生成することを特徴とする請求項1に記載の検索装置。
  3. 前記制御部は、前記変換候補文字列に含まれる声調記号を、声調記号の存在位置に関する規則に基づいて並べ替えることを特徴とする請求項1又は2に記載の検索装置。
  4. 前記制御部は、入力した前記文字列を、声調記号の存在位置に関する規則に基づいたXML形式の記述言語に変換し前記第1の検索対象文字列として取得することを特徴とする請求項1に記載の検索装置。
  5. 前記制御部は、前記変換候補文字列を、各文字のうち前記声調記号が付加されていない文字については声調無しを意味する文字を付加した文字列として生成し、前記第2の検索対象文字列と比較することを特徴とする請求項1又は2に記載の検索装置。
  6. 前記制御部は、辞書の見出し語に対応する所定の発音表記体系に対応する文字列のテーブルから、前記第1の検索対象文字列から声調記号を除いた文字列に一致する文字列を前記変換候補として取得することを特徴とする請求項1に記載の検索装置。
  7. 前記制御部は、辞書の見出し語に対応する声調記号を付加した前記所定の発音表記体系に対応する文字列のテーブルに基づき、前記所定の文字数からなる変換候補文字列を生成することを特徴とする請求項1に記載の検索装置。
  8. 不明の文字を含む所定数の文字と声調記号とから構成される文字列を入力する際に、前記不明の文字の直後に不明の声調記号を示す文字を付加して入力することにより、検索対象文字列を生成することを特徴とする検索装置。
  9. 検索装置が実行する検索方法であって、
    不明の文字を含む所定数の文字と声調記号とから構成される文字列を第1の検索対象文字列として取得し、
    取得された前記第1の検索対象文字列から声調記号を除いた文字列に一致するものを変換候補として取得し、
    前記変換候補について声調記号を付加し、所定の文字数からなる変換候補文字列を生成し、
    前記第1の検索対象文字列の各文字のうち、少なくとも前記不明の文字の直後に不明の声調記号を示す文字を付加して、第2の検索対象文字列を生成し、
    前記第2の検索対象文字列と前記変換候補文字列とを比較し、比較結果を出力する、
    処理を実行することを特徴とする検索方法。
  10. 検索装置の制御部を、
    不明の文字を含む所定数の文字と声調記号とから構成される文字列を第1の検索対象文字列として取得し、
    取得された前記第1の検索対象文字列から声調記号を除いた文字列に一致するものを変換候補として取得し、
    前記変換候補について声調記号を付加し、所定の文字数からなる変換候補文字列を生成し、
    前記第1の検索対象文字列の各文字のうち、少なくとも前記不明の文字の直後に不明の声調記号を示す文字を付加して、第2の検索対象文字列を生成し、
    前記第2の検索対象文字列と前記変換候補文字列とを比較し、比較結果を出力する、
    処理を実行するように機能させるためのプログラム。


JP2022119881A 2022-07-27 2022-07-27 検索装置、検索方法およびプログラム Pending JP2024017326A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022119881A JP2024017326A (ja) 2022-07-27 2022-07-27 検索装置、検索方法およびプログラム
US18/218,627 US20240037129A1 (en) 2022-07-27 2023-07-06 Search device, search method, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022119881A JP2024017326A (ja) 2022-07-27 2022-07-27 検索装置、検索方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2024017326A true JP2024017326A (ja) 2024-02-08

Family

ID=89664351

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022119881A Pending JP2024017326A (ja) 2022-07-27 2022-07-27 検索装置、検索方法およびプログラム

Country Status (2)

Country Link
US (1) US20240037129A1 (ja)
JP (1) JP2024017326A (ja)

Also Published As

Publication number Publication date
US20240037129A1 (en) 2024-02-01

Similar Documents

Publication Publication Date Title
JP5997217B2 (ja) 言語変換において複数の読み方の曖昧性を除去する方法
US8199112B2 (en) Character input device
JP5513898B2 (ja) 共有された言語モデル
JP2013117978A (ja) タイピング効率向上のためのタイピング候補の生成方法
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
JP2000298667A (ja) 構文情報による漢字変換装置
JP2024017326A (ja) 検索装置、検索方法およびプログラム
JP5024335B2 (ja) 情報表示制御装置および情報表示制御プログラム
JP2002207728A (ja) 表音文字生成装置及びそれを実現するためのプログラムを記録した記録媒体
JP5487898B2 (ja) 辞書機能を備えた電子機器およびプログラム
JP3803253B2 (ja) 漢字入力のための方法および装置
JP2007257188A (ja) 辞書検索装置およびその制御プログラム
JP4492499B2 (ja) 情報表示制御装置および情報表示制御プログラム
JPH07129572A (ja) 漢字変換装置
JPH1166061A (ja) 情報処理装置および情報処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2008140074A (ja) 例文検索装置および例文検索処理プログラム
JP7106479B2 (ja) 電子機器、文字入力方法およびプログラム
JP4922030B2 (ja) 文字列検索装置、方法及びプログラム
JP2012203728A (ja) 情報検索装置およびプログラム
JP2008262248A (ja) 文字検索方法
JP2021128618A (ja) 表示装置、及びプログラム
JP2019053464A (ja) 変換補助装置
JP2009098328A (ja) 音声合成装置及び方法
JPH10261049A (ja) 文字認識装置

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20220805

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20230104

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230802

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240522

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240528