JP7375409B2

JP7375409B2 - アドレス検索システム及びプログラム

Info

Publication number: JP7375409B2
Application number: JP2019172515A
Authority: JP
Inventors: 晋平板谷; 祐介御子柴
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2019-09-24
Filing date: 2019-09-24
Publication date: 2023-11-08
Anticipated expiration: 2039-09-24
Also published as: JP2021051417A; US20210092254A1

Description

本発明は、アドレス検索システム及びプログラムに関し、特に音声入力でアドレスを検索する技術に関する。

近年、スマートスピーカと称される音声入出力装置が開発され、その音声入出力装置をインターネットに接続して、ユーザが音声入出力装置に対して音声で指示を行うことで、様々な装置に対する各種操作が可能になっている。例えば、ユーザが音声入出力装置に対して音声で、「照明をオンにして」と指示することで、音声入出力装置からクラウド環境のサーバを経由して、ユーザが居る室内の照明装置に対してオンの指令が送られ、照明装置がオンになる。

音声入出力装置を使った音声による操作の一つに、電話機やファクシミリ装置（以下、これらの装置を被制御機器と称する）を使った発信操作がある。
被制御機器にはアドレス帳（電話帳）の機能が内蔵され、予め発信先の電話番号などが登録されている。通常、ユーザがボタン操作などで発信操作を行う際には、被制御機器の操作パネルに登録した名前の一覧を表示し、表示された名前の中から、ユーザが発信したい名前をタッチ操作で選択する。

音声入出力装置を使った音声による操作では、例えば、「××さんに送信して」と音声で入力することで、該当する名前がアドレス帳の機能で検索されて、見つかった電話番号への送信処理が、被制御機器で行われる。
特許文献１には、音声入力で宛先検索を行う技術の一例が記載されている。

特開２０１０－１４７６２４号公報

ところで、スマートスピーカと称される音声入出力装置を用いて音声入力を行う場合には、入力された音声情報は、一旦サーバに送られ、そのサーバでＡＩ（人工知能）機能により読みの音声から適切な漢字混じりのテキストに変換される。そして、サーバで変換されたテキスト情報が被制御機器に送られる。

例えば、「ササキさんにソウシンして」と音声で入力したとき、その音声情報を受信したサーバでは、「ササキ」の読みの最も代表的なテキストである「佐々木」の漢字のテキスト情報と、ファクシミリなどを送信する旨の指令が生成され、被制御機器に送られる。

このテキスト情報と指令を受信した被制御機器側では、登録されたアドレス帳から、「佐々木」のテキスト情報と一致する名前の登録があるかを判断する。
ここで、アドレス帳に登録された名前が「佐々木」で、受信したテキスト情報と一致すればよいが、実際には、「ササキ」という読みの漢字には、「笹木」、「佐々城」、「佐々貴」、・・・と様々な漢字が存在する。
したがって、「佐々木」というテキスト情報を受け取った被制御機器には、「笹木」などの異なる漢字のアドレス登録はあるが、「佐々木」というアドレス登録がない場合が考えられる。このような場合には、被制御装置では、該当するアドレスの登録なしとなって、音声入力による送信の指示が実行されない。

このように、代表的な漢字の名前とは異なる漢字の名前がアドレス帳に登録されている場合には、その登録名は、スマートスピーカを使った音声入力では見つけることができないという問題が起こる。

本発明の目的は、漢字などの表語文字で登録されたアドレスを、音声入力で精度良く確
実に検索することが可能なアドレス検索システム及びプログラムを提
供することにある。

上記課題を解決するため、本発明のアドレス検索システムは、使用する地域を設定する制御部と、制御部で設定した地域が漢字を使用する国であるとき、音声認識を行うサーバ又は機器から伝送された、音声認識結果としてのアドレス情報を、表語文字を含むテキスト情報として受け取り、受け取ったテキスト情報を、表語文字から読みの文字のテキスト情報に変換すると共に、変換された読みの文字のテキスト情報を、再度表語文字を含む複数のテキスト情報に変換し、制御部で設定した地域が漢字以外の文字を使用する国であるとき、音声認識を行うサーバ又は機器から伝送された、音声認識結果としてのアドレス情報をテキスト情報とする変換処理部と、変換処理部で変換された表語文字を含む複数のテキスト情報から、登録されたアドレスを検索するアドレス検索部と、アドレス検索部で検索されたアドレスを提示する提示部と、を備える。

また、本発明のプログラムは、アドレス検索をコンピュータに実行させるプログラムであって、使用する地域を設定する制御手順と、制御手順により設定した地域が漢字を使用する国であるとき、音声認識結果としてのアドレス情報を、表語文字を含むテキスト情報としてコンピュータが受け取る受信手順と、受信手順で受け取ったテキスト情報を、コンピュータで表語文字から読みの文字のテキスト情報に変換すると共に、変換された読みの文字のテキスト情報を、コンピュータで再度表語文字を含む複数のテキスト情報に変換し、制御処理により設定した地域が漢字以外の文字を使用する国であるとき、音声認識結果としてのアドレス情報をテキスト情報とする変換手順と、コンピュータが、変換手順で変換された表語文字を含む複数のテキスト情報から、登録されたアドレスを検索するアドレス検索手順と、アドレス検索手順で検索されたアドレスをコンピュータが提示する提示手順と、をコンピュータに実行させるプログラムとしたものである。

本発明によれば、音声入力によるアドレスの検索が、どのような表語文字（漢字）でアドレス登録された場合でも実行できるので、音声入力によるアドレス検索の精度を向上させることができる。

本発明の一実施形態に係るシステムの概略構成図である。本発明の一実施形態に係るシステムに含まれる各装置の構成例を示すブロック図である。本発明の一実施形態に係る機器管理サーバでの処理例を示すフローチャートである。本発明の一実施形態に係るアドレス検索の流れの概要を説明する図である。

以下、本発明を実施するための形態例（以下、「本例」と称する）について、添付図面を参照して説明する。

［画像処理システムの構成］
まず、図１を参照して、本例のシステム構成について説明する。図１は、本例を適用した画像処理システム１００の概要構成図である。

図１に示す画像処理システム１００は、画像形成装置１と、音声入出力装置２と、音声処理サーバ３と、機器管理サーバ４とを備える。図１に示す画像形成装置１、音声入出力装置２、音声処理サーバ３及び機器管理サーバ４は、公衆交換電話網やＩＰ（Internet Protocol）網などよりなるネットワークＮに接続される。

画像形成装置１は、例えば、コピー機能、プリンタ機能、スキャナ機能、ファクシミリ機能等を有する多機能端末（ＭＦＰ：Multi-Functional Peripherals）で構成される。画像形成装置１は、不図示のプリンタコントローラ等から送信された画像データに基づいて用紙（記録材の一例）に画像形成を行い、該画像が形成された用紙を印刷物として出力する。また、画像形成装置１は、ファクシミリ機能によって、電話回線で相手先に画像データを送信することができ、送信先のリストであるアドレス帳のデータを持つ。

音声入出力装置２は、例えば、スマートスピーカで構成され、不図示のマイクロフォン及びスピーカを備える。音声入出力装置２は、マイクロフォンが集音した音声、例えば、ユーザによって発話された音声による操作指示を音声データ（以下、「音声情報」とも称する）に変換し、この音声情報を音声処理サーバ３に送信する。また、音声入出力装置２は、音声処理サーバ３から送信される音声情報を受信して、スピーカから音声を出力する。この音声入出力装置２のスピーカからの音声の出力で、ユーザによって発話された音声指示の結果である応答の音声をユーザに提示する処理が行われる。したがって、音声入出力装置２は、応答音声の提示部としても機能する。

音声処理サーバ３は、例えば、不図示のクラウド上に設けられ、その機能はクラウドアプリケーションサービスとして提供される。音声処理サーバ３は、音声入出力装置２から送信（入力）された音声情報に対して音声解析処理を行う。そして、音声処理サーバ３は、音声解析処理の結果であるテキスト情報やジョブの指示などの情報を、機器管理サーバ４に送信する。例えば、音声処理サーバ３は、音声解析処理で何らかのジョブを指示する音声を判別したとき、そのジョブの指示を機器管理サーバ４に送信する。また、音声解析処理で名前を判別したとき、音声から判別した名前のテキスト情報を機器管理サーバ４に送信する。

機器管理サーバ４は、音声処理サーバ３と同様にクラウド上に設けられ、画像形成装置１を遠隔で管理するサーバである。
機器管理サーバ４は、音声処理サーバ３から受信したテキスト情報やジョブの指示に基づいて、画像形成装置１を制御するコマンド（指示）を生成し、生成したコマンドを画像形成装置１に送信する。また、機器管理サーバ４が音声処理サーバ３からアドレスに関するテキスト情報を受信したとき、そのテキスト情報の変換処理を行い、変換されたテキスト情報を画像形成装置１に送信する。なお、テキスト情報の変換処理の詳細については図３、図４で後述する。

なお、音声処理サーバ３や機器管理サーバ４は、音声入出力装置２に対して応答音声情報や通知音声情報を送信することもできる。機器管理サーバ４からの応答音声情報は、音声処理サーバ３を経由して音声入出力装置２に送信される。

ここで、応答音声情報は、音声入出力装置２へのユーザの発話による操作指示（音声操作）に対する応答情報を伝える音声であり、通知音声情報は、エラーの発生やジョブの終了などの、画像形成装置１からの通知情報を伝える音声である。画像形成装置１へのコマンドには、例えば、印刷、コピー、スキャン、ファクシミリなどのジョブの設定指示や、ジョブの開始指示などが含まれる。

なお、本実施形態では、音声処理サーバ３や機器管理サーバ４がクラウド上に設けられる例を挙げたが、本発明はこれに限定されない。例えば、音声処理サーバ３と機器管理サーバ４のいずれか一方あるいは両方を、画像形成装置１内に設けるようにしてもよい。また、音声処理サーバ３と機器管理サーバ４は、一つのサーバとして構成してもよい。

［各装置の構成］
次に、図２を参照して、画像処理システム１００に含まれる画像形成装置１、音声入出力装置２、音声処理サーバ３及び機器管理サーバ４の構成例について説明する。

［画像形成装置の構成］
まず、画像形成装置１の構成について説明する。図２に示すように、画像形成装置１は、通信部１１、制御部１２、画像形成部１３、音声応答処理部１４、音声出力部１５及び操作表示部１６を備える。

通信部１１は、ネットワークＮを介して接続される音声処理サーバ３との間で行われる各種データの送受信動作を制御する。

制御部１２は、ＣＰＵ（Central Processing Unit）１２０、ＲＡＭ（Random Access Memory）１２１、ＲＯＭ（Read Only Memory）１２２及び記憶部１２３を含む。

ＣＰＵ１２０は、ＲＯＭ１２２に記憶されている、システム全体（画像形成装置１全体）を制御するシステムプログラムや画像形成処理プログラムなどの各種処理プログラムを読み出してＲＡＭ１２１に展開し、展開したプログラムに従って画像形成装置１の各部の動作を制御する。

例えば、ＣＰＵ１２０は、音声処理サーバ３から入力されるコマンドに対応付けられた画像形成処理を、画像形成部１３に実行させる制御を行う。

ＲＡＭ１２１は、ＣＰＵ１２０により実行される各種プログラム及びこれらプログラムに係るデータを一時的に記憶するワークエリアを形成し、このＲＡＭ１２１のワークエリアにジョブのキュー、各種動作の設定等が記憶される。

ＲＯＭ１２２は、半導体メモリ等の不揮発性メモリ等により構成され、このＲＯＭ１２２に画像形成装置１に対応するシステムプログラム、及びシステムプログラム上で実行可能な画像形成処理プログラム、音声応答処理プログラム等が記憶される。これらのプログラムは、コンピュータが読取り可能なプログラムコードの形態で格納され、ＣＰＵ１２０は、当該プログラムコードに従った動作を逐次実行する。

記憶部１２３は、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）などにより構成され、この記憶部１２３に、画像形成装置１に係る各種の設定データや、ＣＰＵ１２０から音声応答処理部１４に対して送信される各種指示に対応する音声データ（音声応答情報、音声通知情報等）などが記憶される。

なお、制御部１２には、ファクシミリ機能の送信先リストであるアドレス帳機能が構成される。すなわち、ＲＯＭ１２２にはアドレス帳の機能を実現するプログラムが記憶され、記憶部１２３には、アドレス帳のデータである名前、電話番号などが記憶される。そして、ＣＰＵ１２０が、アドレス帳のプログラムをＲＯＭ１２２から読み出して実行させることで、アドレス帳が操作表示部１６に表示され、送信先の選択を行うことができる。本例の場合、アドレス帳は、漢字（表意文字）、ひらがな、カタカナ、アルファベット、数字などの様々な文字で名前を登録することができる。
また、制御部１２は、アドレス帳として記憶したアドレスから、入力した検索キーワードと一致するアドレスを検索するアドレス検索処理を実行するアドレス検索部としての機能を有する。

画像形成部１３は、不図示のプリンタコントローラ等から送信された画像データに基づいて用紙に画像形成を行い、画像が形成された用紙を印刷物として出力する。画像形成部１３は、不図示の帯電装置、感光ドラム、露光装置、転写ベルト及び定着装置を備える。

そして、画像形成部１３は、まず、帯電装置により帯電された感光体ドラムに対して、露光装置から画像に応じた光を照射させることにより、感光ドラムの周上に静電潜像を形成する。次いで、画像形成部１３は、現像装置から感光体にトナーを供給させることにより、帯電した静電潜像上にトナーを付着させてトナー像を現像する。次いで、画像形成部１３は、トナー像を転写ベルトに１次転写するとともに、転写ベルトに転写されたトナー像を用紙に２次転写し、さらに、定着装置を用いて転写されたトナー像を用紙に定着する。

なお、本実施形態では、画像形成部１３が電子写真方式を用いて画像形成を行う例を挙げたが、本発明はこれに限定されない。本発明の画像処理システム、画像形成装置では、インクジェット方式等の他の方式で画像形成を行う画像形成部を用いてもよい。

音声応答処理部１４は、ＣＰＵ１２０から入力される指示に対応する音声情報を、記憶部１２３等から抽出して生成し、音声出力部１５に出力する。ＣＰＵ１２０からの指示は、例えば、音声による操作指示に基づく設定において禁則等の設定ミスがあった場合や、動作中にエラーが発生した場合などに行われる。

音声出力部１５は、例えば、スピーカで構成され、音声応答処理部１４から入力される音声情報を再生して音声として出力する。
操作表示部１６は、例えば、ＬＣＤ（Liquid Crystal Display）や有機ＥＬ（Electroluminescence）等よりなる操作画面の表示部と、タッチセンサ等よりなる操作入力部とが一体に形成されたタッチパネルとして構成される。

なお、本実施形態では、表示部及び操作入力部が操作表示部１６として一体に形成される例を挙げたが、本発明はこれに限定されない。表示部と、キーボードやマウス等よりなる操作入力部とが、それぞれ別々に構成されてもよい。または、タッチパネルとして構成された操作表示部１６に加えて、キーボードやマウス等よりなる操作入力部を備える構成としてもよい。

［音声処理サーバの構成］
次に、同じく図２を参照して、音声処理サーバ３の構成について説明する。図２に示すように、音声処理サーバ３は、制御部３１、通信部３２及び音声解析部３３を備える。

制御部３１は、ＣＰＵ３１０、ＲＡＭ３１１、ＲＯＭ３１２及び記憶部３１３を含む。
ＣＰＵ３１０は、ＲＯＭ３１２に記憶されているシステムプログラムや音声処理プログラムなどの各種処理プログラムを読み出してＲＡＭ３１１に展開し、展開したプログラムに従って音声処理サーバ３の各部の動作を制御する。

例えば、ＣＰＵ３１０は、音声入出力装置２から音声情報が送信された場合に、該音声情報に対応する各種指示や音声から判別したテキスト情報を、通信部３２を介して機器管理サーバ４に送信する制御を行う。また、ＣＰＵ３１０は、例えば、機器管理サーバ４から応答情報が送信された場合に、該応答情報に対応する音声情報を、通信部３２を介して音声入出力装置２に送信する制御を行う。

ＲＡＭ３１１には、ＣＰＵ３１０により実行される各種プログラム及びこれらプログラムに係るデータを一時的に記憶するワークエリアが形成される。
ＲＯＭ３１２は、半導体メモリ等の不揮発性メモリ等により構成され、ＲＯＭ３１２に、音声処理サーバ３に対応するシステムプログラム、及びこのシステムプログラム上で実行可能な音声処理プログラム等が記憶される。これらのプログラムは、コンピュータが読取り可能なプログラムコードの形態で格納され、ＣＰＵ３１０は、このプログラムコードに従った動作を逐次実行する。

記憶部３１３は、ＨＤＤやＳＳＤなどにより構成され、この記憶部３１３に、音声処理サーバ３に係る各種の設定データや、音声解析部３３による音声解析結果と対応付けられた、画像処理のジョブに関する指示等が記憶される。

通信部３２は、ネットワークＮを介して接続される音声入出力装置２及び機器管理サーバ４との間で行われる各種データの送受信動作を制御する。
音声解析部３３は、音声入出力装置２から送信される音声情報を解析して、音声解析結果に対応するテキスト情報やジョブの指示などを記憶部３１３から読み出し、制御部３１に出力する。
音声解析部３３による音声情報の解析で、画像形成装置１のジョブの実行を指示する音声を検出した場合、制御部３１は、そのジョブの指示を通信部３２から機器管理サーバ４に送信する。

また、音声解析部３３による音声情報の解析で、名前を示す音声を検出した場合、制御部３１は、名前を示すテキスト情報を通信部３２から機器管理サーバ４に送信する。
なお、図２では、音声解析部３３は、制御部４１とは別の処理部として構成したが、例えばＲＯＭ３１２に記憶されたプログラムを実行することにより音声解析部３３を構成することもできる。

［機器管理サーバの構成］
次に、同じく図２を参照して、機器管理サーバ４の構成について説明する。図２に示すように、機器管理サーバ４は、制御部４１、通信部４２及び機器制御部４３を備える。

制御部４１は、ＣＰＵ４１０、ＲＡＭ４１１、ＲＯＭ４１２及び記憶部４１３を含む。
ＣＰＵ４１０は、ＲＯＭ４１２に記憶されているシステムプログラムや音声処理プログラムなどの各種処理プログラムを読み出してＲＡＭ４１１に展開し、展開したプログラムに従って機器管理サーバ４の各部の動作を制御する。

例えば、ＣＰＵ４１０は、音声処理サーバ３からジョブの指示が送信された場合に、このジョブに対応する画像形成装置１のコマンドを、通信部４２を介して画像形成装置１に送信する制御を行う。なお、画像形成装置１のコマンドは、機器制御部４３から取得されるコマンドである。機器制御部４３には、画像形成装置１の構成についての情報が記憶され、ＣＰＵ４１０は、機器制御部４３が記憶した情報に基づいて、画像形成装置１がどのようなコマンドを受け付けるのか等を判断する。

また、ＣＰＵ４１０は、テキスト情報の変換部としても機能する。すなわち、ＣＰＵ４１０は、音声処理サーバ３から名前のテキスト情報が送信された場合に、受信したテキスト情報を変換処理した後、変換で得られた１つ又は複数のテキスト情報を、通信部４２を介して画像形成装置１に送信する制御を行う。テキスト情報の変換処理を行うプログラムも、ＲＯＭ４１２に記憶されている。なお、テキスト情報の変換処理の具体例については後述する。
また、ＣＰＵ４１０は、例えば、画像形成装置１から応答情報が送信された場合に、この応答情報を、通信部４２を介して音声処理サーバ３に送信する制御を行う。

ＲＡＭ４１１には、ＣＰＵ４１０により実行される各種プログラム及びこれらプログラムに係るデータを一時的に記憶するワークエリアが形成される。
ＲＯＭ４１２は、半導体メモリ等の不揮発性メモリ等により構成され、ＲＯＭ４１２に、機器管理サーバ４に対応するシステムプログラム、及びこのシステムプログラム上で実行可能な機器制御プログラム等が記憶される。これらのプログラムは、コンピュータが読取り可能なプログラムコードの形態で格納され、ＣＰＵ４１０は、このプログラムコードに従った動作を逐次実行する。

記憶部４１３は、ＨＤＤやＳＳＤなどにより構成され、この記憶部４１３に、機器管理サーバ４に係る各種の設定データや、テキスト情報の変換処理に必要な情報が記憶される。

通信部４２は、ネットワークＮを介して接続される画像形成装置１、音声入出力装置２及び音声処理サーバ３との間で行われる各種データの送受信動作を制御する。
機器制御部４３は、ネットワークＮを介して接続される画像形成装置１の構成や機能についての情報を記憶し、画像形成装置１を制御する上で必要な情報を制御部４１に提供する。

［音声指示時の処理］
次に、図３のフローチャートを参照して、本態に係る画像処理システム１００による音声指示時の処理について説明する。
図３に示す例は、音声入出力装置２に入力した音声が、画像形成装置１のアドレス帳に登録された名前を示すものであり、名前をアドレス帳から検索する処理の流れを示す。

まず、音声入出力装置２に入力した音声が、音声処理サーバ３での音声解析処理で、名前の音声情報であると判別される。そして、音声処理サーバ３で音声情報からテキスト情報に変換され、そのテキスト情報が機器管理サーバ４に伝送される。音声処理サーバ３で変換されるテキスト情報は、音声から最も適切と思われる文字のテキスト情報であり、ここでの文字には漢字が含まれる。

図３のフローチャートに従って説明すると、音声処理サーバ３からテキスト情報を受信した機器管理サーバ４の制御部４１は、画像形成装置１を使用する国又は地域が、表意文字である漢字を使用する国又は地域であるか否かを判断する（ステップＳ１１）。
このステップＳ１１で、漢字を使用する国又は地域であると判断したとき（ステップＳ１１のＹＥＳ）、機器管理サーバ４の制御部４１は、受信した漢字を含むテキストを、読みのテキストに変換する（ステップＳ１２）。この読みのテキストへの変換時には、機器管理サーバ４は、例えば記憶部４１３に記憶されている辞書データを利用する。あるいは、機器管理サーバ４は、ネットワークＮを介して外部のサーバに用意された辞書データを利用してもよい。

そして、制御部４１は、変換処理を行うための設定として、読みへの変換数の上限の設定があるか否かを判断する（ステップＳ１３）。
このステップＳ１３で、読みへの変換数の上限がｎ個（ｎは任意の整数）に制限されていると判断したとき（ステップＳ１３のＹＥＳ）、制御部４１は、ステップＳ１２での変換で得られたテキストの内の、上位ｎ個を漢字から読みへの候補にする（ステップＳ１４）。ここでは、漢字を読みに変換する可能性が高いものを上位の候補とする。すなわち、読みに変換される可能性の高いものが上位になり、変換される可能性が低いものが下位になる。この上位や下位の判断には、例えば辞書データが利用される。
また、ステップＳ１３で、読みへの変換数の制限がないと判断したとき（ステップＳ１３のＮＯ）、制御部４１は、ステップＳ１２で変換された全てのテキスト変換結果を、漢字から読みへの変換候補にする（ステップＳ１５）。

次に、制御部４１は、ステップＳ１４又はＳ１５で得られた候補の読みのテキストを、それぞれ漢字を含む名前のテキストに変換する（ステップＳ１６）。
ここで、制御部４１は、変換処理を行うための設定として、漢字への変換数の上限の設定があるか否かを判断する（ステップＳ１７）。

このステップＳ１７で、漢字への変換数の上限がｍ個（ｍは任意の整数）に制限されていると判断したとき（ステップＳ１７のＹＥＳ）、制御部４１は、ステップＳ１６での変換で得られた漢字の名前のテキストの内の、上位ｍ個の漢字への変換結果を、検索キーワードに設定する（ステップＳ１８）。ここでも、辞書データなどを利用して、読みを漢字に変換する可能性が高いものが上位になり、変換される可能性が低いものが下位になる。

また、ステップＳ１７で、漢字への変換数の制限がないと判断したとき（ステップＳ１７のＮＯ）、制御部４１は、ステップＳ１６で変換された全ての漢字へのテキスト変換結果を、検索キーワードに設定する（ステップＳ１９）。

次に、制御部４１は、ステップＳ１４又はＳ１５で得られた検索キーワードのテキスト情報を、通信部４２から画像形成装置１に送信する。検索キーワードのテキスト情報を受信した画像形成装置１では、制御部１２の制御により、受信したテキスト情報を検索キーワードとして、アドレス帳に登録された名前の検索を実行する（ステップＳ２０）。
このアドレス帳の検索で見つかった検索結果の名前のテキスト情報は、画像形成装置１から機器管理サーバ４を経由して音声処理サーバ３に送られる（ステップＳ２１）。

音声処理サーバ３は、受信した検索結果の名前のテキスト情報を音声情報に変換し、変換した音声情報を音声入出力装置２に伝送して、音声入出力装置２内のスピーカから音声を出力する。この音声入出力装置２からの応答の音声の出力は、アドレス帳の検索結果の音声による通知処理として行われる。

また、ステップＳ１１で、漢字を使用しない国又は地域と判断したとき（ステップＳ１１のＮＯ）、機器管理サーバ４の制御部４１は、受信したテキストを、そのまま検索キーワードに設定する（ステップＳ２２）。ステップＳ２２で検索キーワードが設定されたとき、ステップＳ２０に移り、制御部４１は、その検索キーワードを通信部４２から画像形成装置１に送信する。

図４は、本例の画像処理システム１００内により、図３のフローチャートで説明したアドレス検索が実行される具体的な例を示す。
まず、音声入出力装置２の近傍にいるユーザは、音声により「アドレス帳から佐々貴さんを検索して」と指示を行う（ステップＳ１）。このとき、音声入出力装置２から入力された音声情報（アドレスチョウからササキさんを検索して）が音声処理サーバ３に伝送される（ステップＳ２）。

音声処理サーバ３では、受信した「アドレスチョウからササキさんを検索して」の音声情報から、「ササキ」の代表的な名前を示す漢字の「佐々木」のテキスト情報と、指示されたアクションである「アドレス帳検索」の指示とが得られる。この「佐々木」のテキスト情報と、「アドレス帳検索」のアクション情報は、機器管理サーバ４に伝送される（ステップＳ３）。

「佐々木」のテキスト情報と、「アドレス帳検索」のアクション情報を受信した機器管理サーバ４では、アドレス帳検索用の漢字変換処理が実行される（ステップＳ４）。
すなわち、機器管理サーバ４では、最初に漢字が読みに変換される。
ここでは、漢字のテキスト情報である「佐々木」が、辞書データを参照して、ひらがな（又はカタカナ）のテキスト情報の「ささき」に変換される。なお、漢字から読みに変換する際の候補が複数ある場合には、その複数の読みのテキスト情報に変換される。但し、図３のステップＳ１４で説明したように、候補数に上限ｎの設定があるとき、上位ｎ個までのテキスト情報に制限される。

次に、機器管理サーバ４では、読みから漢字に変換される（ステップＳ５）。
ここで、機器管理サーバ４は、「ささき」のテキスト情報から、辞書データを参照して、「佐々木」、「佐々城」、「佐々貴」、・・・と、同じ読みの複数の漢字のテキスト情報に変換する。ここでも、図３のステップＳ１８で説明したように、候補数に上限ｍの設定があるとき、上位ｍ個までのテキスト情報に制限される。この例では、機器管理サーバ４は、例えば上限ｍが３であるとし、上位３つの漢字のテキスト情報「佐々木」と「佐々城」と「佐々貴」とを、それぞれ検索キーワードに設定する。

機器管理サーバ４で得られた３つの検索キーワード「佐々木」、「佐々城」、「佐々貴」のテキスト情報は、「アドレス帳検索」のアクション情報と共に画像形成装置１に伝送される（ステップＳ６）。
この情報を受信した画像形成装置１は、アドレス帳として登録されたデータの検索を実行し、３つの検索キーワード「佐々木」、「佐々城」、「佐々貴」について検索する。

ここでは、検索により検索キーワード「佐々木」は該当する名前の登録がなく、検索キーワード「佐々城」も該当する名前の登録がなく、「佐々貴」は該当する名前を含むアドレスの登録が１件あったとする。すなわち、「佐々貴太郎」という氏名のアドレス登録が１件あったとする。

このとき、画像形成装置１は、検索された「佐々貴太郎」のテキスト情報を、アドレス帳検索結果として機器管理サーバ４を経由して音声処理サーバ３に伝送する（ステップＳ７，Ｓ８）。
アドレス帳検索結果「佐々貴太郎」を受信した音声処理サーバ３は、アドレス帳検索結果が「佐々貴太郎」であることを示す音声情報を音声入出力装置２に伝送し、音声入出力装置２は、伝送された音声をスピーカから出力する（ステップＳ９）。
例えば、音声入出力装置２は、検索結果ガイダンスの音声として、「アドレス帳より『佐々貴太郎』さんが見つかりました。宛先に設定しますか？」を出力する。

以上説明したように、本例によると、スマートスピーカと称される音声入出力装置２に対して音声で指示した場合における画像形成装置１でのアドレス検索を、高い精度で行うことができる。
すなわち、例えば図４で説明した例の場合、音声で「ささき」と入力したとき、本例の変換処理を機器管理サーバ４で実行しないとき、「ささき」の代表的な漢字である「佐々木」しか検索されず、同じ読みの別の漢字で登録されたアドレスは検索されなくなってしまう。
一方、本例の場合には、機器管理サーバ４が一旦読みに変換した後、複数の候補に変換するため、同じ読みの別の漢字で登録されたアドレスについても正しく検索できるようになり、検索精度が向上する。

なお、本例の処理は、漢字などの表意文字を使用する場合に効果があるものである。したがって、本例の処理は、漢字（表意文字）を使用する国又は地域以外で画像形成装置１を使用する場合には実行する必要がない。このため、図３のフローチャートのステップＳ１１で説明したように、画像形成装置１を使用する国又は地域を確認した上で、本例の処理を実行するようにしたことで、不要な場合の機器管理サーバ４の負担を軽減できる。

また、図３のフローチャートのステップＳ１８で説明したように、読みのテキストを漢字に変換して検索キーワードを得る際の候補の上限の数を設定できるようにしたことで、機器管理サーバ４での変換処理や画像形成装置１での検索の負担を軽減することができる。

さらに、図３のフローチャートのステップＳ１３、Ｓ１４、Ｓ１５で説明したように、漢字のテキストを読みのテキストに変換する際にも、１つ漢字から読みが複数存在する場合の候補の選定を適正に行うことができ、この点からも検索精度の向上につながる。
例えば「渡辺」の名前は、「わたなべ」、「わたべ」、「わたのべ」などと読むことが可能であり、これらの複数の読みを漢字に変換しアドレス帳検索の候補を増やすことでより検索精度の向上が図れる。

この漢字のテキストを読みのテキストに変換する際にも、図３のフローチャートのステップＳ１４で説明したように、候補の上限の数を設定できるようにしたことで、機器管理サーバ４での変換処理の負担を軽減できるようになる。
なお、ステップＳ１８での読みのテキストを漢字に変換する上限の数ｍや、ステップＳ１４での上限の数ｎは、例えば画像処理システム１００を構成させる際に、システム側で決めて、機器管理サーバ４に登録すればよい。あるいは、画像形成装置１を利用するユーザが、これらの上限の数を設定してもよい。あるいは、画像形成装置１が印字動作中は、検索キーワードを制限して、画像形成装置１の動作状況に応じて切り替えるようにしてもよい。

＜各種変形例＞
なお、本発明は上述した実施の形態例に限られるものではなく、特許請求の範囲に記載した本発明の要旨を逸脱しない限りにおいて、その他種々の応用例、変形例を取り得る。

例えば、上述した実施の形態例では、音声入出力装置２としてスマートスピーカが用いられる例を挙げたが、本発明はこれに限定されない。音声入出力装置２として、携帯電話端末やスマートフォンなどのユーザが所持した携帯端末装置を用いてもよい。

また、図１や図２に示す構成では、音声処理サーバ３と機器管理サーバ４とを設けるようにしたが、これらのサーバ３，４は１つのサーバとして構成してもよい。
あるいは、音声処理サーバ３で得られた漢字（表意文字）のテキスト情報を、画像形成装置１に送り、画像形成装置１内で漢字から読みへの変換と、読みから複数の漢字の検索キーワードへの変換とを行うようにしてもよい。

画像形成装置１内で変換を行う場合には、画像形成装置１がマイクロフォンと音声認識処理部を備えて、ユーザからの音声を画像形成装置１が入力できるようにして、音声入出力装置２や各サーバ３，４を省略した構成としてもよい。
また、音声入出力装置２を備えるシステム構成の場合でも、応答音声については、画像形成装置１自身が出力するようにしてもよい。あるいは、検索結果については、画像形成装置１が備える操作表示部１６が表示でユーザに提示するようにしてもよい。

さらに、アドレス帳からのキーワード検索は、アドレス帳のデータが記憶された画像形成装置１が行うようにしたが、機器管理サーバ４（又は音声処理サーバ３）が、画像形成装置１と通信を行いながら、キーワード検索の処理を実行するようにしてもよい。あるいいは、機器管理サーバ４又は音声処理サーバ３が、画像形成装置１に登録されたアドレス帳の情報を読み出して記憶し、機器管理サーバ４又は音声処理サーバ３の内部でキーワード検索を行うようにしてもよい。

また、上述した実施の形態例では、画像形成装置１を備えたシステムとしたが、電話機などのその他のアドレス帳のデータを記憶した機器やシステムにも本発明は適用が可能である。

また、上述した各実施形態例で説明した各サーバ３，４や画像形成装置１での処理は、その処理手順を実行するプログラムとして構成して、既存のサーバや画像形成装置に実装することで、既存のサーバや画像形成装置を、本発明の画像処理システム１００として構成してもよい。プログラムは、半導体メモリや各種ディスクなどの記録媒体に格納することができる。あるいは、インターネット等の伝送媒体を介して、サーバや画像形成装置にプログラムを配布してもよい。

１…画像形成装置、２…音声入出力装置、３…音声処理サーバ、４…機器管理サーバ、１１…通信部、１２…制御部、１３…画像形成部、１４…音声応答処理部、１５…音声出力部、１６…操作表示部、３１…制御部、３２…通信部、３３…音声解析部、４１…制御部、４２…通信部、４３…機器制御部、１００…画像処理システム

Claims

使用する地域を設定する制御部と、
前記制御部で設定した地域が漢字を使用する国であるとき、音声認識を行うサーバ又は機器から伝送された、音声認識結果としてのアドレス情報を、表語文字を含むテキスト情報として受け取り、受け取ったテキスト情報を、表語文字から読みの文字のテキスト情報に変換すると共に、変換された読みの文字のテキスト情報を、再度表語文字を含む複数のテキスト情報に変換し、前記制御部で設定した地域が漢字以外の文字を使用する国であるとき、音声認識を行うサーバ又は機器から伝送された、音声認識結果としてのアドレス情報をテキスト情報とする変換部と、
前記変換部で変換された表語文字を含む複数のテキスト情報から、登録されたアドレスを検索する検索部と、
前記検索部で検索されたアドレスを提示する提示部と、を備える
アドレス検索システム。
前記変換部で、受け取ったテキスト情報を、表語文字から読みの文字のテキスト情報に変換する際に、複数の変換パターンで読みの文字のテキスト情報に変換し、表語文字から複数の読みの文字のテキスト情報に変換する際の候補数に上限を持たせると共に、読みの文字のテキスト情報を、表語文字を含む複数のテキスト情報に変換する際の候補数についても上限を持たせるようにした
請求項１に記載のアドレス検索システム。
アドレス検索をコンピュータに実行させるプログラムであって、
使用する地域を設定する制御手順と、
前記制御手順により設定した地域が漢字を使用する国であるとき、音声認識結果としてのアドレス情報を、表語文字を含むテキスト情報として前記コンピュータが受け取る受信手順と、
前記受信手順で受け取ったテキスト情報を、前記コンピュータで表語文字から読みの文字のテキスト情報に変換すると共に、変換された読みの文字のテキスト情報を、前記コンピュータで再度表語文字を含む複数のテキスト情報に変換し、前記制御手順により設定した地域が漢字以外の文字を使用する国であるとき、音声認識結果としてのアドレス情報をテキスト情報とする変換手順と、
前記コンピュータが、前記変換手順で変換された表語文字を含む複数のテキスト情報から、登録されたアドレスを検索するアドレス検索手順と、
前記アドレス検索手順で検索されたアドレスを前記コンピュータが提示する提示手順と、
をコンピュータに実行させるプログラム。