JP2021179821A

JP2021179821A - 情報処理装置及び宛先検索方法

Info

Publication number: JP2021179821A
Application number: JP2020084935A
Authority: JP
Inventors: 祐介御子柴; Yusuke Mikoshiba
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2020-05-14
Filing date: 2020-05-14
Publication date: 2021-11-18
Also published as: US11769494B2; US20210358485A1

Abstract

【課題】ユーザー又は氏名情報の管理者の手間を要さず、かつ、会話フローのパフォーマンスを低下させずに、音声操作による宛先検索を精度良く行えるようにする。【解決手段】本発明の一側面の情報処理装置１の宛先検索部１７は、音声処理サーバー３から出力されて通信部１１が受信した指示が、氏名を検索文字列とした宛先の検索指示である場合、氏名及び氏名の宛先の情報が登録された宛先一覧１２３ａの、氏名の姓名間にスペース文字が含まれる場合における該スペース文字を、検索の対象に含めるか否かを、発話言語情報に基づいて判定し、該判定の結果に基づいて、検索文字列に示される氏名を宛先一覧１２３ａから検索する。【選択図】図２

Description

本発明は、情報処理装置及び宛先検索方法に関する。

従来、ユーザーにより発話された音声をテキストデータに変換して出力するスマートスピーカー等の音声入出力装置が知られており、該音声入出力装置と連携することにより、ユーザーによる音声操作を可能とした装置も増えている。

上述した装置には、音声操作により指示された氏名を検索文字列として、装置が扱う各種データの送信先である宛先を検索する機能を提供するものもある。例えば、ユーザーが発話する言語が英語である場合、音声入出力装置と連携された装置に対して送信されるテキストデータにおいては、“Search Tom Brown”のように、氏名の姓と名との間にスペース文字が入る。英語においては、文章を構成する各単語間にスペースが入るためである。

一方、ユーザーが発話する言語が日本語や韓国語、中国語などの言語である場合には、装置に送信されるテキストデータにおいて、姓名間にスペース文字は入らない。これらの言語においては、文章を構成する各単語間にスペースは入らないためである。したがって、発話言語が日本語や韓国語、中国語などである場合、検索の対象となる宛先一覧においては、姓名間にスペース文字が入った状態で氏名が登録されている場合であっても、“山田太郎で検索して”のように、姓名間にスペース文字が挿入されていないテキストデータが装置に送信されてしまう。

この場合、装置では、姓名間にスペース文字が含まれないテキストデータに示される氏名と、姓名間にスペース文字が含まれる宛先の登録名称とが比較されるため、本来であれば、「山田太郎」等の該当する氏名が登録されているにもかかわらず、該当する氏名は存在しないと誤判定される現象が起こりうる。

例えば、特許文献１には、アドレス帳に登録されているエントリのうち、その「よみ」に、音声認識処理に得られた認識結果である第１検索タームを含み、かつ、その「名前」に、文字入力部で受け付けられる文字への仮名漢字変換処理によって得られた漢字である第２検索タームを含むものを抽出する技術が開示されている。

特開２０１０−１４７６２４号公報

しかしながら、特許文献１に記載の技術では、ユーザーは、音声入力部への音声入力の他に文字入力部への文字入力を行う必要があり、ユーザーの手間を要してしまう。なお、上述した、本来であれば該当する氏名が登録されているにもかかわらず、該当する氏名がないと判定されてしまう現象の発生を防ぐ手法としては、以下のような手法も考えられる。

（１）姓と名との間において「スペース」という単語を発話すること等によって、スペース文字の入力を明示的に指示することにより、発話言語が日本語である場合にも、検索に用いられる氏名の姓名間にスペースを入れられるようにする。
（２）宛先として指定される氏名及び宛先が管理される宛先一覧において、姓名間のスペース文字を削除して氏名を登録する。
（３）氏名における姓と名とを分離する、テキスト解析の仕組みを別途導入する。

しかしながら、（１）の手法を採用する場合、宛先検索を行うユーザーが検索の度にスペース入力を明示的に発話する必要があり、ユーザーの手間を要してしまう。また、（２）の手法を採用する場合、宛先名称の登録時に姓名間にスペース文字を挿入するか否かを、言語によって変更する必要があるため、多言語環境下でアドレス帳を管理することが難しくなる。また、（３）の手法を採用する場合、テキスト解析の時間が余分にかかるため、音声発話による検索指示から検索の実行完了までの間に、時間がかかってしまうことが考えられる。

本発明はこのような状況に鑑みてなされたものである。本発明の目的は、ユーザー又は宛先一覧の管理者の手間を要さず、かつ、会話フローのパフォーマンスを低下させずに、音声操作による宛先検索を精度良く行えるようにすることにある。

上記課題のうちの少なくとも１つを解決するため、本発明の一側面を反映した情報処理装置は、ユーザーの発話による指示をテキストデータに変換して出力する音声入出力装置から送信されたテキストデータを解析し、解析して得られた指示、及び、発話された言語を示す発話言語情報を出力する音声処理サーバーと接続される情報処理装置である。情報処理装置は、音声処理サーバーと通信を行う通信部と、音声処理サーバーから出力されて通信部が受信した指示が、氏名を検索文字列とした宛先の検索指示である場合、氏名及び氏名の宛先の情報が登録された宛先一覧の、氏名の姓名間にスペース文字が含まれる場合における該スペース文字を、検索の対象に含めるか否かを、発話言語情報に基づいて判定し、該判定の結果に基づいて、検索文字列に示される氏名を宛先一覧から検索する宛先検索部と、宛先検索部による宛先の検索結果を、通信部を介して音声処理サーバーに送信する制御を行う制御部と、を備える。

また、本発明の一側面を反映した宛先検索方法は、ユーザーの発話による指示をテキストデータに変換して出力する音声入出力装置から送信されたテキストデータを解析し、解析して得られた指示、及び、発話された言語を示す発話言語情報を出力する音声処理サーバーと接続される情報処理装置における宛先検索方法である。宛先検索方法は、音声処理サーバーから出力されて通信部が受信した指示が、氏名を検索文字列とした宛先の検索指示である場合、氏名及び氏名の宛先の情報が登録された宛先一覧の、氏名の姓名間にスペース文字が含まれる場合における該スペース文字を、検索の対象に含めるか否かを、発話言語情報に基づいて判定し、該判定の結果に基づいて、検索文字列に示される氏名を宛先一覧から検索する手順と、宛先の検索結果を、通信部を介して音声処理サーバーに送信する制御を行う手順と、を含む。

本発明によれば、ユーザー又は宛先一覧の管理者の手間を要さず、かつ、会話フローのパフォーマンスを低下させずに、音声操作による宛先検索を精度良く行うことができる。なお、上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。

本発明の第１の実施形態に係る画像処理システムの概要構成図である。本発明の第１の実施形態に係る画像形成装置及び音声処理サーバーの制御系の構成例を示すブロック図である。本発明の第１の実施形態に係る画像処理システムによる宛先検索処理の手順の例を示すシーケンス図である。本発明の第１の実施形態に係る宛先検索部による宛先検索処理の手順の例を示すフローチャートである。本発明の第２の実施形態に係る画像処理システムの概要構成図である。本発明の第２の実施形態に係る画像処理システムによる宛先検索処理の手順の例を示すシーケンス図である。本発明の第２の実施形態の変形例に係る画像処理システムによる宛先検索処理の手順の例を示すシーケンス図である。本発明の第２の実施形態の変形例に係る宛先検索部による宛先検索依頼処理の手順の例を示すフローチャートである。

＜第１の実施形態＞
［画像処理システムの構成］
まず、図１を参照して、本発明の第１の実施形態に係る画像処理システムの構成について説明する。図１は、本発明の第１の実施形態に係る画像処理システム１００の概要構成図である。

図１に示す画像処理システム１００は、画像形成装置１（情報処理装置の一例）と、音声入出力装置２と、音声処理サーバー３と、を含む。音声入出力装置２及び音声処理サーバー３間、並びに、音声処理サーバー３及び画像形成装置１間は、公衆交換電話網やＩＰ（Internet Protocol）網などよりなるネットワークＮを介して接続される。

画像形成装置１は、例えば、コピー機能、プリンター機能、スキャナー機能等を有するＭＦＰ（Multi-Functional Peripherals）で構成される。画像形成装置１は、不図示の端末装置等から送信された画像データに基づいて用紙に画像形成を行い、該画像が形成された用紙を印刷物として出力する。また、画像形成装置１は、スキャナー機能で読み取ったスキャンデータ等を、音声入出力装置２への音声操作や操作表示部１３（図２参照）への操作による指示によって特定された宛先に送信することも行う。

音声入出力装置２は、例えば、スマートスピーカーで構成され、不図示のマイクロフォン及びスピーカーを備える。音声入出力装置２は、マイクロフォンが集音した音声、例えば、ユーザーによって発話された指示をテキストデータに変換し、該テキストデータを音声処理サーバー３に送信する。このとき、音声入出力装置２は、テキストデータの送信時に、起動ワードの受付時に判定した発話言語（日本語、英語等）の情報（以下、「発話言語情報」とも称する）も、音声処理サーバー３に送信する。また、音声入出力装置２は、音声処理サーバー３から送信される音声情報を再生して、スピーカーから放音する。

音声処理サーバー３は、例えば、不図示のクラウド上に設けられ、その機能はクラウドアプリケーションサービスとして提供される。音声処理サーバー３は、音声入出力装置２から送信されたテキストデータに対して構文解析を行い、音声解析処理の結果に対応する画像形成装置１への指示を、画像形成装置１に送信する。音声解析処理の結果に対応する画像形成装置１への指示には、音声入出力装置２から送信されたテキストデータに含まれる氏名を検索文字列とした宛先の検索指示がある。

なお、本実施形態では、音声処理サーバー３がクラウド上に設けられる例を挙げたが、本発明はこれに限定されない。音声処理サーバー３は、画像形成装置１内に設けられてもよく、不図示のオンプレミスサーバー等の内部に設けられてもよい。また、音声処理サーバー３と画像形成装置１との間に、ジョブに関する音声情報を音声処理サーバー３から受信して保存したり、画像形成装置１にジョブを渡したりする処理を行う中継サーバー等が設けられてもよい。

［画像形成装置及び音声処理サーバーの制御系の構成］
次に、図２を参照して、画像形成装置１及び音声処理サーバー３の制御系の構成について説明する。図２は、画像形成装置１及び音声処理サーバー３の制御系の構成例を示すブロック図である。

〔画像形成装置の制御系の構成〕
まず、画像形成装置１の制御系の構成の説明を行う。図２に示すように、画像形成装置１は、通信Ｉ／Ｆ（Interface）部１１と、制御部１２と、操作表示部１３と、画像読取部１４と、画像処理部１５と、画像形成部１６と、宛先検索部１７と、を含む。

通信Ｉ／Ｆ部１１（通信部の一例）は、ネットワークＮを介して接続される音声処理サーバー３との間で行われる各種データの送受信動作を制御する。

制御部１２は、ＣＰＵ（Central Processing Unit）１２０と、ＲＡＭ（Random Access Memory）１２１と、ＲＯＭ（Read Only Memory）１２２と、記憶部１２３と、を含む。

ＣＰＵ１２０は、ＲＯＭ１２２に記憶されているシステムプログラムや画像形成処理プログラム、宛先検索プログラムなどの各種処理プログラムを読み出してＲＡＭ１２１に展開し、展開したプログラムに従って画像形成装置１の各部の動作を制御する。例えば、ＣＰＵ１２０は、音声処理サーバー３から入力される指示に基づいて、画像形成装置１が有する音声処理機能（図示略）を起動させ、音声処理機能を実現する各部に対して、音声操作に基づく各種指示を実行させる。

具体的には、音声処理サーバー３から入力される指示が、スキャンデータの送信先の宛先の検索指示である場合、ＣＰＵ１２０は、音声処理機能を実現する宛先検索部１７に対して、音声で入力された氏名を、宛先一覧１２３ａを対象として検索させる制御を行う。また、ＣＰＵ１２０は、検索結果が見つかった場合には、該検索結果を、通信Ｉ／Ｆ部１１を介して音声処理サーバー３に送信する制御も行う。さらに、ＣＰＵ１２０は、検索結果の宛先へのスキャンデータの送信制御も行う。

ＲＡＭ１２１は、ＣＰＵ１２０がプログラムを実行する為に必要なデータや画像データ（スキャン画像データ、プリント画像データ、仕上がりプレビュー画像データ）などを、一時的に記憶する。

ＲＯＭ１２２は、半導体メモリ等の不揮発性メモリ等により構成され、画像形成装置１に対応するシステムプログラム、及び、該システムプログラム上で実行可能な各種プログラム等を記憶する。ＲＯＭ１２２に記憶されたプログラムは、コンピュータが読取り可能なプログラムコードの形態で格納され、ＣＰＵ１２０は、当該プログラムコードに従った動作を逐次実行する。

記憶部１２３は、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）などにより構成され、画像形成装置１に係る各種の設定データや画像データ、宛先として検索される氏名及び宛先の情報が格納された宛先一覧１２３ａなどを記憶する。宛先一覧１２３ａでは、ユーザーの氏名の情報と、メールアドレス又は電話番号等の宛先の情報とが対応付けて管理される。

操作表示部１３は、例えば、ＬＣＤ（Liquid Crystal Display）や有機ＥＬ（Electroluminescence）等よりなる表示部と、タッチセンサ等よりなる操作入力部とが一体に形成されたタッチパネルとして構成される。操作表示部１３の表示部には、例えば、コピーやスキャン、印刷などの各種ジョブに関する設定を行う設定画面等が表示される。

なお、本実施形態では、表示部及び操作入力部が操作表示部１３として一体に形成される例を挙げたが、本発明はこれに限定されない。表示部と、キーボードやマウス等よりなる操作入力部とが、それぞれ別々に構成されてもよい。または、タッチパネルとして構成された操作表示部１３に加えて、キーボードやマウス等よりなる操作入力部を備える構成としてもよい。

画像読取部１４は、不図示の原稿台上に載置された原稿から画像データを光学的に読み取る。画像読取部１４は、ＣＣＤ（Charge Coupled Devices）又はＣＭＯＳ（Complementary Metal Oxide Semiconductor）等よりなるイメージセンサ、該イメージセンサによる走査を制御する走査制御（いずれも図示略）等を備える。イメージセンサは、不図示の光源から照射されて原稿から反射された光を受光して、該光を電気信号に変換する。走査制御部は、イメージセンサの動作の制御や、イメージセンサから出力される電気信号の処理等を行う。

画像処理部１５は、不図示の端末装置から送信された画像データに対して、色調整、濃度調整、コントラスト調整、配色変換、画像のサイズ調整、画像中の文字幅の調整などの各種画像処理を行う。

画像形成部１６は、画像処理部１５で画像処理された画像データに基づいて用紙に画像形成を行い、該画像が形成された用紙を印刷物として出力する。画像形成部１６は、帯電装置と、感光ドラムと、露光装置と、転写ベルトと、定着装置（いずれも図示略）と、を備える。

そして、画像形成部１６は、まず、帯電装置により帯電された感光体ドラムに対して、露光装置から画像に応じた光を照射させることにより、感光ドラムの周上に静電潜像を形成させる。次いで、画像形成部１６は、現像装置から感光体にトナーを供給させることにより、帯電した静電潜像上にトナーを付着させてトナー像を現像させる。次いで、画像形成部１６は、トナー像を転写ベルトに１次転写させるとともに、転写ベルトに転写されたトナー像をから用紙に２次転写させ、さらに、定着装置に、用紙上に転写されたトナー像を用紙に定着させる。

なお、本実施形態では、画像形成部１６が電子写真方式を用いて画像形成を行う例を挙げたが、本発明はこれに限定されない。本発明の画像処理システム、画像形成装置では、インクジェット方式等の他の方式で画像形成を行う画像形成部が用いられてもよい。

宛先検索部１７は、画像形成装置１の音声処理機能の一つを担う部であり、音声処理サーバー３から送信された検索文字列に示される氏名を、宛先一覧１２３ａから検索する。具体的には、宛先検索部１７は、検索文字列とともに送信される発話言語情報に基づいて、宛先一覧１２３ａに登録された氏名の姓と名との間にあるスペース文字を含めて宛先検索を行うか、含めずに宛先検索を行うかを判定し、該判定の結果に基づいて氏名の検索を行う。

例えば、発話言語情報において、発話言語が、発話音声における姓名間にスペースが入らない言語であることが示されている場合であって、宛先一覧１２３ａに登録された氏名の姓名間にはスペースが入っている場合、宛先検索部１７は、宛先一覧１２３ａにおける姓名間のスペースを無視して検索文字列の検索を行う。発話音声における姓名間にスペースが入らない言語には、例えば、日本語、韓国語、中国語等がある。

一方、発話言語情報において、発話言語が、発話音声における姓名間にスペースが入る言語であることが示されている場合、宛先検索部１７は、宛先一覧１２３ａにおける姓名間のスペースを含めて検索文字列の検索を行う。発話音声における姓名間にスペースが入る言語には、例えば、英語、フランス語、ドイツ語等がある。

また、宛先検索部１７は、宛先の検索指示が、操作表示部１３を介して入力された場合、宛先一覧１２３ａに登録された氏名の姓名間のスペース文字を含めて、指定された氏名を検索する。

〔音声処理サーバーの制御系の構成〕
次に、同じく図２を参照して、音声処理サーバー３の制御系の構成について説明する。図２に示すように、音声処理サーバー３は、制御部３１と、通信Ｉ／Ｆ部３２と、構文解析部３３と、を含む。

制御部３１は、ＣＰＵ３１０と、ＲＡＭ３１１と、ＲＯＭ３１２と、記憶部３１３と、を含む。

ＣＰＵ３１０は、ＲＯＭ３１２に記憶されているシステムプログラムや音声処理プログラムなどの各種処理プログラムを読み出してＲＡＭ３１１に展開し、展開したプログラムに従って音声処理サーバー３の各部の動作を制御する。

例えば、ＣＰＵ３１０は、音声入出力装置２からテキストデータが送信された場合に、該テキストデータを構文解析部３３に解析させたり、構文解析部３３で解析して得られた各種指示を、通信Ｉ／Ｆ部３２を介して画像形成装置１に送信させたりする制御を行う。

ＲＡＭ３１１は、ＣＰＵ３１０により実行される各種プログラム及びこれらプログラムに係るデータを一時的に記憶するワークエリアを形成する。

ＲＯＭ３１２は、半導体メモリ等の不揮発性メモリ等により構成され、音声処理サーバー３に対応するシステムプログラム、及び、該システムプログラム上で実行可能な音声処理プログラム等を記憶する。これらのプログラムは、コンピュータが読取り可能なプログラムコードの形態で格納され、ＣＰＵ３１０は、当該プログラムコードに従った動作を逐次実行する。

記憶部３１３は、ＨＤＤやＳＳＤなどにより構成され、音声処理サーバー３に係る各種の設定データや、構文解析部３３による音声解析結果と対応付けられた、画像処理のジョブに関する指示等を記憶する。

通信Ｉ／Ｆ部３２は、ネットワークＮを介して接続される音声入出力装置２との間で行われる各種データの送受信動作を制御する。

構文解析部３３は、音声入出力装置２から送信されるテキストデータを構文解析して、解析結果に対応する指示、例えば、宛先検索指示や各種設定項目の設定指示、ジョブの開始指示などを記憶部３１３から読み出し、制御部３１に出力する。

［画像処理システムによる宛先検索処理］
次に、図３を参照して、画像処理システム１００による宛先検索処理の手順について説明する。図３は、画像処理システム１００による宛先検索処理の手順の例を示すシーケンス図である。

まず、ユーザーから音声入出力装置２に対して、「ＭＦＰでスキャンして」と発話することにより音声操作が入力される（ステップＳ１）。次いで、音声入出力装置２において、ステップＳ１で入力された指示の内容が判定される（ステップＳ２）。ステップＳ２では、音声入出力装置２は、ユーザーが発話した言語（発話言語）と、音声操作に基づいて起動すべき画像形成装置１内の機能の種類と、機能の起動後に画像形成装置１が行うべき処理と、を判定する。なお、発話言語の判定は、ステップＳ１に先だってユーザーにより入力される起動ワードに基づいて行う。

例えば、音声入出力装置２は、発話言語は“Ｊａ−ＪＰ”（日本語）であり、起動すべき機能は“音声処理機能”であり、音声処理機能の起動後に行う処理は“スキャン”であると判定する。

次いで、音声入出力装置２は、音声処理サーバー３に対して、音声処理機能の起動指示を送信する（ステップＳ３）。ステップＳ３では、音声入出力装置２は、音声処理機能の起動指示として、ステップＳ２で判定した指示の内容（発話言語情報、起動すべき画像形成装置１内の機能の種類、機能の起動後に画像形成装置１が行うべき処理）も送信する。

次いで、音声処理サーバー３の制御部３１（図２参照）は、ステップＳ３で音声入出力装置２から送信された音声処理機能の起動指示を、通信Ｉ／Ｆ部３２を介して、画像形成装置１に送信する（ステップＳ４）。次いで、画像形成装置１の制御部１２は、音声処理機能を実現する宛先検索部１７を起動するとともに、操作表示部１３に、スキャンの操作を行うためのスキャン画面を表示させる（ステップＳ５）。

次いで、画像形成装置１の制御部１２は、通信Ｉ／Ｆ部１１を介して音声処理サーバー３に、起動結果を通知する（ステップＳ６）。次いで、音声処理サーバー３の制御部３１は、ステップＳ６で送信された起動結果に基づくレスポンス文を生成する（ステップＳ７）。具体的には、音声処理サーバー３の制御部３１は、ステップＳ７で、スキャン画面の起動後にユーザーに通知すべき音声アナウンスの文章を生成する。

次いで、音声処理サーバー３の制御部３１は、ステップＳ７で生成したレスポンス文を、通信Ｉ／Ｆ部３２を介して音声入出力装置２に送信する（ステップＳ８）。次いで、音声入出力装置２は、ステップＳ８で音声処理サーバー３から送信されたレスポンス文に対応する音声（「スキャン宛先を設定して下さい」）を不図示のスピーカーから出力する（ステップＳ９）。

次いで、ユーザーから音声入出力装置２に対して、「山田太郎で検索して」と発話することにより音声操作が入力される（ステップＳ１０）。次いで、音声入出力装置２は、ステップＳ１０でユーザーから入力された音声を認識するとともに、認識結果を表すテキストデータを生成する（ステップＳ１１）。次いで、音声入出力装置２は、ステップＳ１２で生成したテキストデータと、発話言語情報と、を、音声処理サーバー３に送信する（ステップＳ１２）。具体的には、音声入出力装置２は、“山田太郎で検索して”というテキストデータと、“Ｊａ−ＪＰ”という発話言語情報と、を、音声処理サーバー３に送信する。

次いで、音声処理サーバー３の構文解析部３３は、ステップＳ１２で音声入出力装置２から送信されたテキストデータを構文解析する（ステップＳ１３）。次いで、音声処理サーバー３の制御部３１は、ステップＳ１３で行った構文解析の結果に基づいて、画像形成装置１に対するリクエスト文を生成する（ステップＳ１４）。具体的には、音声処理サーバー３の制御部３１は、以下のようなリクエスト文を生成する。

Request{job id:“1111”, action:“Search”, data“山田太郎”,language:“ja-JP”}

上記リクエスト文において、「job id」は、音声処理のジョブに対して自動的に割り振られるジョブのＩＤであり、「action:“Search”」は、画像形成装置１が実行すべきアクションが「宛先検索」であることを示す。また、「data：“山田太郎”」は、宛先検索の検索文字列は「山田太郎」であることを示し、「language:“ja-JP”」は、発話言語が日本語であることを示す。

次いで、音声処理サーバー３の制御部３１は、通信Ｉ／Ｆ部３２を介して画像形成装置１に、ステップＳ１４で生成したリクエスト文を送信する（ステップＳ１５）。次いで、画像形成装置１の宛先検索部１７は、ステップＳ１５で音声処理サーバー３から送信されたリクエスト文に基づいて、宛先検索処理を実行する（ステップＳ１６）。宛先検索部１７による宛先検索処理については、次の図４を参照して詳述する。

次いで、画像形成装置１の制御部１２は、ステップＳ１６の宛先検索処理による検索結果を、通信Ｉ／Ｆ部１１を介して、音声処理サーバー３に送信する（ステップＳ１７）。次いで、音声処理サーバー３の制御部３１は、ステップＳ１７で画像形成装置１から送信された検索結果に基づいて、レスポンス文を生成する（ステップＳ１８）。

次いで、音声処理サーバー３の制御部３１は、通信Ｉ／Ｆ部３２を介して、ステップＳ１８で生成したレスポンス文を音声入出力装置２に送信する（ステップＳ１９）。次いで、音声入出力装置２は、ステップＳ１９で音声処理サーバー３から送信されたレスポンス文に対応する音声（「山田太郎で宛先が１件見つかりました。宛先に設定しますか？」）を、不図示のスピーカーから出力する（ステップＳ２０）。そして、画像形成装置１の制御部１２は、操作表示部１３の画面に、検索結果を表示する（ステップＳ２１）。

［画像処理システムによる宛先検索処理］
次に、図４を参照して、画像形成装置１の宛先検索部１７による宛先検索処理について説明する。図４は、宛先検索部１７による宛先検索処理の手順の例を示すフローチャートである。

まず、宛先検索部１７は、ユーザーの発話言語は、発話音声における姓名間にスペースが入らない言語であるか否かを判定する（ステップＳ３１）。ステップＳ３１で、発話音声における姓名間にスペースが入らない言語（例えば、日本語等）であると判定された場合（ステップＳ３１がＹＥＳ判定の場合）、宛先検索部１７は、宛先一覧１２３ａ（図２参照）において姓名間に設けられたスペースを無視して検索を実行する（ステップＳ３２）。スペースの無視は、例えば、スペース部分にフィルタを掛ける処理等を行うことにより実現可能である。

一方、ステップＳ３２において、発話音声における姓名間にスペースが入る言語（例えば、英語等）であると判定された場合（ステップＳ３１がＮＯ判定の場合）、宛先検索部１７は、そのまま宛先の検索を実行する（ステップＳ３３）。

上述した実施形態では、宛先検索部１７は、宛先一覧１２３ａにおいて姓名間にスペースが入っており、かつ、発話音声の解析結果であるテキストデータにおいて姓名間にスペースが入っていない場合であっても、宛先検索を行うことができる。同様に、宛先一覧１２３ａにおいて姓名間にスペースが入っており、かつ、発話音声の解析結果であるテキストデータにおいても姓名間にスペースが入っている場合においても、宛先検索を行うことができる。すなわち、本実施形態によれば、音声操作による宛先検索を精度良く行えるようになる。

したがって、本実施形態によれば、ユーザーに、「スペース」という単語の発話等によって、スペース文字の入力を明示的に指示させたり、宛先一覧１２３ａにおける氏名の登録形態を言語に応じて異ならせたり、氏名における姓名間を分離するテキスト解析の仕組みを別途導入する必要がなくなる。それゆえ、本実施形態によれば、ユーザー、又は、氏名情報を管理する管理者の手間を要さず、かつ、会話フローのパフォーマンスを低下させずに、音声操作による宛先検索を行えるようになる。

＜第２の実施形態＞
［画像処理システムの構成］
次に、図５を参照して、本発明の第２の実施形態に係る画像処理システムの構成について説明する。図５は、本発明の第２の実施形態に係る画像処理システム１００Ａの概要構成図である。

図５に示す画像処理システム１００Ａは、画像形成装置１Ａと、音声入出力装置２と、音声処理サーバー３と、ＬＤＡＰ（Lightweight Directory Access Protocol）サーバー４と、を含む。画像形成システム１００を構成する各装置（サーバー）間は、公衆交換電話網やＩＰ網などよりなるネットワークＮを介して接続される。音声入出力装置２及び音声処理サーバー３は、図１に示したものと同様であるため、ここではこれらの説明は省略する。

ＬＤＡＰサーバー４（宛先一覧管理サーバーの一例）は、画像形成装置１を使用するユーザーの氏名や宛先等を格納した宛先一覧（図示略）を、ディレクトリサービスを利用して管理するサーバーである。本実施形態では、画像形成装置１Ａは宛先一覧１２３ａ（図２参照）を持たず、宛先一覧は、ＬＤＡＰサーバー４において管理される。そして、画像形成装置１Ａは、予め定められた所定のタイミングの到来時等に、ＬＤＡＰサーバー４に対して宛先一覧の取得依頼を行い、ＬＤＡＰサーバー４から送信された宛先一覧を、宛先一覧保存領域（図示略）に一時的に格納する。宛先一覧保存領域は、例えば、ＲＡＭ１２１又は記憶部１２３内等に形成される。

画像形成装置１Ａは、ユーザーによって宛先検索を指示する音声操作が行われた場合、宛先一覧保存領域に保存された宛先一覧にある氏名を検索し、検索結果の氏名が見つかった場合には、該氏名を宛先として、スキャンデータ等を送信する。画像形成装置１Ａは、宛先一覧１２３ａの代わりに、宛先一覧保存領域を持つこと以外は、図１に示した画像形成装置１と同一であるため、ここでは画像形成装置１Ａの説明は省略する。なお、図５に示す例では、宛先一覧保存領域が画像形成装置１Ａ内に設けられる例を挙げたが、本発明はこれに限定されない。宛先一覧保存領域は、画像形成装置１Ａと接続される不図示の外部サーバー内に設けられてもよい。

［画像処理システムによる宛先検索処理］
次に、図６を参照して、画像処理システム１００Ａによる宛先検索処理の手順について説明する。図６は、画像処理システム１００Ａによる宛先検索処理の手順の例を示すシーケンス図である。

まず、ユーザーからの音声操作によって、もしくは、予め定められた所定のタイミングの到来時に、画像形成装置１Ａの宛先検索部１７の起動が指示される（ステップＳ４１）。次いで、画像形成装置１Ａの宛先検索部１７が起動する（ステップＳ４２）。ステップＳ４１の処理が行われる、予め定められた所定のタイミングとしては、例えば、毎日何時など、ユーザーによる音声操作に基づいて行われる音声処理のフローに影響を及ぼさない時刻が設定される。もしくは、画像形成装置１で何かしらの処理が行われているバックグラウンドで、宛先検索部１７の起動及び宛先一覧の取得処理が行われてもよい。

次いで、画像形成装置１Ａの制御部１２は、通信Ｉ／Ｆ部１１を介してＬＤＡＰサーバー４に、宛先一覧取得要求を送信する（ステップＳ４３）。次いで、ＬＤＡＰサーバー４から画像形成装置１Ａに対して、宛先一覧が送信される（ステップＳ４４）。次いで、画像形成装置１Ａの制御部１２は、ステップＳ４４で送信された宛先一覧を、記憶部１２３の宛先一覧保存領域に格納する（ステップＳ４５）。宛先一覧の取得処理の終了後は、宛先検索部１７の動作は停止される。

ステップＳ４６〜ステップＳ６０までの各処理は、図３のステップＳ１〜ステップＳ１５までの各処理と同一であるため、ここではこれらの説明は省略する。ステップＳ６０で、宛先の検索を指示するリクエスト文が音声処理サーバー３から画像形成装置１Ａに送信されると、画像形成装置１Ａの宛先検索部１７は、該リクエスト文に基づいて、宛先検索処理を実行する（ステップＳ６１）。

ステップＳ６１で行う宛先検索処理は、図４に示した処理と同一である。すなわち、宛先検索部１７は、ユーザーの発話言語が、発話音声における姓名間にスペースが入らない言語である場合には、宛先一覧において姓名間に設けられたスペースを無視して検索を実行する。一方、ユーザーの発話言語が、発話音声における姓名間にスペースが入る言語である場合には、そのまま宛先の検索を実行する。

ステップＳ６１では、宛先検索部１７は、ステップＳ４５で宛先一覧保存領域に格納した宛先一覧にある氏名を検索する。ステップＳ６２〜ステップＳ６６の処理は、図３のステップＳ１７〜ステップＳ２１の処理と同一であるため、ここでは処理を省略する。

上述した第２の実施形態に示されるように、宛先一覧がＬＤＡＰサーバー４で管理される場合、通常であれば、宛先一覧の検索において行われる氏名の照合は、ＬＤＡＰサーバー４における氏名の照合規則に依存する。したがって、宛先一覧における姓名間のスペースを無視して検索を行ったりする処理は実行できず、該当する氏名が登録されているにもかかわらず、該当する氏名がないと判定されてしまう現象が起こりうる。

しかしながら、上述した第２の実施形態では、宛先の検索処理は、ＬＤＡＰサーバー４ではなく、画像形成装置１Ａにおいて行われる。より具体的には、画像形成装置１Ａが、ＬＤＡＰサーバー４から取得した宛先一覧を対象として、宛先の検索を行う。したがって、本実施形態によれば、宛先の検索時における、ＬＤＡＰサーバー４の照合規則への依存性を絶つことができるため、宛先一覧における氏名の登録形態に合わせた検索を実行できる。それゆえ、本実施形態によれば、宛先の検索を精度良く行うことが可能となる。

また、本実施形態においても、上述した第１の実施形態と同様に、ユーザー又は氏名情報の管理者の手間を要さず、かつ、会話フローのパフォーマンスを低下させずに、音声操作による宛先検索を行うことができる。

＜第２の実施形態の変形例＞
次に、図７及び図８を参照して、本発明の第２の実施形態の変形例に係る画像処理システム１００Ａによる宛先検索処理について説明する。図７は、画像処理システム１００Ａによる宛先検索処理の手順の例を示すシーケンス図であり、図８は、宛先検索部１７による宛先検索依頼処理の手順の例を示すフローチャートである。第２の実施形態の変形例では、画像形成装置１の宛先検索部１７は、宛先の検索時に、ＬＤＡＰサーバー４に対して照合規則の一時的な変更依頼を行った上で、宛先の検索を依頼する。

［画像処理システムによる宛先検索処理］
まず、図７を参照して、画像処理システム１００Ａによる宛先検索処理について説明する。図７のステップＳ７１〜ステップＳ７５までの各処理は、図３のステップＳ１〜ステップＳ５までの各処理と同一であるため、ここではこれらの説明は省略する。ステップＳ７５で、宛先検索部１７が起動されて、操作表示部１３（図５参照）にスキャン画面が表示されると、画像形成装置１Ａの制御部１２は、ＬＤＡＰサーバー４に対して、現在の照合規則設定の取得要求を行う（ステップＳ７６）。

次いで、ＬＤＡＰサーバー４から画像形成装置１Ａに対して、現在の照合規則設定が送信される（ステップＳ７７）。次いで、画像形成装置１Ａの制御部１２は、記憶部１２３等に、ステップＳ７７で受信した照合規則設定を保存する（ステップＳ７８）。

ステップＳ７９〜ステップＳ８８までの各処理は、図３のステップＳ６〜ステップＳ１５までの各処理と同一であるため、ここではこれらの説明は省略する。ステップＳ８８で、宛先の検索を指示するリクエスト文が音声処理サーバー３から画像形成装置１Ａに送信されると、画像形成装置１Ａの宛先検索部１７は、該リクエスト文に基づいて、宛先検索依頼処理を実行する（ステップＳ８９）。ステップＳ８９で行う宛先検索依頼処理については、次の図８を参照して説明する。

次いで、画像形成装置１Ａの宛先検索部１７は、ＬＤＡＰサーバー４に対して、宛先検索の実行を依頼する（ステップＳ９０）。次いで、ＬＤＡＰサーバー４から画像形成装置１Ａに対して、宛先の検索結果が送信される（ステップＳ９１）。次いで、画像形成装置１Ａの制御部１２は、ＬＤＡＰサーバー４に対して、照合規則設定の復元を依頼する（ステップＳ９２）。次いで、画像形成装置１Ａの制御部１２は、ステップＳ９１でＬＤＡＰサーバー４から受信した検索結果を、通信Ｉ／Ｆ部１１を介して音声処理サーバー３に送信する（ステップＳ９３）。

ステップＳ９３以降は、図３のステップＳ１８〜ステップＳ２１の各処理が行われる。すなわち、音声処理サーバー３で、検索結果に応じたレスポンス文が生成され、該レスポンス文が音声入出力装置２に送信される。次いで、音声入出力装置２からユーザーに対して、レスポンス文に応じた音声が出力されるとともに、画像形成装置１Ａの操作表示部１３の画面に、検索結果が表示される。

［宛先検索部による宛先検索依頼処理］
次に、図８を参照して、図７のステップＳ９０で行われる宛先検索部１７による宛先検索依頼処理について説明する。まず、画像形成装置１Ａの宛先検索部１７は、ユーザーの発話言語は、発話音声における姓名間にスペースが入らない言語であるか否かを判定する（ステップＳ１０１）。ステップＳ１０１で、発話音声における姓名間にスペースが入らない言語（例えば、日本語等）であると判定された場合（ステップＳ１０１がＹＥＳ判定の場合）、宛先検索部１７は、姓名間に設けられたスペースを無視して検索を行う照合規則に変更するよう、ＬＤＡＰサーバー４に依頼する（ステップＳ１０２）。

ステップＳ１０２の処理後、又は、ステップＳ１０１において、ユーザーの発話音声における姓名間にスペースが入る言語（例えば、英語等）であると判定された場合（ステップＳ１０１がＮＯ判定の場合）、宛先検索部１７は、ＬＤＡＰサーバー４に宛先の検索の実行を依頼する（ステップＳ１０３）。

上述した第２の実施形態の変形例では、ユーザーの発話言語が、発話音声における姓名間にスペースが入らない言語である場合に、画像形成装置１Ａの宛先検索部１７はＬＤＡＰサーバー４に対して、姓名間のスペースを無視した検索を行う照合規則への変更依頼を行い、その後、変更後の照合規則を用いた宛先の検索の実行を依頼する。それゆえ、本変形例によれば、第２の実施形態と同様の効果を得ることができる。

また、本変形例では、ＬＤＡＰサーバー４から宛先の検索結果が送信された後すぐに、画像形成装置１Ａの制御部１２ｇ、ＬＤＡＰサーバー４に対して、照合規則設定の復元を依頼する。それゆえ、本変形例によれば、ＬＤＡＰサーバー４における照合規則設定の変更期間を、音声操作に基づく処理が行われている間のみに限定できるため、ＬＤＡＰサーバー４を使用する他のシステムに影響を及ぼしてしまうことを防ぐことができる。

＜各種変形例＞
なお、本発明は上述した実施形態に限られるものではなく、特許請求の範囲に記載した本発明の要旨を逸脱しない限りにおいて、その他種々の応用例、変形例を取り得る。

また、上述した各実施形態及び変形例では、音声入出力装置２としてスマートスピーカーが用いられる例を挙げたが、本発明はこれに限定されない。音声入出力装置２として、携帯電話端末やスマートフォンなどの携帯端末装置が用いられてもよい。

さらに、上述した各実施形態及びその変形例では、情報処理装置を、画像形成装置１に適用した例を挙げたが、本発明はこれに限定されない。本発明の情報処理装置は、画像形成を行わないプリンタコントローラや、ＰＣ（Personal Computer）などの装置に適用されてもよい。

１、１Ａ…画像形成装置、２…音声入出力装置、３…音声処理サーバー、４…ＬＤＡＰサーバー、１１…通信Ｉ／Ｆ部、１２…制御部、１７…宛先検索部、３１…制御部、３３…構文解析部、１００、１００Ａ…画像処理システム、１２３ａ…宛先一覧

Claims

ユーザーの発話による指示をテキストデータに変換して出力する音声入出力装置から送信された前記テキストデータを解析し、解析して得られた指示、及び、前記発話された言語を示す発話言語情報を出力する音声処理サーバーと接続される情報処理装置であって、
前記音声処理サーバーと通信を行う通信部と、
前記音声処理サーバーから出力されて前記通信部が受信した前記指示が、氏名を検索文字列とした宛先の検索指示である場合、前記氏名及び前記氏名の宛先の情報が登録された宛先一覧の、前記氏名の姓名間にスペース文字が含まれる場合における該スペース文字を、前記検索の対象に含めるか否かを、前記発話言語情報に基づいて判定し、該判定の結果に基づいて、前記検索文字列に示される氏名を前記宛先一覧から検索する宛先検索部と、
前記宛先検索部による前記宛先の検索結果を、前記通信部を介して前記音声処理サーバーに送信する制御を行う制御部と、を備える
情報処理装置。
前記宛先検索部は、前記発話言語情報に示される言語が、発話音声における姓名間にスペースが入らない言語であり、前記宛先一覧に登録された前記氏名の姓名間にスペース文字が含まれる場合、前記スペース文字を無視して前記検索文字列に示される氏名を検索する
請求項１に記載の情報処理装置。
前記宛先検索部は、前記発話言語情報に示される言語が、発話音声における姓名間にスペースが入る言語であり、前記宛先一覧に登録された前記氏名の姓名間にスペース文字が含まれる場合、前記スペース文字を含めて前記検索文字列に示される前記氏名を検索する
請求項２に記載の情報処理装置。
ユーザーによる指示が入力される操作入力部をさらに備え、
前記宛先検索部は、前記宛先の検索指示が、前記操作入力部を介して入力された場合であって、前記宛先一覧に登録された前記氏名の姓名間にスペース文字が含まれる場合、前記スペース文字を含めて前記検索文字列に示される氏名を検索する
請求項３に記載の情報処理装置。
ディレクトリサービスを用いて前記宛先一覧を管理する宛先一覧管理サーバーをさらに備え、
前記制御部は、所定のタイミングで前記宛先一覧管理サーバーから前記宛先一覧を取得して、該宛先一覧を自装置内又は自装置と接続された外部サーバーの宛先一覧保存領域に一時的に保存し、
前記宛先検索部は、前記検索文字列に示される氏名を、前記宛先一覧保存領域に保存された前記宛先一覧から検索する
請求項１〜４のいずれか一項に記載の情報処理装置。
前記宛先検索部は、前記検索文字列に示される氏名の検索時に、前記宛先一覧管理サーバーに対して、該宛先一覧管理サーバーで用いられている前記検索文字列に示される氏名の照合規則を一時的に変更した上で前記氏名の検索を行うよう依頼し、
前記照合規則の一時的な変更は、前記発話言語情報に示される言語が、発話音声における姓名間にスペースが入らない言語である場合には、前記宛先一覧に登録された前記氏名の姓名間に含まれるスペースを無視して検索を行うという変更である
請求項５に記載の情報処理装置。
ユーザーの発話による指示をテキストデータに変換して出力する音声入出力装置から送信された前記テキストデータを解析し、解析して得られた指示、及び、前記発話された言語を示す発話言語情報を出力する音声処理サーバーと接続される情報処理装置における宛先検索方法であって、
前記音声処理サーバーから出力された前記指示が、氏名を検索文字列とした宛先の検索指示である場合、前記氏名及び前記氏名の宛先の情報が登録された宛先一覧の、前記氏名の姓名間にスペース文字が含まれる場合における該スペース文字を、前記検索の対象に含めるか否かを、前記発話言語情報に基づいて判定し、該判定の結果に基づいて、前記検索文字列に示される氏名を前記宛先一覧から検索する手順と、
前記宛先の検索結果を前記音声処理サーバーに送信する制御を行う手順と、を含む
宛先検索方法。