JP2020181044A

JP2020181044A - 情報処理装置、その制御方法、およびプログラム

Info

Publication number: JP2020181044A
Application number: JP2019082845A
Authority: JP
Inventors: 勝彦穐田; Katsuhiko Akita
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2019-04-24
Filing date: 2019-04-24
Publication date: 2020-11-05

Abstract

【課題】複数の種類の音声が出力される場面において、情報処理装置に、指示の対象となる種類の音声を適切に識別させるための技術を提供すること。【解決手段】ユーザー９００は、ユーザー端末３００に対して、第１の言語で制御指示の音声を出力する。ユーザー端末３００は、第１の言語の制御指示を第２の言語に翻訳し、第２の言語の制御指示の音声を出力する。ＭＦＰ２００は、第２の言語の制御指示の音声に対する音声認識の結果を用いて制御情報を生成し、当該制御情報に従ってジョブを制御する。ＭＦＰ２００は、マイクロフォン２１１から入力される音声の中で、ＭＦＰ２００から出力される種類の音声（合成音声）を、制御情報の生成に利用する。【選択図】図１

Description

本開示は、情報処理の指示の音声入力を受け付ける装置に関する。

従来のＭＦＰ（Multi-Functional Peripheral）等の画像処理装置には、入力された音声を認識することにより指示を受け付けるものがあった。このような装置において、音声認識の精度を向上させるための技術が種々提案されている。

たとえば、特許文献１（特開２０１３−１８２５５６号公報）および特許文献２（特開２０１１−０５９９５８号公報）は、入力される音声の言語属性を適切に設定するための技術を開示している。特許文献３（特開２０１４−２０３０２４号公報）は、複数のマイクから音声の入力が可能な画像処理システムにおいて、音声の認識結果に基づいて、認識の対象となる音声の入力元を設定する技術を開示する。特許文献４（特開２００４−０７７６０１号公報）は、予め定められた記憶されている動作音データを用いて入力された音データから音声データを抽出し、抽出された音声データの音声認識を実行する技術を開示している。

特開２０１３−１８２５５６号公報特開２０１１−０５９９５８号公報特開２０１４−２０３０２４号公報特開２００４−０７７６０１号公報

近年、スマートフォンなどの端末を利用して、第１の言語の音声の入力に従って第２の言語の音声を出力する技術が利用されている。このような技術を利用して、海外出張などの場面において、ユーザーは、異国で、現地の言語で情報処理装置に対して音声入力をすることができる。

しかしながら、端末に入力するために出力される第１の言語の音声も、端末から出力される第２の言語の音声も、いずれも動作音データではなく音声データの出力である。従来の技術では、情報処理装置は、これらの音声から、指示の対象となる種類の音声を適切に識別することができなかった。

本開示は、係る実情に鑑み考え出されたものであり、その目的は、複数の種類の音声が出力される場面において、情報処理装置に、指示の対象となる種類の音声を適切に識別させるための技術を提供することである。

本開示のある局面に従うと、音声認識部と、音声認識部によって認識された情報がジョブの実行に関する情報であるか否かを判断し、ジョブの実行に関する情報であると判断した場合に、音声認識部によって認識された情報を用いてジョブの実行を指示する情報を生成するジョブ情報生成部と、音声認識部に入力された音声が所与の種類の音声であるか否かを識別する音声識別部と、音声識別部が音声認識部に入力された音声が所与の種類の音声であることを識別した場合に、ジョブの実行を指示する情報を使用してジョブの実行を制御する制御部とを備える、情報処理装置が提供される。

音声識別部は、音声の声紋データに基づいて、音声認識部に入力された音声が所与の種類の音声であるか否かを識別してもよい。

情報処理装置は、音声を識別するための情報を格納する記憶部をさらに備えていてもよい。音声識別部は、音声認識部に入力された音声を記憶部に格納された情報と照合することにより、音声認識部に入力された音声が所与の種類の音声であるか否かを識別してもよい。

情報処理装置は、音声認識部に音声を入力するユーザーを識別するユーザー識別部をさらに備えていてもよい。所与の種類はユーザー識別部によって識別されたユーザーに従って特定されてもよい。

制御部は、音声入力に関するモードである翻訳音声モードの使用の指定を受け付けてもよい。音声識別部は、翻訳音声モードの使用の指定を受け付けたことを条件として、識別を実施してもよい。

制御部は、所与の種類の音声の入力を、翻訳音声モードの使用の指定として扱ってもよい。

制御部は、音声認識部による音声認識率が所与の閾値より低い場合に、翻訳音声モードの使用の指定を促すための情報を出力してもよい。

情報処理装置は、ディスプレイをさらに備えていてもよい。制御部は、翻訳音声モードの使用が指定されている場合には、ユーザーへの質問をディスプレイにおける表示として出力してもよい。

制御部は、音声出力に関するモードである応答翻訳音声モードの使用の指定を受け付け、ユーザーへの質問を音声で出力した場合に、当該質問が音声で出力された後、一定時間、音声識別部からの音声の認識結果を無視することにより、ジョブの実行を指示する情報を使用したジョブの実行の制御を行わなくてもよい。

制御部は、音声出力に関するモードである応答翻訳音声モードの使用の指定を受け付け、ユーザーへの質問を音声で出力した場合に、当該質問が音声で出力された後、一定時間、音声識別部が音声認識部に入力された音声が所与の種類の音声であると識別した場合でも、ジョブの実行を指示する情報を使用したジョブの実行の制御を行わなくてもよい。

制御部は、ユーザーへの質問を音声で出力した場合に、所与の種類とは異なる種類の音声が検出されたことを条件として、ジョブの実行を指示する情報を使用したジョブの実行の制御を再開してもよい。

情報処理装置は、画像処理に関するジョブを実行する画像処理部をさらに備えていてもよい。ジョブの実行の制御は画像処理部の制御を含んでいてもよい。

本開示の他の局面に従うと、音声認識部によって認識された情報がジョブの実行に関する情報であるか否かを判断するステップと、音声認識部に入力された音声が所与の種類の音声であるか否かを識別するステップと、音声認識部に入力された音声が所与の種類の音声であることが識別された場合に、音声認識部によって認識された情報を用いて生成されたジョブの実行を指示する情報を使用して、ジョブの実行を制御するステップとを備える、情報処理装置の制御方法が提供される。

本開示のさらに他の局面に従うと、１以上のプロセッサーによって実行されることにより、１以上のプロセッサーに、音声認識部によって認識された情報がジョブの実行に関する情報であるか否かを判断するステップと、音声認識部に入力された音声が所与の種類の音声であるか否かを識別するステップと、音声認識部に入力された音声が所与の種類の音声であることが識別された場合に、音声認識部によって認識された情報を用いて生成されたジョブの実行を指示する情報を使用して、ジョブの実行を制御するステップとを実行させる、プログラムが提供される。

本開示によれば、情報処理装置は、入力された音声が所与の種類の音声であることを条件として、当該音声の認識結果を用いて生成された情報を利用してジョブの実行を制御する。これにより、複数の種類の音声が出力される場面でも、情報処理装置は、適切に、複数種類の音声の中から指示の対象となる種類の音声を識別できる。

本開示に係る情報処理装置の一例を含む情報処理システムの構成を示す図である。ＭＦＰ２００のハードウェア構成を示す図である。ユーザー端末３００のハードウェア構成の一例を示す図である。ＭＦＰ２００における、ジョブ制御のための音声認識に係る機能構成を説明するための図である。認識結果と制御情報との関係の一例を説明するための図である。ＭＦＰ２００において入力された音声を用いてジョブを制御するために実行される処理のフローチャートである。変形例（１）に従った処理のフローチャートである。図７の処理に利用される情報の一例のデータ構成を模式的に示す図である。変形例（２）に従った処理のフローチャートである。図９の処理に利用される情報の一例のデータ構成を模式的に示す図である。ＭＦＰ２００の操作パネル２０７に表示される画面の一例を示す図である。応答翻訳音声モードを使用するときのＭＦＰ２００の機能構成の一例を示す図である。ＭＦＰ２００の操作パネル２０７に表示される画面の一例を示す図である。変形例（４）に従った処理のフローチャートである。質問事項の表示の一例を示す図である。変形例（５）に従ったＭＦＰ２００において実行される処理のフローチャートである。

以下に、図面を参照しつつ、情報処理装置の一実施の形態について説明する。以下の説明では、同一の部品および構成要素には同一の符号を付してある。それらの名称および機能も同じである。したがって、これらの説明は繰り返さない。

［１．情報処理システムの構成］
図１は、本開示に係る情報処理装置の一例を含む情報処理システムの構成を示す図である。図１に示されるように、情報処理システム１００は、ＭＦＰ２００とユーザー端末３００とを含む。ＭＦＰ２００は、音声の入力を受け付けるマイクロフォン２１１と、音声を出力するスピーカー２１２とを含む。ユーザー端末３００は、音声の入力を受け付けるマイクロフォン３１１と、音声を出力するスピーカー３１２とを含む。

ユーザー端末３００は、翻訳機能を備え、第１の言語で入力された音声を第２の言語で出力する。一実現例では、翻訳機能はユーザー端末３００にインストールされたアプリケーションとして実現される。他の例では、ユーザー端末３００は、翻訳専用機である。

ユーザー９００は、ユーザー端末３００に、第１の言語で、ＭＦＰ２００におけるジョブの実行に関する音声を入力する。ユーザー端末３００は、入力された音声に対応する第２の言語の音声を出力する。

ユーザー９００が出力する音声（ユーザー端末３００に入力される音声）とユーザー端末３００が出力する音声とは音声の種類が異なる。一実現例では、ユーザー９００が出力する音声は人間の肉声であり、ユーザー端末３００が出力する音声は機械が出力する合成音声である。

ＭＦＰ２００は、ユーザー端末３００から出力される音声の種類をユーザー９００から出力される音声の種類に対して識別し得る。ＭＦＰ２００は、スピーカー２１２に入力された音声のうち、ユーザー端末３００から出力された音声の種類の音声を抽出し、当該音声の認識の結果として得られた情報を用いてジョブの実行を制御する情報を生成し、生成された情報に従ってジョブの実行を制御する。

［２．ハードウェア構成］
（ＭＦＰ）
図２は、ＭＦＰ２００のハードウェア構成を示す図である。図２に示されるように、ＭＦＰ２００は、主な構成要素として、ＣＰＵ２０１と、ＲＯＭ（Read Only Memory）２０２と、ＲＡＭ（Random Access Memory）２０３と、ＮＶ（Non-Volatile）−ＲＡＭ２０４と、記憶装置２０５と、ＮＩＣ（Network Interface Card）２０６と、操作パネル２０７と、スキャナー部２０８と、プリンター部２０９と、ファクシミリ（ＦＡＸ）部２１０と、マイクロフォン２１１と、スピーカー２１２とを備えている。ＭＦＰ２００内の各要素は、互いに内部バスで接続されている。

ＣＰＵ２０１は、ＭＦＰ２００の動作を統括的に制御する。一実現例では、ＣＰＵ２０１は、たとえば、１以上のプロセッサーを含む電気回路（circuitry）によって構成される。ＲＯＭ２０２は、ＣＰＵ２０１が実行するプログラムを含む各種のデータを格納する。ＲＡＭ２０３およびＮＶ−ＲＡＭ２０４は、ＣＰＵ２０１におけるプログラム実行時のワークエリアとして機能する。ＲＡＭ２０３および／またはＮＶ−ＲＡＭ２０４は、スキャナー部２０８で読み取られた画像データ等を一時的に保存する場合もある。

記憶装置２０５は、ＭＦＰ２００に登録されている宛先情報やドキュメントなどの各種のデータを保存する。ドキュメントのデータは、ネットワークを介してＭＦＰ２００に入力される場合もあれば、スキャナー部２０８で画像が読み取られることによって生成される場合もある。

ＮＩＣ２０６は、ＭＦＰ２００が、ＵＭＳ１００やユーザー端末３００等の、ユーザー統合管理システム内の他の装置と情報をやり取りする際の通信インターフェースである。

操作パネル２０７は、コピーの画質または用紙のための設定値、スキャンの送信先（宛先登録）を登録または選択するための情報など、各種の情報の入力を受け付ける。操作パネル２０７の表面には、たとえばタッチパネルが積層された液晶表示部が設けられている。操作パネル２０７は、さらに有機ＥＬ（Electro-Luminescence）ディスプレイなどのディスプレイを含んでいても良い。当該ディスプレイは、たとえばＭＦＰ２００における設定内容を表示する。

スキャナー部２０８は、原稿台にセットされた原稿をスキャンし、原稿の画像データを生成する。スキャナー部２０８における画像データの生成方法は公知の方法を採用することができる。

プリンター部２０９は、たとえば電子写真方式により、スキャナー部２０８で読み取られた画像データや、ＦＷ配信サーバー１００等の外部の情報処理装置から送信されたプリントデータを、印刷のためのデータに変換し、変換後のデータに基づいて文書等の画像を印刷する装置である。電子写真方式などの画像形成の態様は、公知の技術を採用することができる。

一実現例では、ＭＦＰ２００は、「コピー」「プリント」および「スキャン」のそれぞれの機能を実現できる。本明細書において、「機能」とはジョブの種類を意味する場合がある。

「コピー」機能は、記録媒体の上に、原稿台にセットされた原稿の画像を形成する機能であり、スキャナー部２０８とプリンター部２０９とが利用されることによって実現される。「プリント」機能は、データに従って記録媒体上に画像を形成する機能であり、プリンター部２０９が利用されることによって実現される。「スキャン」機能は、原稿の画像データを生成する機能であり、スキャナー部２０８が利用されることによって実現される。

この意味において、スキャナー部２０８およびプリンター部２０９は、いずれも、画像処理に関するジョブを実行する画像処理部の構成要素の一例である。

ＦＡＸ部２１０は、ファクシミリ通信により画像情報を送受信する。この意味において、ＦＡＸ部２１０は、画像処理部の構成要素の一例である。

ＭＦＰ２００では、ＣＰＵ２０１が適切なプログラムを実行することによって、本明細書に記載されたようなＭＦＰ２００の動作が実現される。ＣＰＵ２０１によって実行されるプログラムは、上記したようにＲＯＭ２０２に格納されている代わりに、記憶装置２０５に格納されていてもよいし、ＭＦＰ２００に対して着脱可能な記憶媒体に格納されていてもよい。当該プログラムが格納される記憶媒体は、たとえば、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、ＵＳＢメモリー、メモリーカード、ＦＤ、ハードディスク、ＳＳＤ、磁気テープ、カセットテープ、ＭＯ、ＭＤ、ＩＣカード（メモリーカードを除く）、光カード、マスクＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭなどの、不揮発的にデータを格納する媒体が挙げられる。

（ユーザー端末）
図３は、ユーザー端末３００のハードウェア構成の一例を示す図である。ユーザー端末３００は、スマートフォンなどの携帯端末であってもよいし、パーソナルコンピューターなどの備え付けの端末であってもよい。

図３に示されるように、ユーザー端末３００は、主な構成要素として、ＣＰＵ３０１と、ＲＡＭ３０２と、記憶装置３０３と、ディスプレイ３０４と、入力装置３０５と、ＮＩＣ３０６と、マイクロフォン３１１と、スピーカー３１２とを備えている。ＣＰＵ３０１と、ＲＡＭ３０２と、記憶装置３０３と、ディスプレイ３０４と、入力装置３０５と、ＮＩＣ３０６とは、互いに内部バスで接続されている。

ＣＰＵ３０１は、ユーザー端末３００の全体的な動作を制御するための処理を実行するプロセッサーの一例である。ＲＡＭ３０２は、ＣＰＵ３０１における処理実行時のワークエリアとして機能する。記憶装置３０３は、ＣＰＵ３０１が実行するＯＳやブラウザーアプリケーションなどの各種のプログラムやこれらのプログラムの実行に利用されるデータを含む、各種のデータを保存する。上記アプリケーションは、署名されたデータを検証するためのアプリケーションを含む。

記憶装置３０３は、たとえば、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、ＵＳＢメモリー、メモリーカード、ＦＤ、ハードディスク、ＳＳＤ、磁気テープ、カセットテープ、ＭＯ、ＭＤ、ＩＣカード（メモリーカードを除く）、光カード、マスクＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭなどの、不揮発的にデータを格納する媒体が挙げられる。また、記憶装置３０３には、ネットワークを介してダウンロードされたプログラムがインストールされる場合も有り得る。

ディスプレイ３０４は、ＣＰＵ３０１によって実行されるプログラムの処理結果を示す画像を表示するための表示装置である。

入力装置３０５は、たとえばキーボードや操作ボタンによって実現される。入力装置３０５は、情報の入力を受け付けると、当該情報をＣＰＵ３０１へ送る。

ＮＩＣ３０６は、ユーザー端末３００が、ＵＭＳ１００、ＭＦＰ２００、および管理装置４００等のユーザー統合管理システムの他の装置との間で情報をやり取りする際の通信インターフェースである。

［３．機能構成］
図４は、ＭＦＰ２００における、ジョブ制御のための音声認識に係る機能構成を説明するための図である。図４に示されるように、ＭＦＰ２００において、ＣＰＵ２０１は、所与のプログラムを実行することによって、音声認識部２９１、ジョブ判断生成部２９２、音声識別部２９３、および、ジョブ制御部２９４として機能する。

音声認識部２９１は、マイクロフォン２１１を介して入力された音声に対して音声認識処理を実行し、認識結果をジョブ判断生成部２９２へ出力する。ジョブ判断生成部２９２は、認識結果を利用して、ジョブを制御するための情報（以下、「制御情報」ともいう）を生成する。

図５は、認識結果と制御情報との関係の一例を説明するための図である。図５には、キーワードに、機能名および／または設定内容が関連付けられている。

たとえば、キーワード「コピー」は、生成される制御情報において、機能として「コピー」を特定する。

キーワードが数字である場合、制御情報における数値を特定する。たとえば、キーワードが「３」である場合、制御情報において設定される数値として「３」が特定される。

キーワード「片片」は、機能として「コピー」を特定し、さらに、当該「コピー」機能における設定として「片面読み取り、片面印刷」を特定する。

キーワード「拡大」は、機能として「コピー」を特定し、さらに、別途設定された倍率で原稿画像を拡大して出力する設定と特定する。

キーワード「Ａ３」は、制御情報における用紙サイズ「Ａ３」を特定する。
図４に戻って、音声認識部２９１は、認識に利用した音声（マイクロフォン２１１を介して入力された音声）と認識結果とを関連付けて音声識別部２９３へ出力する。音声識別部２９３は、マイクロフォン２１１を介して入力された音声が所与の種類の音声であるか否かを識別し、識別の結果をジョブ制御部２９４へ出力する。所与の種類の一例は、機械による合成音声である。

ユーザー９００が、第１の言語のキーワードを肉声でユーザー端末３００に入力した場合を想定する。この場合、ユーザー端末３００は、第１の言語で入力されたキーワードを第２の言語へ翻訳し、翻訳結果として第２の言語でキーワードを出力する。したがって、この場合、ＭＦＰ２００のマイクロフォン２１１には、第１の言語のキーワードに対応する肉声と、第２の言語のキーワードに対応する合成音声とが入力される。音声識別部２９３は、上記肉声に関する識別結果（所与の種類ではない）と、上記合成音声に関する識別結果（所与の種類の音声である）とを、ジョブ制御部２９４へ出力する。

ジョブ制御部２９４は、ジョブ判断生成部２９２から制御情報を入力され、音声識別部２９３から識別結果を入力される。ジョブ制御部２９４は、音声識別部２９３からの識別結果として「所与の種類である」を付与された音声に基づいて生成された制御情報のみを、ジョブの制御に利用する。

たとえば、上述したような、「ユーザー９００が、第１の言語のキーワードを肉声でユーザー端末３００に入力」する例では、第２の言語でキーワードを発音する音声は、識別結果「所与の種類である」を付与されているので、ジョブ制御部２９４は、当該音声に基づいて生成された制御情報をジョブの制御に利用する。

一方、上記の例において、第１の言語でキーワードを発音する音声は、識別結果「所与の種類ではない」を付与されているので、ジョブ制御部２９４は、当該音声をジョブの制御において無視する。ＭＦＰ２００では、当該音声の音声認識の結果を用いた制御情報が生成されてもよいし、生成されなくてもよい。当該音声の音声認識の結果を用いた制御情報が生成された場合であっても、ジョブ制御部２９４は、当該制御情報をジョブの制御には利用しない。

［４．処理の流れ］
図６は、ＭＦＰ２００において入力された音声を用いてジョブを制御するために実行される処理のフローチャートである。一実現例では、図６の処理は、ＣＰＵ２０１が所与のプログラムを実行することによって実現される。ＣＰＵ２０１は、たとえばジョブ制御部２９４の機能として実現される。

ステップＳ１０にて、ＣＰＵ２０１は、音声内容によりＭＦＰ２００のジョブの種類／ジョブ設定が検出されたか否かを判断する。より具体的には、ＣＰＵ２０１は、マイクロフォン２１１を介して入力された音声に対する音声認識の結果（音声内容）から、図５に示されたようなキーワード（ＭＦＰ２００のジョブの種類およびジョブ設定の少なくとも一方を特定する情報）が検出されたか否かを判断する。さらに具体的には、ＣＰＵ２０１は、ジョブ判断生成部２９２が、音声認識部２９１から出力された認識結果と図５に示された情報から制御情報を生成することができるか否かを判断する。

ＣＰＵ２０１は、ジョブの種類／ジョブ設定が検出されたと判断するとステップＳ２０へ制御を進め（ステップＳ１０にてＹＥＳ）、そうでなければ図６の処理を終了する（ステップＳ１０にてＮＯ）。

ステップＳ２０にて、ＣＰＵ２０１は、制御情報の生成に利用された音声に、合成音声が含まれるか否かを判断する。一実現例では、当該判断は、音声識別部２９３から出力された情報に従って実現される。ＣＰＵ２０１は、上記音声に合成音声が含まれると判断するとステップＳ３０へ制御を進め（ステップＳ２０にててＹＥＳ）、そうでなければ図６の処理を終了する（ステップＳ２０にてＮＯ）。一例では、音声が合成音声を含むか否かは、当該音声に含まれる音声の要素が所与の性質（データのパターン）を有するか否かに従って判断される。

ステップＳ３０にて、ＣＰＵ２０１は、マイクロフォン２１１を介してＭＦＰ２００に入力された音声の中から合成音声を抽出し、抽出された音声に従ってジョブの設定を生成し、当該設定に従って画像処理部にジョブを実行させる。

図６には、処理内容の一具体例を説明するために、ＭＦＰ２００についての２つの状態ＳＴ１１，ＳＴ１２が示されている。状態ＳＴ１１は、ＭＦＰ２００がジョブ設定「Ａ３サイズ」を含んでいる状態を表す。ジョブ設定「Ａ３サイズ」は、ＭＦＰ２００におけるデフォルト設定であってもよい。状態ＳＴ１２は、ＭＦＰ２００が、設定「ジョブ種類：拡大コピー，サイズＡ３」を含むジョブの実行を指示された状態を表す。状態ＳＴ１１，ＳＴ１２をより具体的に説明するために、キーワード「拡大」および「コピー」を含む音声がＭＦＰ２００に入力された場合を想定する。

当該音声の種類が所与の種類（たとえば、合成音声）でなければ、当該音声はジョブの制御において無視される。すなわち、ＭＦＰ２００は、ジョブに関するデフォルト設定「Ａ３サイズ」を含んだ状態で何もしない。この状態は、状態ＳＴ１１に相当する。

一方、当該音声の種類が所与の種類であれば、当該音声はジョブの制御に利用される。音声の認識結果がキーワード「コピー」を含むことに基づいて、ジョブの種類「コピー」の開始を指示する制御情報が生成される。さらに、音声の認識結果がキーワード「拡大」を含むことに基づいて、上記制御情報は、ジョブ「コピー」の設定として拡大コピー（コピージョブの設定の一例であり、原稿の画像を拡大して記録媒体上に形成するための設定）を含む。さらに、上記制御情報は、画像がどこまで拡大されるかの設定として、デフォルド設定「Ａ３サイズ」を含む。この状態は、状態ＳＴ１２に相当する。

以上説明されたように、本実施の形態では、ＭＦＰ２００に入力される音声の種類に従って、ＭＦＰ２００は、当該音声の認識結果を用いてジョブの実行を制御するか否かを決定する。

［５．変形例（１）］
図７および図８を参照して、上記実施の形態の１つ目の変形例について説明する。図７は、変形例（１）に従った処理のフローチャートである。図８は、図７の処理に利用される情報の一例のデータ構成を模式的に示す図である。

変形例（１）では、音声識別部２９３は、記憶装置２０５に格納された声紋データと照合することにより、マイクロフォン２１１を介して入力された音声が所与の種類の音声であるか否かを識別する。より具体的には、記憶装置２０５には、声紋データとして、複数の翻訳用アプリケーション（以下、「翻訳アプリ」ともいう）のそれぞれに特有の声紋データが格納されている。一例では、翻訳アプリ特有の声紋データは、当該翻訳アプリに登場するキャラクターの声として設定された声紋データである。

なお、本明細書では、「記憶装置２０５」に記憶されていると言及されたデータの記憶場所は「記憶装置２０５」に限定されない。ＣＰＵ２０１がアクセス可能な記憶装置に記憶されているのであれば、データは、ＭＦＰ２００に着脱可能な記憶装置に格納されていてもよいし、ＭＦＰ２００に対して離間された記憶装置に格納されていてもよい。

さて、変形例（１）では、図８に示されるように、記憶装置２０５に、所与の種類として３種類の翻訳アプリ（翻訳アプリＡ，Ｂ，Ｃ）が特定されている。そして、変形例（２）では、ＭＦＰ２００に入力された音声が、合成音声であって、かつ、図８に示された３種類の翻訳アプリの中のいずれかにおいて利用される種類の音声であれば、当該音声の音声認識の結果がジョブの制御に利用される。

より具体的には、図７の処理は、図６の処理に対してステップＳ２２の制御をさらに含む。ＣＰＵ２０１は、ステップＳ２０において、制御情報の生成に利用された音声が合成音声を含むと判断すると、ステップＳ２２へ制御を進める。

ステップＳ２２において、ＣＰＵ２０１は、制御情報の生成に利用された音声が、ジョブの制御用に登録された合成音声（図８に登録された翻訳アプリの音声）であるか否かを判断する。ステップＳ２２における判断は、たとえば、制御情報の生成に利用された音声の声紋データと、各翻訳アプリの声紋データとして記憶装置２０５に格納された声紋データとの照合の結果に基づいて実現される。一例では、ＣＰＵ２０１は、当該照合の結果において一致度が所与の閾値以上であれば、制御情報の生成に利用された音声がジョブの制御用に登録された合成音声であると判断し、所与の閾値未満であれば、制御情報の生成に利用された音声はジョブの制御用に登録された合成音声ではないと判断する。

ＣＰＵ２０１は、制御情報の生成に利用された音声がジョブの制御用に登録された合成音声であると判断すると（ステップＳ２２にてＹＥＳ）、ステップＳ３０へ制御を進める。これにより、生成された制御情報がジョブの制御に利用される。一方、ＣＰＵ２０１は、制御情報の生成に利用された音声がジョブの制御用に登録された合成音声ではないと判断すると（ステップＳ２２にてＮＯ）、図７の処理を終了する。これにより、マイクロフォン２１１に入力された音声はジョブの制御において無視される。

［６．変形例（２）］
図９〜図１０を参照して、上記実施の形態の２つ目の変形例について説明する。図９は、変形例（２）に従った処理のフローチャートである。図１０は、図９の処理に利用される情報の一例のデータ構成を模式的に示す図である。

変形例（２）では、ＭＦＰ２００をユーザーごとに、ジョブの制御に利用される音声の種類が特定される。

より具体的には、図９の処理は、図７に示された処理と比較して、ステップＳ０２、ステップＳ１２、および、ステップＳ２４の制御をさらに備える。

ステップＳ０２にて、ＣＰＵ２０１は、情報処理システムにおいて管理される１以上のユーザーのそれぞれについて、声紋情報（たとえば、声紋データ）をダウンロードする。より具体的には、情報処理システムにおいて、ＣＰＵ２０１は、ユーザー情報を管理するサーバーと接続が可能である。ＣＰＵ２０１は、ＮＩＣ２０６を利用して当該サーバーに接続し、当該サーバーから各ユーザーの声紋情報をダウンロードして、記憶装置２０５に格納する。

ステップＳ１０にて、ＣＰＵ２０１は、ステップＳ１０にて、ジョブの種類／ジョブ設定が検出されたと判断すると（ステップＳ１０にてＹＥＳ）、ステップＳ１２へ制御を進める。

ステップＳ１２にて、ＣＰＵ２０１は、ユーザーに対してマイクロフォン２１１にユーザーの肉声を入力することを要求する。そして、ＣＰＵ２０１は、入力された音声の声紋がステップＳ０２にてダウンロードされた１以上のユーザーのいずれかの声紋と一致する音声を含むか否かを判断する。ＣＰＵ２０１は、入力された音声の声紋がダウンロードされた１以上のユーザーのいずれかの音声を含むと判断すると（ステップＳ１２にてＹＥＳ）、ステップＳ２０へ制御を進め、そうでなければ（ステップＳ１２にてＮＯ）、図９の処理を終了する。マイクロフォン２１１に肉声を入力したユーザーは、ＭＦＰ２００を使用しているユーザーであり、かつ、当該肉声の声紋が一致したユーザーとして特定される。

ステップＳ２０にて、ＣＰＵ２０１は、制御情報の生成に利用された音声に、合成音声が含まれると判断すると（ステップＳ２０にててＹＥＳ）、ステップＳ２４へ制御を進める。

ステップＳ２４にて、ＣＰＵ２０１は、ＭＦＰ２００を使用しているユーザー（ステップＳ１２の肉声の声紋と一致する声紋を有するユーザー）について登録されている翻訳アプリを特定し、制御情報の生成に利用された音声が、特定された翻訳アプリの音声を含むか否かを判断する。

図１０には、ユーザーごとの翻訳アプリの登録の一態様が模式的に示される。図１０では、たとえば、「ユーザーＡ」に関連付けられて「翻訳アプリＡ」が登録されている。図１０に示された情報は、たとえば記憶装置２０５に格納されている。記憶装置２０５には、さらに、翻訳アプリＡ〜Ｃのそれぞれに関連付けられた声紋データが格納されている。

ＣＰＵ２０１は、制御情報の生成に利用された音声が、ＭＦＰ２００を使用しているユーザーに関連付けられた翻訳アプリの声紋データに一致する（または、当該声紋データに対して所与の閾値以上の一致度を有する）音声を含む場合に、制御情報の生成に利用された音声がＭＦＰ２００を使用しているユーザーに関連付けられた翻訳アプリの音声を含むと判断する。

ＣＰＵ２０１は、制御情報の生成に利用された音声が、ＭＦＰ２００を使用しているユーザーに関連付けられた翻訳アプリの音声を含むと判断すると（ステップＳ２４にてＹＥＳ）、ステップＳ３０へ制御を進め、そうでなければ（ステップＳ２４にてＮＯ）、図９の処理を終了する。

以上説明された変形例（２）では、ＭＦＰ２００を使用するユーザーに従って特定された翻訳アプリの種類が、ジョブの制御に利用する音声の種類として特定される。また、ステップＳ１２において、マイクロフォン２１１に入力されたユーザーの肉声と一致する音声を特定することにより、ＣＰＵ２０１は、音声認識部に音声を入力するユーザーを識別する「ユーザー識別部」として機能する。

［７．変形例（３）］
次に、上記実施の形態の３つ目の変形例について説明する。この変形例は、ＭＦＰ２００において使用される「翻訳音声モード」に関連する。

図１１は、ＭＦＰ２００の操作パネル２０７に表示される画面の一例を示す図である。変形例（３）では、ユーザーは、ＭＦＰ２００において翻訳音声モードを使用するかしないかを選択できる。図１１の画面１１００は、ＭＦＰ２００において翻訳音声モードを使用するか否かの設定値を入力するための画面である。

画面１１００において、欄１１０１は、メッセージ「翻訳音声モードを使用しますか？」を表示する。欄１１１０は、翻訳音声モードが使用される状態を表す画像を示す。ボタン１１１１は、欄１１１０に関連付けられて表示され、翻訳音声モードを使用するという設定値を入力するために操作される。欄１１２０は、翻訳音声モードが使用されない状態を表す画像を示す。ボタン１１２１は、欄１１２０に関連付けられて表示され、翻訳音声モードを使用しないという設定値を入力するために操作される。

「翻訳音声モード」とは、ＭＦＰ２００への操作指示用の音声の入力前に、ユーザー端末３００への音声の入力が想定されるモードである。「翻訳音声モード」では、ユーザーは、ユーザー端末３００に第１の言語で音声を入力する。ユーザー端末３００は、当該音声を第２の言語に翻訳し、第２の言語で当該音声に対応する合成音声を出力する。「翻訳音声モード」が使用されない場合、ユーザーはＭＦＰ２００に直接操作指示用の音声を入力する。

一実現例では、ＭＦＰ２００では、翻訳音声モードが使用されるか否かによって、必要とされる機能が異なる。より具体的には、「翻訳音声モード」が使用される場合には、ＭＦＰ２００は、音声識別部２９３の機能を必要とする。ＭＦＰ２００は、ユーザー端末３００が出力した音声のみを使用して制御情報を生成し、ユーザーがユーザー端末３００に対して出力した音声を制御情報の生成に使用しないために、音声識別部２９３として機能する。「翻訳音声モード」が使用されない場合には、音声識別部２９３は必要とされない。ＭＦＰ２００では、デフォルトでは翻訳音声モードが使用されない設定が登録されており、合成音声が入力されたことを条件として、翻訳音声モードを使用する設定が登録されてもよい。すなわち、合成音声の入力により翻訳音声モードの使用が指定される。

なお、ＣＰＵ２０１は、スピーカー２１２を介して入力された音声に対する音声認識率が所与の閾値より低いことを条件として、操作パネル２０７に、翻訳音声モードの使用を促す画面を表示してもよい。音声認識率は、一例では、入力された音声のデータ量に対する、音声認識により文字列に置換された音声のデータ量の割合として算出される。

［８．変形例（４）］
次に、上記実施の形態の４つ目の変形例について説明する。この変形例は、ＭＦＰ２００において使用される「応答翻訳音声モード」に関連する。

図１２は、応答翻訳音声モードを使用するときのＭＦＰ２００の機能構成の一例を示す図である。図１２に示された構成では、ＭＦＰ２００のＣＰＵ２０１は、図４と比較して、さらにジョブ情報確認部２９５および音声生成部２９６として機能する。応答翻訳音声モードは、ＭＦＰ２００が音声で出力した応答を、ユーザー端末３００が翻訳して出力することを想定したモードである。

図１２の例では、ジョブ情報確認部２９５は、ジョブ判断生成部２９２によって生成された制御情報において、ジョブの制御に対する不足事項があるか否かを判断する。ジョブ情報確認部２９５は、不足事項があれば、当該不足事項を音声生成部２９６へ通知する。

音声生成部２９６は、不足事項の通知を受けると、不足事項の補充を要求する音声を生成する。たとえば、ジョブ情報確認部２９５は、入力された音声によって拡大コピーのジョブの開始が指示されたときに、拡大倍率の情報が不足していると判断する場合がある。この場合、ジョブ情報確認部２９５は、不足事項として「拡大倍率」を音声生成部２９６へ通知する。音声生成部２９６は、「拡大倍率」を問い合わせるための音声を生成し、当該音声をスピーカー３１２から出力する。１以上の不足事項のそれぞれに対応する問い合わせ用の音声が予め格納されており、音声生成部２９６は、不足事項に対応する音声を選択して出力してもよい。

応答翻訳音声モードでは、ＭＦＰ２００は、不足事項に対応する音声が出力された後、一定時間、入力された音声をジョブの制御のための制御情報の生成において無視する。

図１３は、ＭＦＰ２００の操作パネル２０７に表示される画面の一例を示す図である。ユーザーは、ＭＦＰ２００において応答翻訳音声モードを使用するかしないかを選択できる。図１３の画面１３００は、ＭＦＰ２００において翻訳音声モードを使用するか否かの設定値を入力するための画面である。

画面１３００において、欄１３０１は、メッセージ「応答翻訳音声モードを使用しますか？」を表示する。欄１３１０は、応答翻訳音声モードが使用される状態を表す画像を示す。ボタン１３１１は、欄１３１０に関連付けられて表示され、応答翻訳音声モードを使用するという設定値を入力するために操作される。欄１３２０は、応答翻訳音声モードが使用されない状態を表す画像を示す。ボタン１３２１は、欄１３２０に関連付けられて表示され、応答翻訳音声モードを使用しないという設定値を入力するために操作される。

図１４は、変形例（４）に従った処理のフローチャートである。
図１４に示されるように、ステップＳ１０にて、ＣＰＵ２０１は、音声内容によりＭＦＰ２００のジョブの種類／ジョブ設定が検出されたか否かを判断する。ＣＰＵ２０１は、ジョブの種類／ジョブ設定が検出されたと判断するとステップＳ２８へ制御を進め（ステップＳ１０にてＹＥＳ）、そうでなければ図１４の処理を終了する（ステップＳ１０にてＮＯ）。

ステップＳ２８にて、ＣＰＵ２０１は、ＭＦＰ２００において翻訳音声モードを使用することが設定されているか否かを判断する。ＣＰＵ２０１は、翻訳音声モードを使用することが設定されていると判断すると（ステップＳ２８にてＹＥＳ）、ステップＳ３２へ制御を進め、そうでなければ（ステップＳ２８にてＮＯ）、図１４の処理を終了する。

ステップＳ３２にて、ＣＰＵ２０１は、マイクロフォン２１１を介してＭＦＰ２００に入力された音声の中から合成音声を抽出し、抽出された音声に従ってジョブの設定を生成する。

ステップＳ４０にて、ＣＰＵ２０１は、ステップＳ３２において生成されたジョブの設定から、ジョブの実行指示に対する不足事項が検出されたか否かを判断する。ＣＰＵ２０１は、不足事項が検出されたと判断すると（ステップＳ４０にてＹＥＳ）、ステップＳ５０へ制御を進め、そうでなければ、生成された設定に従ってジョブを制御して、図１４の処理を終了する。

ステップＳ５０にて、ＣＰＵ２０１は、ＭＦＰ２００において応答翻訳音声モードを使用することが設定されているか否かを判断する。ＣＰＵ２０１は、応答翻訳音声モードを使用することが設定されていると判断すると（ステップＳ５０にてＹＥＳ）、ステップＳ６０へ制御を進め、そうでなければ（ステップＳ５０にてＮＯ）、ステップＳ７０へ制御を進める。

ステップＳ６０にて、ＣＰＵ２０１は、不足事項の問い合わせ（質問事項）を音声で出力し、一定時間ステップＳ６０に制御を留めた後、図１４の処理を終了する。ＭＦＰ２００から出力された質問事項の音声がユーザー端末３００で翻訳され、ユーザー端末３００が翻訳後の質問事項を出力する事態が想定される。ステップＳ６０によれば、翻訳後の質問事項の音声が出力されている期間、音声がジョブの制御に利用されることが回避され得る。

なお、ＣＰＵ２０１は、ステップＳ６０に記載されたような質問事項の音声出力の後、一定時間待つこと無く図１４の処理を終了し、その後、一定時間、図１４の処理を再開しないように動作しても良い。これにより、質問事項の音声出力後、所与の種類の音声（合成音声）がＭＦＰ２００に入力されても、ＭＦＰ２００は、当該音声を使用したジョブの制御を実行しない。

ステップＳ７０にて、ＣＰＵ２０１は、質問事項に対応する設定を入力するための画面を操作パネル２０７に表示した後、図１４の処理を終了する。質問事項の表示の後、ＭＦＰ２００にマイクロフォン２１１を介して音声が入力された場合、ステップＳ６０のように一定時間の経過を待つこと無く、ステップＳ１０から図１４の処理が再開される。

図１４の処理では、応答翻訳音声モードの使用が設定されていることを条件として、質問事項が表示された。図１５は、質問事項の表示の一例を示す図である。

図１５の画面１５００は、拡大コピーにおける拡大サイズを問い合わせる画面である。画面１５００は、欄１５０１を含む。欄１５０１は、メッセージ「拡大サイズを選択してください。」を含む。画面１５００は、それぞれ異なる拡大サイズを指定するための３つのアイコン１５１０，１５２０，１５３０を含む。たとえば、アイコン１５１０は、Ｂ５サイズからＡ４サイズへの拡大を指定するために操作される。

図１４には、処理内容の一具体例を説明するために、ＭＦＰ２００についての２つの状態ＳＴ２１，ＳＴ２２が示されている。状態ＳＴ２１は、ＭＦＰ２００において生成された制御情報が「拡大コピー」を含む状態である。この制御情報が生成された状態でステップＳ３２の制御が実施された場合、不足事項として「拡大サイズ」が検出される。不足事項として「拡大サイズ」が検出された状態が状態ＳＴ２２として示される。その後、ユーザーが質問事項に対応する設定を入力することにより不足事項が補われ、これにより、ＭＦＰ２００はジョブを実行する。

［９．変形例（５）］
図１６は、変形例（５）に従ったＭＦＰ２００において実行される処理のフローチャートである。図１６の処理は、図１４の処理と比較して、ステップＳ６０の代わりにステップＳ６２を含み、さらにステップＳ８０およびステップＳ９０を含む。図１６を参照して、変形例（５）の処理を説明する。

ステップＳ６２にて、ＣＰＵ２０１は、不足事項の問い合わせ（質問事項）を音声で出力し、機械音声（合成音声）を無視し、（一定時間待つこと無く）ステップＳ８０へ制御を進める。機械音声を無視することの一例は、マイクロフォン２１１を介して合成音声が入力されても、当該合成音声に対する音声認識および制御情報の生成を実施しないことである。

ステップＳ７０にて、ＣＰＵ２０１は、質問事項に対応する設定を入力するための画面を操作パネル２０７に表示した後、ステップＳ８０へ制御を進める。

ステップＳ８０にて、ＣＰＵ２０１は、ユーザー音声を検出したか否かを判断する。ユーザー音声とは、たとえば、ユーザー（人間）の肉声である。一実現例では、ＣＰＵ２０１は、マイクロフォン２１１を介して入力された音声が所与の種類（合成音声）以外の種類の音声であることが特定された場合に、ユーザー音声を検出したと判断する。ＣＰＵ２０１は、ユーザー音声を検出したと判断するまで繰り返しステップＳ８０の制御を実行する（ステップＳ８０にてＮＯ）。ＣＰＵ２０１は、ユーザー音声を検出したと判断すると（ステップＳ８０にてＹＥＳ）、ステップＳ９０へ制御を進める。

ステップＳ９０にて、ＣＰＵ２０１は、ステップＳ６２における機械音声の無視を解除して、図１６の処理を終了する。

図１６の処理によれば、ＭＦＰ２００は、ユーザーへの質問を音声で出力した場合に、所与の種類の音声（合成音声）とは異なる種類の音声（ユーザー音声）が検出されたことを条件として、ジョブの実行を指示する情報を使用したジョブの実行の制御を再開する。

今回開示された各実施の形態は全ての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内での全ての変更が含まれることが意図される。また、実施の形態および各変形例において説明された発明は、可能な限り、単独でも、組合わせても、実施することが意図される。

１００情報処理システム、２００ＭＦＰ、２０１，３０１ＣＰＵ、２０７操作パネル、２０８スキャナー部、２０９プリンター部、２１０ＦＡＸ部、２１１，３１１マイクロフォン、２１２，３１２スピーカー、２９１音声認識部、２９２ジョブ判断生成部、２９３音声識別部、２９４ジョブ制御部、２９５ジョブ情報確認部、２９６音声生成部、３００ユーザー端末、３０４ディスプレイ、３０５入力装置、９００ユーザー、１１００，１３００，１５００画面、１１０１，１１１０，１１２０，１３０１，１３１０，１３２０，１５０１欄、１１１１，１１２１，１３１１，１３２１ボタン、１５１０，１５２０，１５３０アイコン。

Claims

音声認識部と、
前記音声認識部によって認識された情報がジョブの実行に関する情報であるか否かを判断し、ジョブの実行に関する情報であると判断した場合に、前記音声認識部によって認識された情報を用いてジョブの実行を指示する情報を生成するジョブ情報生成部と、
前記音声認識部に入力された音声が所与の種類の音声であるか否かを識別する音声識別部と、
前記音声識別部が前記音声認識部に入力された音声が前記所与の種類の音声であることを識別した場合に、前記ジョブの実行を指示する情報を使用してジョブの実行を制御する制御部とを備える、情報処理装置。
前記音声識別部は、音声の声紋データに基づいて、前記音声認識部に入力された音声が前記所与の種類の音声であるか否かを識別する、請求項１に記載の情報処理装置。
音声を識別するための情報を格納する記憶部をさらに備え、
前記音声識別部は、前記音声認識部に入力された音声を前記記憶部に格納された情報と照合することにより、前記音声認識部に入力された音声が前記所与の種類の音声であるか否かを識別する、請求項１または請求項２に記載の情報処理装置。
前記音声認識部に音声を入力するユーザーを識別するユーザー識別部をさらに備え、
前記所与の種類は前記ユーザー識別部によって識別されたユーザーに従って特定される、請求項１〜請求項３のいずれか１項に記載の情報処理装置。
前記制御部は、音声入力に関するモードである翻訳音声モードの使用の指定を受け付け、
前記音声識別部は、前記翻訳音声モードの使用の指定を受け付けたことを条件として、前記識別を実施する、請求項１〜請求項４のいずれか１項に記載の情報処理装置。
前記制御部は、前記所与の種類の音声の入力を、前記翻訳音声モードの使用の指定として扱う、請求項５に記載の情報処理装置。
前記制御部は、前記音声認識部による音声認識率が所与の閾値より低い場合に、前記翻訳音声モードの使用の指定を促すための情報を出力する、請求項５に記載の情報処理装置。
ディスプレイをさらに備え、
前記制御部は、前記翻訳音声モードの使用が指定されている場合には、ユーザーへの質問を前記ディスプレイにおける表示として出力する、請求項５〜請求項７のいずれか１項に記載の情報処理装置。
前記制御部は、
音声出力に関するモードである応答翻訳音声モードの使用の指定を受け付け、
ユーザーへの質問を音声で出力した場合に、当該質問が音声で出力された後、一定時間、前記音声識別部からの音声の認識結果を無視することにより、前記ジョブの実行を指示する情報を使用したジョブの実行の制御を行わない、請求項５〜請求項７のいずれか１項に記載の情報処理装置。
前記制御部は、
音声出力に関するモードである応答翻訳音声モードの使用の指定を受け付け、
ユーザーへの質問を音声で出力した場合に、当該質問が音声で出力された後、一定時間、前記音声識別部が前記音声認識部に入力された音声が前記所与の種類の音声であると識別した場合でも、前記ジョブの実行を指示する情報を使用したジョブの実行の制御を行わない、請求項５〜請求項７のいずれか１項に記載の情報処理装置。
前記制御部は、ユーザーへの質問を音声で出力した場合に、前記所与の種類とは異なる種類の音声が検出されたことを条件として、前記ジョブの実行を指示する情報を使用したジョブの実行の制御を再開する、請求項９または請求項１０に記載の情報処理装置。
画像処理に関するジョブを実行する画像処理部をさらに備え、
前記ジョブの実行の制御は前記画像処理部の制御を含む、請求項１〜請求項１１のいずれか１項に記載の情報処理装置。
音声認識部によって認識された情報がジョブの実行に関する情報であるか否かを判断するステップと、
前記音声認識部に入力された音声が所与の種類の音声であるか否かを識別するステップと、
前記音声認識部に入力された音声が前記所与の種類の音声であることが識別された場合に、前記音声認識部によって認識された情報を用いて生成されたジョブの実行を指示する情報を使用して、ジョブの実行を制御するステップとを備える、情報処理装置の制御方法。
１以上のプロセッサーによって実行されることにより、前記１以上のプロセッサーに、
音声認識部によって認識された情報がジョブの実行に関する情報であるか否かを判断するステップと、
前記音声認識部に入力された音声が所与の種類の音声であるか否かを識別するステップと、
前記音声認識部に入力された音声が前記所与の種類の音声であることが識別された場合に、前記音声認識部によって認識された情報を用いて生成されたジョブの実行を指示する情報を使用して、ジョブの実行を制御するステップとを実行させる、プログラム。