JP7346827B2 - 画像形成装置、画像形成システム、及び、画像形成装置の制御方法 - Google Patents

画像形成装置、画像形成システム、及び、画像形成装置の制御方法 Download PDF

Info

Publication number
JP7346827B2
JP7346827B2 JP2019013294A JP2019013294A JP7346827B2 JP 7346827 B2 JP7346827 B2 JP 7346827B2 JP 2019013294 A JP2019013294 A JP 2019013294A JP 2019013294 A JP2019013294 A JP 2019013294A JP 7346827 B2 JP7346827 B2 JP 7346827B2
Authority
JP
Japan
Prior art keywords
unit
voice
input
image forming
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019013294A
Other languages
English (en)
Other versions
JP2020122834A (ja
Inventor
達也 川野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Priority to JP2019013294A priority Critical patent/JP7346827B2/ja
Priority to US16/745,731 priority patent/US20200244824A1/en
Publication of JP2020122834A publication Critical patent/JP2020122834A/ja
Application granted granted Critical
Publication of JP7346827B2 publication Critical patent/JP7346827B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/0035User-machine interface; Control console
    • H04N1/00352Input means
    • H04N1/00403Voice input means, e.g. voice commands
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00281Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a telecommunication apparatus, e.g. a switched network of teleprinters for the distribution of text-based information, a selective call terminal
    • H04N1/00307Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a telecommunication apparatus, e.g. a switched network of teleprinters for the distribution of text-based information, a selective call terminal with a mobile telephone apparatus
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0008Connection or combination of a still picture apparatus with another apparatus
    • H04N2201/0074Arrangements for the control of a still picture apparatus by the connected apparatus
    • H04N2201/0075Arrangements for the control of a still picture apparatus by the connected apparatus by a user operated remote control device, e.g. receiving instructions from a user via a computer terminal or mobile telephone handset
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0077Types of the still picture apparatus
    • H04N2201/0094Multifunctional device, i.e. a device capable of all of reading, reproducing, copying, facsimile transception, file transception

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Control Or Security For Electrophotography (AREA)
  • Facsimiles In General (AREA)
  • Accessory Devices And Overall Control Thereof (AREA)

Description

本発明は、音声入力による操作が可能な画像形成装置、画像形成システム、及び、画像形成装置の制御方法に係わる。
従来の操作パネルだけでなく、音声で操作できる画像形成装置が登場してきている。このような画像形成装置において、音声操作用のマイクロフォン(以下、マイク)は画像形成装置の本体に内蔵、又は、画像形成装置近傍に設置されている。このため、ユーザーは、画像形成装置に向かって音声操作指示を発声することで、音声による画像形成装置の操作を行うことができる。
例えば、画像形成装置に接続されたマイクと、画像形成装置の外部に配置された携帯端末のマイクと通信する画像処理システムが提案されている(例えば、特許文献1参照)。この画像形成システムでは、画像形成装置に接続されたマイクから第1の音声信号の入力を受け付けた際に、第1の音声信号に基づく音声認識が不成功の場合に、携帯端末に接続されたマイクから第2の音声信号の入力を受け付ける。このように、第1の音声信号の入力が不成功の場合に第2の音声信号に基づく音声認識を実行することにより、音声による指示の精度を容易に向上させることができる。
また、外部サーバー等と通信可能な画像形成装置に対する音声操作指示において、ユーザーが発した音声に個人情報や機密情報等の秘匿ワードが含まれる場合には、秘匿ワードの音声データを、代替ワードの音声データに置き換えてデータを生成する画像形成システムが提案されている(例えば、特許文献2参照)。これにより、画像形成装置に対して入力された音声に秘匿情報が含まれる場合に、その秘匿情報が外部との通信において漏洩することを防ぐことができる。
特開2014-203024号公報 特開2015-88890号公報
しかしながら、一般的に、画像形成装置はオフィス等に設置されるため、周囲に多数の人間がいることが想定される。このため、ユーザーが発声した音声操作指示に個人情報や機密情報等を含む音声が含まれる場合、音声から情報が漏洩するリスクが懸念される。
上述した問題の解決のため、本発明においては、情報漏洩リスクを低減させることが可能な画像形成装置、画像形成システム、及び、画像形成装置の制御方法を提供する。
本発明の画像形成装置は、周辺の音を集音して第1の音声信号を生成する第1の音声入力部と、携帯端末の周辺の音を集音する第2の音声入力部で生成された第2の音声信号を、携帯端末から受信する通信部と、第1の音声入力部の第1の音声信号の入力に基づいて、音声操作指示の開始を意味する音声操作開始音声の認識を行う第1の音声認識部と、第1の音声認識部の認識結果と予め設定された情報との比較結果に基づいて、第1の音声入力部と携帯端末の第2の音声入力部とから音声入力部を選択する選択部と、選択部で選択された第1の音声入力部又は第2の音声入力部からの音声入力を有効に切り替える入力切り替え部と、入力切り替え部が音声入力を有効にした第1の音声入力部から入力される第1の音声信号、又は、第2の音声入力部から入力される第2の音声信号に基づいて、音声操作指示の内容の認識を行う第2の音声認識部とを備える。
また、本発明の画像形成システムは、画像形成装置と、画像形成装置と通信可能な外部サーバーとを備える。この画像形成システムは、周辺の音を集音して第1の音声信号を生成する第1の音声入力部と、携帯端末の周辺の音を集音する第2の音声入力部で生成された第2の音声信号を、携帯端末から受信する通信部と、第1の音声入力部の第1の音声信号の入力に基づいて、音声操作指示の開始を意味する音声操作開始音声の認識を行う第1の音声認識部と、第1の音声認識部の認識結果と予め設定された情報との比較結果に基づいて、第1の音声入力部と携帯端末の第2の音声入力部とから音声入力部を選択する選択部と、選択部で選択された第1の音声入力部又は第2の音声入力部からの音声入力を有効に切り替える入力切り替え部と、入力切り替え部が音声入力を有効にした第1の音声入力部から入力される第1の音声信号、又は、第2の音声入力部から入力される第2の音声信号に基づいて、音声操作指示の内容の認識を行う第2の音声認識部とを備える。そして、第1の音声入力部と、通信部と、入力切り替え部とが画像形成装置に配置され、第1の音声認識部と、選択部と、第2の音声認識部とのそれぞれが、画像形成装置と外部サーバーとの少なくともいずれかに配置される。
また、本発明の画像形成装置の制御方法は、第1の音声入力部において、周辺の音を集音して第1の音声信号を生成し、通信部において、携帯端末の第2の音声入力部で集音された携帯端末の周辺の音に基づく第2の音声信号を、携帯端末から受信し、第1の音声認識部において、第1の音声入力部からの入力される第1の音声信号に基づいて、音声操作指示の開始を意味する音声操作開始音声の認識を行い、選択部において、第1の音声認識部の認識結果と予め設定された情報との比較結果に基づいて、第1の音声入力部と携帯端末の第2の音声入力部とから音声入力部を選択し、入力切り替え部において、選択部で選択された第1の音声入力部又は第2の音声入力部からの音声入力を有効にし、第2の音声認識部において、入力切り替え部が音声入力を有効にした第1の音声入力部から入力される第1の音声信号、又は、第2の音声入力部から入力される第2の音声信号に基づいて、当該画像形成装置に対する音声操作指示の内容の認識を行う。
本発明によれば、情報漏洩リスクを低減させることが可能な画像形成システムを提供することができる。
画像形成システムの概略構成を示す図である。 画像形成装置のハードウェア構成例を示す図である。 携帯端末のハードウェア構成例を示す図である。 画像形成装置の音声操作に係るシステム制御構成を示す図である。 画像形成システムの音声操作の動作フローチャートを示す図である。 画像形成システムの音声操作における入力切り替え処理のフローチャートである。 画像形成システムの音声操作に係るシステム制御構成を示す図である。
以下、本発明を実施するための形態の例を説明するが、本発明は以下の例に限定されるものではない。
なお、説明は以下の順序で行う。
1.画像形成システムの実施の形態(第1実施形態)
2.画像形成システムの実施の形態(第2実施形態)
〈1.画像形成システムの実施の形態(第1実施形態)〉
以下、画像形成システムの具体的な実施の形態について説明する。図1に、本実施の形態の画像形成システムの概略構成図を示す。
図1に示す画像形成システム1は、画像形成装置10と、画像形成装置10が音声入力を受け付ける第1の音声入力部の構成として本体マイク150とを備える。画像形成装置10は、LAN(Local Area Network)等のネットワーク20に接続されている。そして、画像形成装置10は、ネットワーク20を介して、ユーザーが使用する第2の音声入力部を備える携帯端末310に接続されている。さらに、画像形成装置10は、ネットワーク20を介して、外部サーバー40等を備えていてもよい。
ネットワーク20は有線であっても無線であってもよい。例えば、画像形成装置10と外部サーバー40とが有線LANを介して接続され、画像形成装置10と携帯端末310が無線LANを介して接続されている例が挙げられる。
画像形成装置10は、画像形成機能を実現するための構成を有する。第1の音声入力部としての本体マイク150は、画像形成装置10に含まれなくてもよい。さらに、音声入力を受け付ける第1の音声入力部は、本体マイク150に限定されず、接続された音声入力装置から入力される音声信号を処理する処理装置も含んでもよい。
携帯端末310としては、携帯電話機やスマートフォン等の携帯可能な端末が挙げられる。携帯端末310は、音声入力を受け付ける機能を実現する第2の音声入力部としてのマイクと、情報を表示(出力)するためのタッチパネル等の表示部や、スピーカー等の音声出力部とを備える。なお、画像形成システム1において、携帯端末310は、少なくともこれら機能を有し、ユーザーが持ち運び可能であれば特に限定されない。
[画像形成装置のハードウェア構成]
画像形成システム1に係る画像形成装置10のハードウェア構成の具体例を図2に示す。なお、ここで示す画像形成装置10は、画像読み取り機能や印刷機能を備えた一般的な装置構成を示しているが、必ずしも全ての機能を搭載する必要はなく、ファクシミリ装置やスキャナー装置等の限定的な機能を有した構成であってもよい。
画像形成装置10は、メインコントローラー100、画像読取部110、画像形成部120、操作表示部130、通信部140、及び、本体マイク150が相互接続されて構成される。
メインコントローラー100は、制御装置として機能する演算装置であるCPU(Central Processing Unit)105、CPU105で実行されるプログラム等を記憶するROM(Read Only Memory)101、画像データなどを保存するHDD(hard disk drive)102、CPU105でプログラムを実行する際の作業領域として機能するメモリ103、画像形成装置10の制御に必要な各回路を装備したASIC(application specific integrated circuit)104等の一般的な画像形成装置に必要な要素を含む。
画像形成装置10は、操作表示部130や、通信部140からの操作指示に基づき、画像読み取り機能(スキャン)や画像形成機能(印刷)などを実行する。また、画像形成装置10は、ユーザーが特定の操作指示を含む音声を本体マイク150に対して入力すると、メインコントローラー100内で音声認識処理が行われ、操作表示部130や通信部140からの操作指示と同様に、音声操作指示の内容に応じた各種機能を実行する。
なお、図2に記載の画像形成装置10の構成では、本体マイク150を、メインコントローラー100と図示しないI/Fを介して接続する形態を採っているが、本体マイク150とメインコントローラー100との接続はこの形態に限られない。例えば、本体マイク150は、内部に音声認識処理を行う制御部を搭載し、音声認識処理の一部(例えば、音声操作開始音声の認識処理)を内部で行うように構成して、本体マイク150とメインコントローラー100とを接続する構成をとってもよい。さらには、本体マイク150とメインコントローラー100との間の通信を、LAN(Local Area Network)やWAN(Wide Area Network)等のネットワーク経由で実施する形態としてもよい。
画像読取部110は、図示しない原稿台に載置された原稿を光学的に読み取って画像データを取得する。画像形成部120は、画像を用紙上に印刷する画像形成を行う。操作表示部130は、図示しないタッチパネルや操作キー群を含む入力部と表示部とを備える。例えば、操作表示部130は、液晶表示装置などの表示装置と光学式や静電容量式等のタッチパネルの位置指示装置とが重なって構成され、表示装置に操作画面を表示してその操作画面上の指示位置を特定する。CPU105は予め記憶されている画面表示をさせるためのデータに基づいて表示装置に操作画面を表示させる。特定された表示装置上での指示位置(タッチされた位置)や、押下されたキーを示す操作信号はCPU105に入力される。CPU105は押下されたキー、又は、表示している操作画面と指示位置とから操作内容を特定し、それに基づいて処理を実行する。通信部140は、上記ネットワーク20を介した通信を行う。
[携帯端末の構成]
図3に、携帯端末310のハードウェア構成の具体例を示す。図3に示すように、携帯端末310は、全体を制御する演算装置であるCPU30、CPU30で実行されるプログラム等を記憶するROM31、CPU30でプログラムを実行する際の作業領域として機能するRAM32、第2の音声入力部として機能する端末マイク311、スピーカー34、操作表示部として機能するタッチパネル35、及び、上記ネットワーク20を介した通信を制御するためネットワークコントローラー36とを含む。携帯端末310が、上述のように携帯電話機やスマートフォンなどのような電話機能を有する場合には、さらに電話機能を実現するための構成を含む。
[画像形成システムのシステム制御構成]
画像形成システム1における、画像形成装置10の音声操作に係るシステム制御構成を図4に示す。
画像形成システム1は、画像形成装置10に搭載された第1の音声入力部である本体マイク150と、メインコントローラー100とが相互に通信する。また、通信部140を介して、メインコントローラー100と外部の携帯端末310とがネットワーク20(図1参照)を介して相互に通信する。
メインコントローラー100は、第1の音声認識部である音声操作開始キーワード認識部301と、音声入力部の選択及び携帯端末310を特定するための選択部である使用入力判定部302と、入力切り替え部303と、ユーザーに関するユーザー情報を管理するユーザー情報管理部304と、第2の音声認識部である音声操作指示内容認識部305と、音声操作受付部306とを備える。
携帯端末310は、携帯端末310に搭載された第2の音声入力部である端末マイク311を備える。携帯端末310は、画像形成装置10の通信部140と、ネットワーク20を介して通信可能に接続されている。携帯端末310は、端末マイク311で集音した周囲の音を、第2の音声信号(音声データ)として、通信部140を介してメインコントローラー100に送信する。
本体マイク150は、画像形成装置10の周辺の音を集音し、画像形成装置10の周囲においてユーザーが発声した音声を取得する。そして、本体マイク150で取得した第1の音声信号(音声データ)を、音声操作開始キーワード認識部301、及び、入力切り替え部303へ送信する。
音声操作開始キーワード認識部301は、第1の音声信号から音声操作開始を意味するキーワード(音声操作開始キーワード)を認識する。音声操作開始キーワード認識部301は、第1の音声信号からキーワードを認識した場合、使用入力判定部302に音声操作開始キーワードが含まれた第1の音声信号を送信する。
使用入力判定部302は、第1の音声信号から、ユーザーの声質に基づいて決定される特徴データを抽出する。そして、使用入力判定部302は、抽出した特徴データと、ユーザー情報管理部304に保存されている各ユーザーの特徴データとの照合を行う。この照合によって、使用入力判定部302が本体マイク150に音声を発声しているユーザーを特定する。
ユーザー情報管理部304は、ユーザーに関するユーザー情報として、ユーザーの特徴データ、ユーザーの所持する携帯端末310の接続情報、及び、携帯端末310の使用の有無等を含むユーザー設定情報等を有する。ユーザー情報管理部304が有するユーザーの特徴データとは、ユーザー(話者)の特定に使用できる情報であれば、どのような形態であってもよい。一例として、話者認識で広く用いられている特徴量として、LPCケプストラム係数(LPCC)やメル周波数ケプストラム係数(MFCC)が挙げられる。ユーザー情報管理部304にユーザー情報の登録を行う際に、これらの特徴量を算出し、ユーザーの特徴データとしてユーザー情報に紐づけて保存しておくことで、ユーザーの照合が可能となる。
使用入力判定部302は、ユーザー情報管理部304から特定されたユーザーに関するユーザー情報を読み出し、ユーザー情報に紐付いた携帯端末310の接続情報から、接続する携帯端末310を特定する。そして、使用入力判定部302は、特定した携帯端末310との接続を有効にするように入力切り替え部303に指示する。入力切り替え部303は、本体マイク150から使用入力判定部302によって特定された携帯端末310に通信を切り替え、携帯端末310との通信を有効にする。これにより、使用入力判定部302は、携帯端末310に内蔵されている端末マイク311からの音声信号(第2の音声信号)の入力を有効にする。
なお、使用入力判定部302は、入力切り替え部303による通信の切り替えを、ユーザー情報管理部304に保存されているユーザー設定情報に基づいて行ってもよい。例えば、使用入力判定部302は、ユーザー設定情報が音声入力に携帯端末を使用する設定となっている場合には、入力切り替え部303を切り替えて携帯端末310との通信を有効にする。また、使用入力判定部302は、ユーザー設定情報が音声入力に携帯端末を使用する設定となっていない場合には、使用入力判定部302は、入力切り替え部303の切り替えを行わずに、本体マイク150からの音声入力を有効にする。
入力切り替え部303が携帯端末310からの音声入力を有効にした後は、ユーザーからの音声入力は、端末マイク311から行われる。このため、ユーザーが本体マイク150へ音声操作開始キーワードを音声入力した後、ユーザーが携帯端末310に音声操作指示を発声すると、端末マイク311、通信部140、及び、入力切り替え部303を通じて、第2の音声信号(音声データ)が音声操作指示内容認識部305に送信される。
音声操作指示内容認識部305は、携帯端末310から送信される第2の音声信号から、画像形成装置10に対する操作指示の音声を認識する。そして、認識した操作指示内容を音声操作受付部306に通知する。音声操作受付部306は、音声操作指示内容認識部305から通知された操作指示内容に従って所定の処理の実行を画像形成装置10に指示する。
なお、使用入力判定部302においてユーザー情報に基づく携帯端末310が特定できない場合には、入力切り替え部303において本体マイク150との通信を維持してもよい。この場合には、本体マイク150からの音声入力に従って、音声操作指示内容認識部305が音声操作指示の内容を認識し、音声操作受付部306が音声操作指示に従って所定の操作の実行を画像形成装置10に指示する。
[画像形成システムの動作フロー]
画像形成システムの音声操作の動作フローチャートを図5に示す。
まず、画像形成装置10は、本体マイク150からユーザーの音声が入力された際に、音声操作開始キーワード認識部301が操作開始キーワードを検出したか否かを判定する(ステップS11)。例えば、画像形成装置10に対して、ユーザーが「コピー開始」等の操作開始キーワードを用いて音声で指示を行い、音声操作開始キーワード認識部301が入力された音声からこの操作開始キーワードを検出する。
音声操作開始キーワード認識部301が、ユーザー入力した音声から操作開始キーワードを検出しない場合(ステップS11のNo)は、操作開始キーワードを検出するまで入力される音声に対する判定を繰り返す。
音声操作開始キーワード認識部301が操作開始キーワードを検出した場合(ステップS11のYes)、入力切り替え部303が音声入力を有効にする音声入力部の切り替え処理を行う(ステップS12)。入力切り替え部303は、入力切り替え処理により、音声操作の入力を有効にする音声入力部を、本体マイク150(第1の音声入力部)、又は、ユーザー情報に紐付けられた携帯端末310の端末マイク311(第2の音声入力部)に切り替える処理を行う。入力切り替え部303における入力切り替え処理の詳細については後述する。
入力切り替え処理後、音声操作指示内容認識部305は、選択された音声入力部から入力される音声信号に音声操作指示が含まれるか判定する(ステップS13)。
音声操作指示内容認識部305が、音声信号から音声操作指示を検出した場合(ステップS13のYes)は、音声信号に含まれる指示内容を認識する(ステップS14)。
音声操作指示内容認識部305が、音声信号から音声操作指示を検出しない場合(ステップS13のNo)は、音声操作指示の検出を停止する。例えば、入力切り替え処理後、音声操作指示を検出せずに所定の時間を経過した場合には、音声操作指示の検出を停止する。また、入力切り替え処理により、携帯端末310の端末マイク311からの音声入力が有効となっている場合には、入力切り替え部303が音声入力部を携帯端末310側から本体マイク150に切り替えてもよい。そして、音声操作指示の検出を停止した後、音声操作開始キーワード認識部301による操作開始キーワードを検出する処理(ステップS11)を、再度繰り返す。
音声操作指示内容認識部305は、認識した操作指示内容が画像形成装置10において実行可能かどうか判定する(ステップS15)。操作指示内容が実行可能でない場合(ステップS15のNo)、音声操作指示内容認識部305は、ユーザーに対して指示された操作内容が画像形成装置10において実行できないことを、画像形成装置10の操作表示部における表示や、携帯端末310からの音声を用いてユーザーに通知する(ステップS16)。そして、通知後、ユーザーからの音声操作指示が入力されるまで、選択された音声入力部から入力される音声信号に音声操作指示が含まれるかどうかの判定(ステップS13)を再度行う。
操作指示内容が実行可能である場合(ステップS15のYes)、音声操作指示内容認識部305は指示内容を音声操作受付部306に通知する。そして、音声操作受付部306は、音声操作指示内容認識部305から通知された操作指示内容に従って所定の操作の実行を画像形成装置10に指示し、画像形成装置10が操作に基づく処理を実行する(ステップS17)。
ユーザーからの音声による操作指示をすべて実行した後は、音声操作開始キーワード認識部301による操作開始キーワードを検出する処理(ステップS11)を、操作開始キーワードを検出するまで繰り返す。
(入力切り替え処理のフローチャート)
上述の図5に示す画像形成システムの音声操作の動作フローチャートにおける、入力切り替え部303における入力切り替え処理(ステップS12)のフローチャートを図6に示す。
まず、使用入力判定部302は、本体マイク150に入力された第1の音声信号(音声データ)から、ユーザーの声質の特徴に基づく特徴データを算出する(ステップS21)。そして、使用入力判定部302は、算出した第1の音声信号の特徴データと、ユーザー情報管理部304から取得したユーザー情報に含まれる特徴データとの照合を行う(ステップS22)。これにより、使用入力判定部302は、第1の音声信号の特徴データと合致するユーザーを検索し、第1の音声信号の特徴データと合致するユーザーに関するユーザー情報が、ユーザー情報管理部304に登録されているかどうかを判定する(ステップS23)。
第1の音声信号の特徴データの合致するユーザーがユーザー情報管理部304に登録されていた場合(ステップS23のYes)、使用入力判定部302は、ユーザー情報管理部304に登録されたユーザー情報から、携帯端末310のユーザー設定情報を参照し、携帯端末310での音声操作の使用設定が有効かどうかを判定する(ステップS24)。
ユーザー情報の携帯端末310での音声操作の使用設定が有効となっていた場合(ステップS24のYes)、使用入力判定部302は、登録されているユーザー情報に、IPアドレスや電話番号等の携帯端末310の接続情報が含まれているかどうかを確認する(ステップS25)。
ユーザー情報に接続情報が含まれている場合(ステップS25のYes)、使用入力判定部302が通信する携帯端末310を特定し、入力切り替え部303が有効な音声入力部を本体マイク150から携帯端末310に切り替える(ステップS26)。その後、使用入力判定部302は、特定した携帯端末310との通信の接続を確認する(ステップS27)。そして、使用入力判定部302は、携帯端末310との接続を確認できた場合(ステップS27のYes)、携帯端末310の端末マイク311を音声操作の入力部として選択し、携帯端末310からの音声入力を有効にする(ステップS28)。
第1の音声信号の特徴データの合致するユーザーがユーザー情報管理部304に登録されていない場合(ステップS23のNo)、ユーザー情報における携帯端末310の使用設定が有効となっていない場合(ステップS24のNo)、ユーザー情報内に接続情報が含まれていない場合(ステップS25のNo)、又は、携帯端末310との接続を確認できない場合(ステップS27のNo)は、使用入力判定部302は、本体マイク150を音声操作の入力部として選択し、本体マイク150からの音声入力を有効にする(ステップS29)。
ステップS29又はステップS28の処理後、ステップS12の入力切り替え部303における入力切り替え処理を終了する。
〈2.画像形成システムの実施の形態(第2実施形態)〉
画像形成システムの第2実施形態について説明する。第2実施形態は、画像形成システムのシステム制御構成が、画像形成装置10と外部サーバー40とに配置されることを除き、上述の第1実施形態と同様の構成とすることができる。このため、以下の説明では、画像形成システムにおける、画像形成装置の音声操作に係るシステム制御構成に係わる構成のみを説明する。
[画像形成システムの構成]
上述の図1に示すように、画像形成システム1Aは、画像形成装置10と、画像形成装置10が音声入力を受け付ける第1の音声入力部の構成としての本体マイク150と、外部サーバー40とを備え、それぞれがLAN(Local Area Network)等のネットワーク20によって接続されている。
[サーバーの構成]
外部サーバー40は、パーソナルコンピューター等の、一般的なコンピューターで実現することができる。そのため、外部サーバー40のハードウェア構成は、一般的なコンピューターのハードウェア構成と同様とすることができる。このため、外部サーバー40のハードウェア構成の詳細な説明は省略する。
[画像形成システムのシステム制御構成]
画像形成システム1Aにおける、画像形成装置10の音声操作に係るシステム制御構成を図7に示す。なお、以下の図7に示す画像形成システム1Aの説明では、上述の図1に示す画像形成システム1と異なる構成を主に説明する。
画像形成システム1Aは、画像形成装置10に設けられた本体マイク150と、メインコントローラー100、通信部140とを備える。また、画像形成装置10の通信部140にネットワーク20(図1参照)を介して接続された携帯端末310と、外部サーバー40とを備える。
メインコントローラー100は、音声操作開始キーワード認識部301と、入力切り替え部303と、音声操作受付部306とを備える。
外部サーバー40は、使用入力判定部302と、入力切り替え部303と、ユーザー情報管理部304と、音声操作指示内容認識部305と、音声操作受付部306とを備える。
携帯端末310は、端末マイク311を備える。携帯端末310は、画像形成装置10の通信部140と、ネットワーク20を介して通信可能に接続されている。
音声操作開始キーワード認識部301は、第1の音声信号から音声操作開始を意味するキーワード(音声操作開始キーワード)を検出及び認識する。音声操作開始キーワード認識部301は、第1の音声信号からキーワードを認識した場合、通信部140を介して外部サーバー40の使用入力判定部302に音声操作開始キーワードが含まれた第1の音声信号を送信する。
外部サーバー40は、使用入力判定部302において、第1の音声信号から、ユーザーの声質に基づいて決定される特徴データを抽出する。そして、使用入力判定部302は、抽出した特徴データと、外部サーバー40のユーザー情報管理部304に保存されている各ユーザーの特徴データとの照合を行う。この照合によって、使用入力判定部302が本体マイク150に音声を発声しているユーザーを特定する。
使用入力判定部302は、特定されたユーザーに関するユーザー情報をユーザー情報管理部304から読み出し、ユーザー情報に紐付いた携帯端末310の接続情報から接続する端末310を特定する。そして、使用入力判定部302は、通信部140を介して、特定した携帯端末310との接続を有効にするようにメインコントローラー100の入力切り替え部303に指示する。
メインコントローラー100の入力切り替え部303は、本体マイク150から使用入力判定部302によって特定された携帯端末310に通信を切り替え、携帯端末310との通信を有効にする。これにより、使用入力判定部302は、携帯端末310に内蔵されている端末マイク311からの音声信号(第2の音声信号)の入力を有効にする。
入力切り替え部303が携帯端末310からの音声入力を有効にした後は、ユーザーからの音声入力は、端末マイク311から行われる。このため、本体マイク150へ音声操作開始キーワードを音声入力した後、ユーザーが携帯端末310に音声操作指示を発声すると、端末マイク311、及び、通信部140を通じて、第2の音声信号(音声データ)が外部サーバー40の音声操作指示内容認識部305に送信される。
音声操作指示内容認識部305は、携帯端末310から送信される第2の音声信号から、画像形成装置10に対する操作指示の音声を認識する。そして、認識した操作指示内容を、通信部140を通じてメインコントローラー100の音声操作受付部306に通知する。音声操作受付部306は、音声操作指示内容認識部305から通知された操作指示内容に従って所定の操作の実行を画像形成装置10に指示する。
上述のように、画像形成システム1,1Aは、第1実施形態における画像形成装置10のメインコントローラー100に設けられたシステム制御構成の一部が、画像形成装置10とネットワーク20を介して接続された外部サーバーに設けられていてもよい。
画像形成装置10は、少なくとも、本体マイク150、通信部140、入力切り替え部303、及び、音声操作受付部306を備えていればよい。このため、音声操作開始キーワード認識部301、使用入力判定部302、ユーザー情報管理部304、及び、音声操作指示内容認識部305は、画像形成装置10と外部サーバー40とのいずれかに設けられていればよい。これらの構成が外部サーバー40に設けられている場合にも、上述の第1実施形態と同様の効果を得ることができる。
なお、本発明は上述の実施形態例において説明した構成に限定されるものではなく、その他本発明構成を逸脱しない範囲において種々の変形、変更が可能である。
1 画像形成システム、10 画像形成装置、20 ネットワーク、30,105 CPU、31,101 ROM、32 RAM、34 スピーカー、35 タッチパネル、36 ネットワークコントローラー、40 外部サーバー、100 メインコントローラー、102 HDD、103 メモリ、104 ASIC、110 画像読取部、120 画像形成部、130 操作表示部、140 通信部、150 本体マイク、301 音声操作開始キーワード認識部、302 使用入力判定部、303 入力切り替え部、304 ユーザー情報管理部、305 音声操作指示内容認識部、306 音声操作受付部、310 携帯端末、311 端末マイク

Claims (8)

  1. 周辺の音を集音して第1の音声信号を生成する第1の音声入力部と、
    携帯端末の周辺の音を集音する第2の音声入力部で生成された第2の音声信号を、前記携帯端末から受信する通信部と、
    前記第1の音声入力部の第1の音声信号の入力に基づいて、音声操作指示の開始を意味する音声操作開始音声の認識を行う第1の音声認識部と、
    ユーザーに関するユーザー情報を管理する管理部と、
    前記第1の音声認識部の認識結果と、前記管理部に管理された前記ユーザー情報との比較結果に基づいて、前記第1の音声入力部と前記携帯端末の前記第2の音声入力部とから音声入力部を選択する選択部と、
    前記選択部で選択された前記第1の音声入力部又は前記第2の音声入力部からの音声入力を有効に切り替える入力切り替え部と、
    前記入力切り替え部が音声入力を有効にした前記第1の音声入力部から入力される前記第1の音声信号、又は、前記第2の音声入力部から入力される前記第2の音声信号に基づいて、音声操作指示の内容の認識を行う第2の音声認識部と、を備える
    画像形成装置。
  2. 前記管理部は、ユーザー情報、前記ユーザー情報に紐付く前記携帯端末の情報を管理し、
    前記選択部は、前記管理部によって管理されている前記携帯端末の情報に基づいて、
    前記通信部が通信する前記携帯端末を特定する
    請求項1に記載の画像形成装置。
  3. 前記管理部は、ユーザー毎の声質の特徴に基づく特徴データを、前記ユーザー情報として管理し、
    前記選択部は、前記第1の音声入力部から入力された前記第1の音声信号の認識結果と、前記特徴データとを使用して、前記画像形成装置を使用するユーザーを特定し、前記ユーザー情報と紐付けられた前記携帯端末を特定する
    請求項2に記載の画像形成装置。
  4. 前記選択部が通信する前記携帯端末の特定ができなかった場合、前記第2の音声認識部は、前記第1の音声入力部から入力された前記第1の音声信号の入力に基づいて認識処理を行う
    請求項2又は3に記載の画像形成装置。
  5. 前記管理部は前記ユーザー情報として、ユーザーが音声操作を行う際に使用する音声入力部の設定情報を管理し、
    前記入力切り替え部は、前記管理部によって管理されている前記設定情報が、音声操作に前記第1の音声入力部を使用する設定を含む場合、前記第1の音声入力部による音声操作を有効にする
    請求項2から4のいずれかに記載の画像形成装置。
  6. 画像形成装置と、前記画像形成装置と通信可能な外部サーバーとを備える画像形成システムであって、
    当該画像形成システムは、
    周辺の音を集音して第1の音声信号を生成する第1の音声入力部と、
    携帯端末の周辺の音を集音する第2の音声入力部で生成された第2の音声信号を、前記携帯端末から受信する通信部と、
    前記第1の音声入力部の第1の音声信号の入力に基づいて、音声操作指示の開始を意味する音声操作開始音声の認識を行う第1の音声認識部と、
    前記画像形成装置を使用するユーザーに関するユーザー情報を管理する管理部と、
    前記第1の音声認識部の認識結果と、前記管理部に管理された前記ユーザー情報との比較結果に基づいて、前記第1の音声入力部と前記携帯端末の前記第2の音声入力部とから音声入力部を選択する選択部と、
    記選択部で選択された前記第1の音声入力部又は前記第2の音声入力部からの音声入力を有効に切り替える入力切り替え部と、
    前記入力切り替え部が音声入力を有効にした前記第1の音声入力部から入力される前記第1の音声信号、又は、前記第2の音声入力部から入力される前記第2の音声信号に基づいて、音声操作指示の内容の認識を行う第2の音声認識部と、を備え、
    前記第1の音声入力部と、前記通信部と、前記入力切り替え部とが前記画像形成装置に配置され、
    前記第1の音声認識部と、前記選択部と、前記第2の音声認識部とのそれぞれが、前記画像形成装置と前記外部サーバーとの少なくともいずれかに配置される
    画像形成システム。
  7. 当該画像形成システムは、前記画像形成装置と前記外部サーバーとの少なくともいずれか一方に、前記ユーザー情報と、前記ユーザー情報に紐付く前記携帯端末の情報を管理する前記管理部を備え、
    前記選択部は、前記管理部によって管理されている前記ユーザー情報と前記携帯端末の情報とに基づいて、前記通信部が通信する前記携帯端末を特定する
    請求項6に記載の画像形成システム。
  8. 音声認識を行う画像形成装置の制御方法であって、
    第1の音声入力部において、周辺の音を集音して第1の音声信号を生成し、
    通信部において、携帯端末の第2の音声入力部で集音された前記携帯端末の周辺の音に基づく第2の音声信号を、前記携帯端末から受信し、
    第1の音声認識部において、前記第1の音声入力部からの入力される第1の音声信号に基づいて、音声操作指示の開始を意味する音声操作開始音声の認識を行い、
    選択部において、前記第1の音声認識部の認識結果と、管理部で管理された前記画像形成装置を使用するユーザーに関するユーザー情報との比較結果に基づいて、前記第1の音声入力部と前記携帯端末の前記第2の音声入力部とから音声入力部を選択し、
    入力切り替え部において、前記選択部で選択された前記第1の音声入力部又は前記第2の音声入力部からの音声入力を有効にし、
    第2の音声認識部において、前記入力切り替え部が音声入力を有効にした前記第1の音声入力部から入力される前記第1の音声信号、又は、前記第2の音声入力部から入力される前記第2の音声信号に基づいて、当該画像形成装置に対する音声操作指示の内容の認識を行う
    画像形成装置の制御方法。
JP2019013294A 2019-01-29 2019-01-29 画像形成装置、画像形成システム、及び、画像形成装置の制御方法 Active JP7346827B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019013294A JP7346827B2 (ja) 2019-01-29 2019-01-29 画像形成装置、画像形成システム、及び、画像形成装置の制御方法
US16/745,731 US20200244824A1 (en) 2019-01-29 2020-01-17 Image forming apparatus, image forming system, and controlling method of the image forming apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019013294A JP7346827B2 (ja) 2019-01-29 2019-01-29 画像形成装置、画像形成システム、及び、画像形成装置の制御方法

Publications (2)

Publication Number Publication Date
JP2020122834A JP2020122834A (ja) 2020-08-13
JP7346827B2 true JP7346827B2 (ja) 2023-09-20

Family

ID=71733048

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019013294A Active JP7346827B2 (ja) 2019-01-29 2019-01-29 画像形成装置、画像形成システム、及び、画像形成装置の制御方法

Country Status (2)

Country Link
US (1) US20200244824A1 (ja)
JP (1) JP7346827B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010070781A1 (ja) 2008-12-16 2010-06-24 三菱電機株式会社 ナビゲーション装置
JP2014186184A (ja) 2013-03-25 2014-10-02 Panasonic Corp 音声入力選択装置及び音声入力選択方法
JP2014203024A (ja) 2013-04-09 2014-10-27 コニカミノルタ株式会社 制御装置、画像形成装置、端末装置、制御方法、および制御プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010070781A1 (ja) 2008-12-16 2010-06-24 三菱電機株式会社 ナビゲーション装置
JP2014186184A (ja) 2013-03-25 2014-10-02 Panasonic Corp 音声入力選択装置及び音声入力選択方法
JP2014203024A (ja) 2013-04-09 2014-10-27 コニカミノルタ株式会社 制御装置、画像形成装置、端末装置、制御方法、および制御プログラム

Also Published As

Publication number Publication date
US20200244824A1 (en) 2020-07-30
JP2020122834A (ja) 2020-08-13

Similar Documents

Publication Publication Date Title
JP5355591B2 (ja) ナビゲーション装置
JP4559909B2 (ja) 携帯通信機器
WO2019078588A1 (ko) 전자 장치 및 그의 동작 방법
JP6418820B2 (ja) 情報処理装置、表示制御方法、及びコンピュータプログラム
US8559603B2 (en) Communication method and apparatus for phone having voice recognition function
WO2017168936A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP6171511B2 (ja) 制御装置、画像形成装置、携帯端末装置、制御方法、および制御プログラム
JP2011022600A (ja) 音声認識システムの動作方法
KR102594838B1 (ko) 사용자 발화에 응답하여 통화를 포함하는 태스크를 수행하는 전자 장치 및 그 동작 방법
JP2000029585A (ja) 音声コマンド認識画像処理装置
JP7346827B2 (ja) 画像形成装置、画像形成システム、及び、画像形成装置の制御方法
JP6832503B2 (ja) 情報提示方法、情報提示プログラム及び情報提示システム
JP3838159B2 (ja) 音声認識対話装置およびプログラム
KR102617265B1 (ko) 사용자 음성 입력을 처리하는 장치
JP6462291B2 (ja) 通訳サービスシステム及び通訳サービス方法
JP2020107130A (ja) 情報処理システム、情報処理装置、制御方法、プログラム
KR20080013541A (ko) 휴대용 단말기의 음성 제어 장치 및 방법
KR20090027817A (ko) 배경음 출력 방법 및 이를 이용하는 이동통신 단말기
JP2021082857A (ja) 入力制御装置、画像形成装置及び入力制御方法
JP7196662B2 (ja) 情報処理装置及びプログラム
JP2009100349A (ja) 通信装置
JP3592415B2 (ja) 話者認識システム
JP7383885B2 (ja) 情報処理装置及びプログラム
JP7079650B2 (ja) カラオケシステム
JP2023143406A (ja) 無線通信装置、基地局装置、無線通信システム、および無線通信方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211117

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220916

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221011

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230307

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230501

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230821

R150 Certificate of patent or registration of utility model

Ref document number: 7346827

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150