JP7192348B2 - 制御装置、制御システム及びプログラム - Google Patents

制御装置、制御システム及びプログラム Download PDF

Info

Publication number
JP7192348B2
JP7192348B2 JP2018178334A JP2018178334A JP7192348B2 JP 7192348 B2 JP7192348 B2 JP 7192348B2 JP 2018178334 A JP2018178334 A JP 2018178334A JP 2018178334 A JP2018178334 A JP 2018178334A JP 7192348 B2 JP7192348 B2 JP 7192348B2
Authority
JP
Japan
Prior art keywords
voice
target device
volume
information
operation instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018178334A
Other languages
English (en)
Other versions
JP2020052485A (ja
Inventor
弘一 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2018178334A priority Critical patent/JP7192348B2/ja
Priority to CN201910167191.3A priority patent/CN110941414B/zh
Priority to US16/569,847 priority patent/US11373648B2/en
Publication of JP2020052485A publication Critical patent/JP2020052485A/ja
Application granted granted Critical
Publication of JP7192348B2 publication Critical patent/JP7192348B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Selective Calling Equipment (AREA)
  • Telephonic Communication Services (AREA)
  • Facsimiles In General (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、制御装置、制御システム及びプログラムに関する。
特許文献1は、制御対象となる機器と、空間内の複数箇所に配置され、使用者の音声を検出するマイクロホンと、各マイクロホンが検出した音声データを集める集音手段と、集音手段に入力された音声データの内容を解析する音声認識手段と、集音手段に入力された音声データの大きさから、使用者の発声方向を検出する分布分析手段と、音声認識手段によって解析された音声データの内容と、分布分析手段によって解析された使用者の発声方向に基づいて、制御対象となる機器と操作内容を決定する推論手段と、推論手段により決定された機器と操作内容に基づいて、制御対象となる機器に制御信号を発する機器制御手段と、を具えた音声制御システムを開示する。
特許文献2は、操作対象の複数機器と、前記複数機器の中の一つの機器に対応付けられたリモコンと、前記複数機器を音声操作する統合制御機器を備え、前記リモコンは、ユーザの音声を入力する収音部と、ユーザのリモコン操作情報を生成する操作情報生成部を備え、前記統合制御機器は、前記音声から機器名と操作名を認識結果として出力する音声認識部と、前記機器名と前記リモコン操作情報に基づいて、操作対象機器を特定する機器特定部と、前記操作名から前記特定された機器に対する操作内容を特定する操作特定部を備え、前記機器特定部は、前記認識結果において、前記機器名が抽出されなかった場合、前記リモコン操作情報を用いて操作対象機器を特定するようにした音声操作システムを開示する。
特開2002-91491号公報 特開2015-201739号公報
ところで、ユーザが音声により機器を制御しようとする場合、制御の対象となり得る対象機器が複数あると、該複数の対象機器からユーザが使用すべき対象機器を特定する必要がある。
本発明は、ユーザが音声により対象機器を指定しない場合であっても対象機器を特定して制御することができる制御装置、制御システム及びプログラムを提供することを目的としている。
請求項1に係る本発明は、音声による又は音声から生成された操作指示を受け付ける第1の受付手段と、対象機器に対応して設けられた音声入力部に入力された前記音声の音量に関する情報を受け付ける第2の受付手段と、前記第2の受付手段により受け付けた音量に関する情報により対象機器を特定する対象機器特定手段と、前記対象機器特定手段により特定された対象機器に前記第1の受付手段により受け付けた操作指示に基づく操作命令を送信する送信手段と、を有する制御装置である。
である。
請求項2に係る本発明は、前記対象機器特定手段は、前記音声入力部に入力された音声の音量が最も大きい対象機器を特定する請求項1記載の制御装置である。
請求項3に係る本発明は、前記対象機器特定手段は、前記第2の受付手段により、予め定められた時間内に複数の対象機器の音声入力部から音声の音量に関する情報を受け付けた場合に、前記対象機器特定手段は前記音声入力部に入力された音声の音量が最も大きい対象機器を特定する請求項2記載の制御装置である。
請求項4に係る本発明は、前記第1の受付手段により受け付けられる操作指示に特定の語句が含まれる場合に、前記対象機器特定手段は前記音声入力部に入力された音声の音量が最も大きい対象機器を特定する請求項2記載の制御装置である。
なお、ここで、特定の語句とは、対象機器を一意的に特定する語句を除いて対象機器が任意であることを示す語句であり、例えば「どれでも」「適当」等が挙げられる。
請求項5に係る本発明は、前記第1の受付手段により受け付けられる操作指示に対象機器の指定が含まれない場合に、前記対象機器特定手段は、前記音声入力部に入力された音声の音量が最も大きい対象機器を特定する請求項2記載の制御装置である。
請求項6に係る本発明は、前記第1の受付手段により受け付けられる操作指示には距離に関する特定の語句が含まれ、前記対象機器特定手段は、前記距離に関する特定の語句と、前記第2の受付手段により受け付けた音量に関する情報とにより対象機器を特定する請求項1記載の制御装置である。
なお、ここで、距離に関する特定の語句とは、ユーザからの距離を示す概念的な語句である。ユーザから近い場合は、「この」「こちら」「これ」「近くの」等であり、これよりも遠い場合は、「その」「そちら」「それ」等である。さらに遠い場合は、「あの」「あちら」「あれ」「遠くの」等である。
請求項7に係る本発明は、前記特定の語句が近称の場合は、前記第2の受付手段により受け付けた音声の音量が他のものより大きい対象機器を特定する請求項6記載の制御装置である。
なお、ここで、近称とは、ユーザからの距離が近い物や場所を示す指示語であり、例えば「これ」「こちら」「これ」等である。
請求項8に係る本発明は、前記特定の語句が遠称の場合は、前記第2の受付手段により受け付けた音声の音量が他のものより小さい対象機器を特定する請求項6または7記載の制御装置ある。
なお、ここで、遠称とは、ユーザからの遠い物や場所を示す指示語であり、例えば「あれ」「あちら」「あの」等である。
請求項9に係る本発明は、前記第2の受付手段により受け付けた全ての対象機器に対応した音声の音量が予め定められた値よりも小さい場合は、前記対象機器特定手段はいずれの対象機器も特定しない請求項1記載の制御装置である。
請求項10に係る本発明は、前記対象機器特定手段は、前記第1の受付手段が音声を受け付けた時刻から予め定められた時間内に前記音声入力部に入力された音声の音量に関する情報を取得した場合に対象機器を特定する請求項1から9のいずれか1項の記載の制御装置である。
請求項11に係る本発明は、前記第1の受付手段が音声を受け付けた時刻から予め定められた時間内に前記音声入力部に入力された音声に関する情報を取得できない場合は、前記対象機器特定手段はいずれの対象機器も特定しない請求項1から10いずれか記載の制御装置である。
請求項12に係る本発明は、音声を受け付ける音声受付装置と、前記音声受付装置により受け付けられた音声に関する情報により対象機器を制御する制御装置と、を有し、制御装置は、前記音声受付装置からの音声による又は音声から生成された操作指示を受け付ける第1の受付手段と、前記対象機器に対応して設けられた音声入力部に入力された前記音声の音量に関する情報を受け付ける第2の受付手段と、前記第2の受付手段により受け付けた音量に関する情報により対象機器を特定する対象機器特定手段と、前記対象機器特定手段により特定された対象機器に前記第1の受付手段により受け付けた操作指示に基づく操作命令を送信する送信手段と、を有する制御システムである。
請求項13に係る本発明は、前記音声受付装置は音声を出力する音声出力部をさらに有し、前記音声出力部は前記操作命令の送信先の対象機器を識別する識別情報を音声として出力する請求項12に記載の制御システムである。
請求項14に係る本発明は、音声による又は音声から生成された操作指示を受け付けるステップと、対象機器に対応して設けられた音声入力部に入力された前記音声の音量に関する情報を受け付けるステップと、受け付けた音量に関する情報により対象機器を特定するステップと、特定された対象機器に、受け付けた操作指示に基づく操作命令を送信するステップと、を有するコンピュータに実行させるためのプログラムである。
請求項112、14いずれかに係る本発明によれば、ユーザが音声により対象機器を指定しない場合であっても対象機器を特定して制御することができる。
請求項2に係る本発明によれば、請求項1に係る本発明の効果に加えて、受け付けた音声の音量が最も大きい対象機器を特定することができる。
請求項3に係る本発明によれば、請求項2に係る本発明の効果に加えて、予め定められた時間内に受け付けた場合に対象機器を特定することができる。
請求項4に係る本発明によれば、請求項2に係る本発明の効果に加えて、ユーザにより特定の語句が発話された場合に対象機器を特定することができる。
請求項5に係る本発明によれば、請求項2に係る本発明の効果に加えて、ユーザによる対象機器の指定が無い場合に対象機器を特定することができる。
請求項6に係る本発明によれば、請求項1に係る本発明の効果に加えて、ユーザが発話する距離に関する特定の語句と音声の音量とにより対象機器を特定することができる。
請求項7に係る本発明によれば、請求項6に係る本発明の効果に加えて、ユーザが近称を発話した場合は、受け付けた音声の音量が最も大きい対象機器を特定することができる。
請求項8に係る本発明によれば、請求項6又は7に係る本発明の効果に加えて、ユーザが遠称を発話した場合は、音量が最も小さい対象機器を特定することができる。
請求項9に係る本発明によれば、請求項1に係る本発明の効果に加えて、入力されたあらゆる音量の音声により対象機器を特定する場合と比較して、対象機器の特定精度を向上させることができる。
請求項10に係る本発明によれば、請求項1から9に係る本発明の効果に加えて、第1の受付手段により受け付ける操作指示と第2の受付手段により受け付けた音声の音量とを時間により紐付けることができる。
請求項11に係る本発明によれば、請求項1から9に係る本発明の効果に加えて、第1の受付手段により受け付ける操作指示と第2の受付手段により受け付けた音声の音量とに時間的ずれがある場合、紐付けるのを禁止することができる。
請求項13に係る本発明によれば、請求項12に係る本発明の効果に加えて、ユーザが次回同じ対象機器を指定しようとする際に、当該対象機器の識別情報を用いて指定させることができる。
本発明の実施形態に係る制御システム全体を示す概略図である。 本発明の実施形態に係る制御装置のハードウエアを示すブロック図である。 本発明の実施形態に用いた画像形成装置の制御部のハードウエアを示すブロック図である。 本発明の実施形態に係る制御システムの機能を示すブロック図である。 本発明の実施形態に用いた画像形成装置において、操作対象機器を自動判定するための動作フローを示すフローチャートである。 本発明の実施形態に係る制御装置の動作フローを示すフローチャートである。
次に、本発明の実施の形態について図面を参照して詳細に説明する。
図1は、本発明の実施形態に係る制御システム10の全体を示す。
制御システム10は、ユーザが発話する音声を受け付ける音声受付装置12を有する。この音声受付装置12は、例えばスマートスピーカであり、インターネットを介して外部サーバ14に接続されている。
なお、スマートスピーカとは、AI(人口知能)アシスタント機能を持つスピーカである。
外部サーバ14は、受け付けた音声をAIによって認識する。また、この外部サーバ14には、自社で開発可能なAPI(アプリケーションプログラミングインタフェースのこと。ソフトウェアコンポーネントが互いにやりとりするのに使用するインターフェイスの仕様である。)が搭載されている。外部サーバ14は、このAPIを介して音声受付装置12から受け付けた音声から機器を操作する操作指示を生成する。例えばユーザが「コピーを実行して」と発話した場合、外部サーバ14は、コピー実行関数を呼び出すように操作指示を後述する制御サーバ16に送信する。
例えば3台の画像形成装置18a,18b,18cは、プリント機能、ファクシミリ機能、コピー機能、スキャン機能等を有する、いわゆる複合機である。画像形成装置18aがユーザから最も近くに配置され、画像形成装置18cがユーザから最も遠くに配置され、画像形成装置18bが画像形成装置18aと画像形成装置18cとの間に配置されている。これら画像形成装置18a,18b,18cに対応して音声入力部(マイクロホン)20a,20b,20cが設けられている。ユーザが音声を発すると、音声入力部20a,20b,20cではユーザに近い程に音声の音量が大きくなる。例えば音声入力部20aに受け付けられる音声の音量が65デシベル、音声入力部20bに受け付けられる音声の音量が40デシベル、音声入力部20cに受け付けられる音声の音量が30デシベルとなる。
なお、音声入力部20a,20b,20cでは音声の音量を絶対値として検知する必要はなく、それぞれの音量の相対値が検知できるようにしてもよい。。
画像形成装置18a,18b,18cは、ネットワーク22を介して制御サーバ16に接続されている。ネットワーク22は、ローカルネットワークでもよいし、インターネットであってもよい。
画像形成装置18a,18b,18cは、音声入力部20a,20b,20cからユーザが発話する音声を受け付けると、受け付けた音声の音量、現在の時刻及びID(識別情報の一例であり、画像形成装置を一意的に特定するデータ、例えばMACアドレスや名称)を制御サーバ16へ送信する。以下、受け付けた音声の音量、現在の時刻及びIDをまとめて「発話情報」と呼ぶことがある。
なお、この実施形態においては、画像形成装置18a,18b,18cを介して音声入力部20a,20b,20cから音声の音量を制御サーバ16へ送信するようにしているが、音声入力部20a,20b,20cから音声の音量を直接制御サーバ16へ送るようにしてもよい。音声入力部20a,20b,20cは画像形成装置18a,18b,18cに対応して配置されていればよく、画像形成装置から離れて設けられていてもよい。また、音声の音量を抽出することなく、直接音声を制御サーバ16へ送るようにして制御サーバ16側で音量を抽出するようにしてもよい。
制御サーバ16は、ここでは対象機器である画像形成装置18a,18b,18cを制御するための制御装置として構成されている。この制御サーバ16には発話情報を管理する発話情報データベース24が接続されている。この実施形態においては、制御サーバ16は外部サーバ14から呼び出された時刻と、画像形成装置18a,18b,18cからの発話情報を受け付けた時刻とを比較し、同時刻における音声の音量が最も大きい、即ち、ユーザから最も近い画像形成装置18aに対して操作命令を送信する。ここで操作命令は、制御サーバ16から画像形成装置18aに操作指示に基づく操作を実行させるための命令(コマンド)である。
制御サーバ16は、図2に示すように、CPU26、メモリ28、記憶装置30及びネットワークインターフェイス32を有し、これらCPU26、メモリ28、記憶装置30及びネットワークインターフェイス32がバス33を介して接続されている。
CPU26は、メモリ28に格納された制御プログラムに基づいて予め定められた処理を実行する。記憶装置30は、例えばハードディスクから構成され、必要とされるソフトウエアやデータが記憶されている。ネットワークインターフェイス32は、前述したネットワーク22を介してデータを入出力する。
前述した画像形成装置18a,18b,18cは、図3に示すように、制御サーバ16と同様に、コンピュータ構成の制御部本体34を有する。
即ち、制御部本体34は、CPU36、メモリ38、記憶装置40、ネットワークインターフェイス42、音声入力部インターフェイス44及び機器制御部46を有し、これらCPU36、メモリ38、記憶装置40、ネットワークインターフェイス42、音声入力部インターフェイス44及び機器制御部46がバス47を介して接続されている。
CPU36は、メモリ38に格納された制御プログラムに基づいて予め定められた処理を実行する。記憶装置40は、例えばハードディスクから構成され、必要とされるソフトウエアやデータが記憶されている。ネットワークインターフェイス42は、前述したネットワーク22を介してデータを入出力する。音声入力部インターフェイス44は、前述した音声入力部20a,30b,20cとの間で音声の入出力を行う。機器制御部46は、画像形成装置18a,18b,18c内の各機器を制御してプリント、ファクシミリ送受信、コピー、スキャン等を実行する。
図4は、制御システム10の機能を示すブロック図である。
なお、図4においては、前述した外部サーバ14は省略されている。
音声受付装置12は、音声入力部48、操作指示送信部50、回答音声受信部52及び音声出力部54を有する。音声入力部48は、ユーザの発話音声を入力する。操作指示送信部50は、音声入力があった場合に操作指示を制御サーバ16へ送信する。回答音声受信部52は、操作指示に対応する回答音声情報を受信する。音声出力部54は、回答音声受信部52で受信した回答音声をユーザに対し出力する。
画像形成装置18a,18b,18cは、前述した音声入力部20a,20b,20cの他に、時刻取得部56、発話情報送信部58、操作情報受信部60及び操作実行部62を有する。時刻取得部56は、現在時刻を取得する。発話情報送信部58は、音声入力部20a,20b,20cから入力された音声の音量と、音声入力があった時刻及び画像形成装置18a,18b,18cのIDを制御サーバ16へ送信する。操作命令受信部60は、制御サーバ16から操作命令を受信する。操作命令の受信は、画像形成装置18a,18b,18cから定期的に制御サーバ16に操作命令が存在するかを確認し、制御サーバ16に操作命令があれば制御サーバ16から操作命令が送信される。
制御サーバ16は、前述した発話情報データベース24の他に、操作指示受信部64、時刻取得部66、発話情報検索部68、回答音声情報送信部70、発話情報受信部72及び操作命令送信部74を有する。操作指示受信部64は、音声受付装置12からの操作指示を受信する。時刻取得部66は、現在の時刻を取得する。
発話情報検索部68は、発話情報データベース24を検索して、時刻取得部66から取得した時刻と比較し、音声受付装置12に向けてユーザが発話した時刻と同時刻の発話情報(時刻、音量、ID)を検索する。なお、ここで、同時刻とは、予め定められた範囲内の時間をいう。この発話情報検索部68は、検索された発話情報の中で音量が最大のものを検索結果として返す。
回答音声情報送信部70は、操作指示に対応する回答を音声受付装置12に送信する。発話情報取得部72は、画像形成装置18a,18b,18cから送信された発話情報(時刻、音量、ID)を受信する。操作命令送信部74は、画像形成装置18a,18b,18cで実行させるための操作命令を画像形成装置18a,18b,18cに送信する。
次に画像形成装置18a,18b,18cにおいて、対象機器を自動判定するための動作フローについて説明する。
図5に示すように、画像形成装置18a,18b,18cは、まずステップS10において、常時音声を録音する状態にする。次のステップS12においては、音声入力があるか否かを判定する。このステップS12において、音声入力が無いと判定された場合はステップS10に戻り、音声入力があるまで待機する。ステップS12において、音声入力があったと判定された場合は、ステップS14に進み、現在時刻を取得する。次のステップS16においては、ステップS10で録音した音声から音量に関する情報を取得する。音量に関する情報とは、音量そのものであってもよいし、相対的な値であってもよい。このステップS16において、音量に関する情報を取得すると、次のステップS18に進み、発話情報(時刻、音量、ID)を制御サーバ16へ送信し、さらにステップS10に戻って上記動作を繰り返す。この発話情報は、制御サーバ16の発話情報データベース24に記憶される。
次に制御サーバ16の動作フローについて説明する。
図6に示すように、制御サーバ16は、まずステップS20において、音声受付装置12からの操作指示を受信できる状態にする。次のステップS22においては、音声受付装置12からの操作指示があるか否かを判定する。操作指示が無いと判定された場合はステップS20に戻り、操作指示があるまで待機する。ステップS22において、操作指示があったと判定された場合はステップS24に進む。
ステップS24においては、現在時刻を取得する。次のステップS26においては、記憶されていた前回までの対象機器候補リストをクリアする。次のステップS28においては、発話情報データベース24に次の発話情報があるか否かを判定する。
このステップS28において、発話情報データベース24に次の発話情報があると判定された場合は、ステップS30に進む。このステップS30においては、発話情報データベース24より発話情報1件を取得する。次のステップS32においては、ステップS30で取得した発話情報の時刻とステップS24で取得した現在時刻(音声受付装置12からの操作指示を受信した時刻)とを比較する。このステップS32において、発話情報の時刻と現在時刻とが同一であると判定された場合はステップS34に進み、発話情報の音量とIDを対象機器候補リストに追加する。ここで、発話情報の時刻と現在時刻とが同一とは、発話情報の時刻と現在時刻とが予め定められた時間内にあることを意味する。ステップS32において、発話情報の時刻と現在時刻とが同一ではないと判定された場合、及びステップS34の処理が終了した場合は、ステップS28に戻り、発話情報データベース24に次の発話情報があるか否かを判定する。
一方、ステップS28において、発話情報データベース24に次の発話情報が無いと判定された場合は、ステップS36に進み、対象機器候補リストの項目数は1以上であるか否かを判定する。このステップS36において、対象機器候補リストの項目数が1以上ではない(対象機器候補リストに対象機器候補が無い)と判定された場合は、ステップS38に進み、画像形成装置を特定できなかった旨を音声受付装置12に送信する。音声受付装置12は、これを受けて画像形成装置を特定できなかった旨を音声出力部54より音声で出力する。
なお、画像形成装置18a,18b,18cの音声入力部20a,20b,20cからの発話情報が得られなかった場合にステップS36で対象機器候補が無いと判定されるが、音声入力部20a,20b,20cからの発話情報が得られたとしても音量が予め定められた値よりも小さい場合にも対象機器候補が無いと判定されるようにしてもよい。
ステップS36において、対象機器候補リストの項目数が1以上であると判定された場合は、ステップS40へ進む。このステップS40においては、対象機器候補リストの中で音量が最大の発話情報を抽出する。次のステップS42において、ステップS40で抽出した最大の発話情報を有する画像形成装置へ操作命令を送信し、さらにステップS44に進み、操作を実行した旨を応答するように音声受付装置12に送信する。音声受付装置12はこれを受けて、音声出力部54よりユーザから最も近い画像形成装置に操作命令が送信された旨を音声で出力する。ステップ38又はステップS44の処理が終了すると、ステップS20へ戻り、操作指示待ちとなる。
ステップS40においては、音量が最大の発話情報を送信した画像形成装置へ操作命令を送信するようにしたが、ユーザが発話する音声に画像形成装置を一意的に特定する語句、例えば画像形成装置に付された名称等が含まれる場合は、名称に対応する画像形成装置へ操作命令を送信してもよい。
また、画像形成装置を一意に特定する語句ではなく、距離に関する特定の語句、例えば「この」「こちら」「これ」等の近称があれば、受け付けた音声の音量が最大の画像形成装置へ操作命令を送信し、「あの」「あちら」「あれ」等の遠称があれば、音量が最小の画像形成装置へ操作命令を送信し、「その」「そちら」「それ」等の中称があれば、音量が中間の画像形成装置へ操作命令を送信する。
なお、中称とは、ユーザからの距離が近称と遠称との間の距離の物や場所を示す指示語である。
また、距離に関する特定の語句が発話された場合に、予め定めた範囲の音量の音声を受け付けた画像形成装置へ操作命令を送信するようにしてもよい。例えば、ユーザが発話する音声に近称が含まれていれば60デシベル以上、中称が含まれていれば40デシベル以上60デシベル未満、遠称が含まれていれば40デシベル未満の音量の音声を受け付けた画像形成装置へ操作命令を送信するようにしてもよい。
また、ユーザが発話する音声に任意であることを示す特定の語句、例えば「どれでも」「適当」といった語句が含まれる場合に、音量が最大の発話情報を送信した画像形成装置へ操作命令を送信するようにしてもよい。この場合に、ユーザが発話する音声に特定の語句が含まれなければ、対象機器を特定しないようにしてもよい。
また、ステップS44においては、単に画像形成装置に操作命令を送信した旨を音声受付装置12に音声で出力させるようにしているが、さらに操作命令を送信した画像形成装置の名称やIDを音声で出力させるようにしてもよい。
なお、上記実施形態においては、外部サーバを介して制御サーバに操作指示を送信するようにしているが、音声受付装置から直接制御サーバに操作指示を送信するようにしてもよい。
また、上記実施形態においては、対象機器を画像形成装置としたが、これに限らず、対象機器には電気製品や自動車等が含まれる。
10 制御システム
12 音声受付装置
14 外部サーバ
16 制御サーバ
18a,18b,18c 画像形成装置
20a,20b,20c 音声入力部
22 ネットワーク
24 発話情報データベース
26 CPU
28 メモリ
30 記憶装置
32 ネットワークインターフェイス
33 バス
34 制御部
36 CPU
38 メモリ
40 記憶装置
42 ネットワークインターフェイス
44 音声入力部インターフェイス
46 機器制御部
48 音声入力部
50 操作指示送信部
52 回答音声受信部
54 音声出力部
56 時刻取得部
58 発話情報送信部
60 操作命令受信部
62 操作実行部
64 操作指示受信部
66 時刻取得部
68 発話情報検索部
70 回答音声情報送信部
72 発話情報受信部
74 操作命令送信部

Claims (13)

  1. 音声による又は音声から生成された操作指示を受け付ける第1の受付手段と、
    対象機器に対応して設けられた音声入力部に入力された前記音声の音量に関する情報を受け付ける第2の受付手段と、
    前記第2の受付手段により受け付けた音量に関する情報により対象機器を特定する対象機器特定手段と、
    前記対象機器特定手段により特定された対象機器に前記第1の受付手段により受け付けた操作指示に基づく操作命令を送信する送信手段と、
    を有し、
    前記第1の受付手段により受け付けられる操作指示には距離に関する特定の語句が含まれ、前記対象機器特定手段は、前記距離に関する特定の語句と、前記第2の受付手段により受け付けた音量に関する情報とにより対象機器を特定する制御装置。
  2. 前記対象機器特定手段は、前記音声入力部に入力された音声の音量が最も大きい対象機器を特定する請求項1記載の制御装置。
  3. 前記対象機器特定手段は、前記第2の受付手段により、予め定められた時間内に複数の対象機器の音声入力部から音声の音量に関する情報を受け付けた場合に、前記対象機器特定手段は前記音声入力部に入力された音声の音量が最も大きい対象機器を特定する請求項2記載の制御装置。
  4. 前記第1の受付手段により受け付けられる操作指示に特定の語句が含まれる場合に、前記対象機器特定手段は前記音声入力部に入力された音声の音量が最も大きい対象機器を特定する請求項2記載の制御装置。
  5. 前記第1の受付手段により受け付けられる操作指示に対象機器の指定が含まれない場合に、前記対象機器特定手段は、前記音声入力部に入力された音声の音量が最も大きい対象機器を特定する請求項2記載の制御装置。
  6. 前記対象機器特定手段は、前記第2の受付手段により複数の対象機器の音声入力部から音声の音量に関する情報を受け付けた場合に、前記距離に関する特定の語句が近称の場合は、前記第2の受付手段により受け付けた音声の音量が他のものより大きい対象機器を特定する請求項1記載の制御装置。
  7. 前記対象機器特定手段は、前記第2の受付手段により複数の対象機器の音声入力部から音声の音量に関する情報を受け付けた場合に、前記距離に関する特定の語句が遠称の場合は、前記第2の受付手段により受け付けた音声の音量が他のものより小さい対象機器を特定する請求項1または6記載の制御装置。
  8. 前記第2の受付手段により受け付けた全ての対象機器に対応した音声の音量が予め定められた値よりも小さい場合は、前記対象機器特定手段はいずれの対象機器も特定しない請求項1から7のいずれか1項に記載の制御装置。
  9. 前記対象機器特定手段は、前記第1の受付手段が操作指示を受け付けた時刻から予め定められた時間内に前記音声入力部に入力された音声の音量に関する情報を取得した場合に対象機器を特定する請求項1から8のいずれか1項に記載の制御装置。
  10. 前記第1の受付手段が操作指示を受け付けた時刻から予め定められた時間内に前記音声入力部に入力された音声の音量に関する情報を取得できない場合は、前記対象機器特定手段はいずれの対象機器も特定しない請求項1から9いずれか1項に記載の制御装置。
  11. 音声を受け付ける音声受付装置と、
    前記音声受付装置により受け付けられた音声の音量に関する情報により対象機器を制御する制御装置と、
    を有し、
    制御装置は、
    前記音声受付装置からの音声による又は音声から生成された操作指示を受け付ける第1の受付手段と、
    前記対象機器に対応して設けられた音声入力部に入力された前記音声の音量に関する情報を受け付ける第2の受付手段と、
    前記第2の受付手段により受け付けた音量に関する情報により対象機器を特定する対象機器特定手段と、
    前記対象機器特定手段により特定された対象機器に前記第1の受付手段により受け付けた操作指示に基づく操作命令を送信する送信手段と、
    を有し、
    前記第1の受付手段により受け付けられる操作指示には距離に関する特定の語句が含まれ、前記対象機器特定手段は、前記距離に関する特定の語句と、前記第2の受付手段により受け付けた音量に関する情報とにより対象機器を特定する制御システム。
  12. 前記音声受付装置は音声を出力する音声出力部をさらに有し、前記音声出力部は前記操作命令の送信先の対象機器を識別する識別情報を音声として出力する請求項11に記載の制御システム。
  13. 音声による又は音声から生成された操作指示を受け付けるステップと、
    対象機器に対応して設けられた音声入力部に入力された前記音声の音量に関する情報を受け付けるステップと、
    受け付けた音量に関する情報により対象機器を特定するステップと、
    特定された対象機器に、受け付けた操作指示に基づく操作命令を送信するステップと、
    をコンピュータに実行させるためのプログラムであって、
    受け付けられる操作指示には距離に関する特定の語句が含まれ、前記距離に関する特定の語句と、受け付けた音量に関する情報とにより対象機器を特定するプログラム。
JP2018178334A 2018-09-25 2018-09-25 制御装置、制御システム及びプログラム Active JP7192348B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018178334A JP7192348B2 (ja) 2018-09-25 2018-09-25 制御装置、制御システム及びプログラム
CN201910167191.3A CN110941414B (zh) 2018-09-25 2019-03-06 控制装置、控制方法、控制系统及计算机可读记录介质
US16/569,847 US11373648B2 (en) 2018-09-25 2019-09-13 Control device, control system, and non-transitory computer readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018178334A JP7192348B2 (ja) 2018-09-25 2018-09-25 制御装置、制御システム及びプログラム

Publications (2)

Publication Number Publication Date
JP2020052485A JP2020052485A (ja) 2020-04-02
JP7192348B2 true JP7192348B2 (ja) 2022-12-20

Family

ID=69883278

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018178334A Active JP7192348B2 (ja) 2018-09-25 2018-09-25 制御装置、制御システム及びプログラム

Country Status (2)

Country Link
US (1) US11373648B2 (ja)
JP (1) JP7192348B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7192348B2 (ja) * 2018-09-25 2022-12-20 富士フイルムビジネスイノベーション株式会社 制御装置、制御システム及びプログラム
JP7200702B2 (ja) * 2019-01-30 2023-01-10 京セラドキュメントソリューションズ株式会社 画像形成装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009026158A (ja) 2007-07-20 2009-02-05 Oki Electric Ind Co Ltd 対象物指定装置、対象物指定方法およびコンピュータプログラム
JP2018036397A (ja) 2016-08-30 2018-03-08 シャープ株式会社 応答システムおよび機器

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5657425A (en) * 1993-11-15 1997-08-12 International Business Machines Corporation Location dependent verbal command execution in a computer based control system
JP2002091491A (ja) 2000-09-20 2002-03-27 Sanyo Electric Co Ltd 複数機器の音声制御システム
US8484146B2 (en) * 2006-01-18 2013-07-09 Sony Corporation Interaction device implementing a bayesian's estimation
JP2012155651A (ja) * 2011-01-28 2012-08-16 Sony Corp 信号処理装置および方法、並びに、プログラム
JP2013106315A (ja) * 2011-11-16 2013-05-30 Toshiba Corp 情報端末、家電機器、情報処理方法および情報処理プログラム
JP6282516B2 (ja) 2014-04-08 2018-02-21 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 複数機器の音声操作システム、音声操作方法及び、プログラム
CN106557802B (zh) * 2015-09-30 2019-08-30 东芝存储器株式会社 存储装置以及信息处理系统
WO2017220856A1 (en) * 2016-06-23 2017-12-28 Paumax Oy Electronic accessory incorporating dynamic user-controlled audio muting capabilities, related methods and communications terminal
JP7037426B2 (ja) * 2018-04-25 2022-03-16 京セラ株式会社 電子機器及び処理システム
US20210118443A1 (en) * 2018-04-27 2021-04-22 Sony Corporation Information processing device and information processing method
JP7192348B2 (ja) * 2018-09-25 2022-12-20 富士フイルムビジネスイノベーション株式会社 制御装置、制御システム及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009026158A (ja) 2007-07-20 2009-02-05 Oki Electric Ind Co Ltd 対象物指定装置、対象物指定方法およびコンピュータプログラム
JP2018036397A (ja) 2016-08-30 2018-03-08 シャープ株式会社 応答システムおよび機器

Also Published As

Publication number Publication date
CN110941414A (zh) 2020-03-31
US20200098365A1 (en) 2020-03-26
US11373648B2 (en) 2022-06-28
JP2020052485A (ja) 2020-04-02

Similar Documents

Publication Publication Date Title
KR102117574B1 (ko) 자기-학습 자연 언어 이해를 갖는 다이얼로그 시스템
US11887604B1 (en) Speech interface device with caching component
EP3251115B1 (en) Updating language understanding classifier models for a digital personal assistant based on crowd-sourcing
CN105741836B (zh) 声音识别装置以及声音识别方法
US9336773B2 (en) System and method for standardized speech recognition infrastructure
US9959863B2 (en) Keyword detection using speaker-independent keyword models for user-designated keywords
US20180342257A1 (en) System and Method for Building a Voice Database
US8938388B2 (en) Maintaining and supplying speech models
US20200034108A1 (en) Dynamic Volume Adjustment For Virtual Assistants
US20050234720A1 (en) Voice application system
JP7192348B2 (ja) 制御装置、制御システム及びプログラム
WO2018084910A1 (en) Systems and methods for interrelating text transcript information with video and/or audio information
JP7347217B2 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US10861453B1 (en) Resource scheduling with voice controlled devices
CN111902865A (zh) 文本无关的说话者识别
KR20210148057A (ko) 음성 인식 방법 및 이에 사용되는 장치
JP6689953B2 (ja) 通訳サービスシステム、通訳サービス方法及び通訳サービスプログラム
JP5901694B2 (ja) 辞書データベース管理装置、apiサーバ、辞書データベース管理方法、及び辞書データベース管理プログラム
KR20200016774A (ko) 사용자 음성 발화를 처리하기 위한 시스템 및 그의 동작 방법
EP3716040A1 (en) Image forming apparatus and job execution method
JP6481643B2 (ja) 音声処理システムおよび音声処理方法
KR20180074152A (ko) 보안성이 강화된 음성 인식 방법 및 장치
CN110941414B (zh) 控制装置、控制方法、控制系统及计算机可读记录介质
JP7139937B2 (ja) 音声処理システム、ジョブ生成装置、ジョブ生成方法およびジョブ生成プログラム
JP7205308B2 (ja) ジョブ生成装置、画像処理装置、ジョブ生成方法およびジョブ生成プログラム

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20201102

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210906

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220905

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221121

R150 Certificate of patent or registration of utility model

Ref document number: 7192348

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150