JP7187965B2 - 画像処理装置、操作制御方法及び操作制御プログラム - Google Patents
画像処理装置、操作制御方法及び操作制御プログラム Download PDFInfo
- Publication number
- JP7187965B2 JP7187965B2 JP2018195644A JP2018195644A JP7187965B2 JP 7187965 B2 JP7187965 B2 JP 7187965B2 JP 2018195644 A JP2018195644 A JP 2018195644A JP 2018195644 A JP2018195644 A JP 2018195644A JP 7187965 B2 JP7187965 B2 JP 7187965B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- unit
- voice
- image processing
- operation control
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 113
- 238000000034 method Methods 0.000 title claims description 74
- 238000004458 analytical method Methods 0.000 claims description 126
- 230000033001 locomotion Effects 0.000 claims description 60
- 230000008569 process Effects 0.000 claims description 46
- 238000004891 communication Methods 0.000 claims description 14
- 230000001629 suppression Effects 0.000 claims description 10
- 230000005540 biological transmission Effects 0.000 claims description 8
- 230000000873 masking effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000013473 artificial intelligence Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000003705 background correction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000032258 transport Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/00127—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
- H04N1/00204—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server
- H04N1/00244—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server with a server, e.g. an internet server
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/00127—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
- H04N1/00249—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a photographic apparatus, e.g. a photographic printer or a projector
- H04N1/00251—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a photographic apparatus, e.g. a photographic printer or a projector with an apparatus for taking photographic images, e.g. a camera
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/0035—User-machine interface; Control console
- H04N1/00352—Input means
- H04N1/00403—Voice input means, e.g. voice commands
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/0035—User-machine interface; Control console
- H04N1/00405—Output means
- H04N1/00408—Display of information to the user, e.g. menus
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/0035—User-machine interface; Control console
- H04N1/00405—Output means
- H04N1/00488—Output means providing an audible output to the user
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N2201/00—Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
- H04N2201/0077—Types of the still picture apparatus
- H04N2201/0094—Multifunctional device, i.e. a device capable of all of reading, reproducing, copying, facsimile transception, file transception
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- User Interface Of Digital Computer (AREA)
- Accessory Devices And Overall Control Thereof (AREA)
- Control Or Security For Electrophotography (AREA)
- Facsimiles In General (AREA)
Description
前記操作制御部は、前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示していない場合は、前記映像解析部が前記ユーザの口の動きを検出している時に、前記音声解析部が前記操作コマンドを認識した場合、認識した前記操作コマンドに従って前記画像処理装置の動作を制御し、セキュリティに関する情報を入力する画面を表示している場合は、前記ユーザインターフェース又は音声出力部を介して、前記ユーザに無音での口の動きによる操作を指示し、および、前記読唇処理部が読唇した発話内容による前記操作コマンドに従って前記画像処理装置の動作を制御する、ことを特徴とする。
前記操作制御処理において、前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示していない場合は、前記映像解析処理で前記ユーザの口の動きを検出している時に、前記音声解析処理で前記操作コマンドを認識した場合、認識した前記操作コマンドに従って前記画像処理装置の動作を制御し、セキュリティに関する情報を入力する画面を表示している場合は、前記ユーザインターフェース又は音声出力部を介して、前記ユーザに無音での口の動きによる操作を指示し、および、前記読唇処理で読唇した発話内容による前記操作コマンドに従って前記画像処理装置の動作を制御する、ことを特徴とする。
前記操作制御処理において、前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示していない場合は、前記映像解析処理で前記ユーザの口の動きを検出している時に、前記音声解析処理で前記操作コマンドを認識した場合、認識した前記操作コマンドに従って前記画像処理装置の動作を制御させ、セキュリティに関する情報を入力する画面を表示している場合は、前記ユーザインターフェース又は音声出力部を介して、前記ユーザに無音での口の動きによる操作を指示し、および、前記読唇処理で読唇した発話内容による前記操作コマンドに従って前記画像処理装置の動作を制御させる、ことを特徴とする。
画像形成装置10は、図3(a)に示すように、制御部11、記憶部12、通信部13、表示操作部14、画像読取部15、画像処理部16、画像形成部17、音声入力部18、音声出力部19、映像入力部20などで構成される。
図4に示すように、制御部11(映像解析部22)は、映像入力部20が取得した映像情報を解析してユーザの口の動きを監視する(S101)。制御部11(映像解析部22)がユーザの口の動きを検出したら(S101のYes)、制御部11(音声解析部21)は、音声入力部18が取得した音声情報を解析して操作コマンドの入力を監視する(S102)。そして、制御部11(音声解析部21)が操作コマンドを認識したら(S102のYes)、制御部11(操作制御部24)は、操作コマンドを受け付け(S103)、その操作コマンドに従って画像形成装置10の動作を制御する。
図5に示すように、制御部11(映像解析部22)は、映像入力部20が取得した映像情報を解析してユーザの口の動きを監視する(S201)。制御部11(映像解析部22)がユーザの口の動きを検出したら(S201のYes)、制御部11(音声解析部21)は、音声入力部18が取得した音声情報を解析して操作コマンドの入力を監視する(S202)。そして、制御部11(音声解析部21)が操作コマンドを認識したら(S202のYes)、制御部11(読唇処理部23)は、ユーザの口の動きを読唇して発話内容を取得し(S203)、制御部11(操作制御部24)は、操作コマンドと発話内容とが一致するかを判断する(S204)。操作コマンドと発話内容とが一致する場合は(S204のYes)、制御部11(操作制御部24)は、操作コマンドを受け付け(S205)、操作コマンドに従って画像形成装置10の動作を制御する。一方、操作コマンドと発話内容とが一致しない場合は(S204のNo)、制御部11(操作制御部24)は、表示操作部14を介して、ユーザに再度の発話を指示する(S206)。例えば、表示操作部14に、図11に示すような通知画面25を表示させて、ユーザに再度の発話を指示する。
図6に示すように、制御部11(映像解析部22)は、映像入力部20が取得した映像情報を解析してユーザの口の動きを監視する(S301)。制御部11(映像解析部22)がユーザの口の動きを検出したら(S301のYes)、制御部11(音声解析部21)は、音声入力部18が取得した音声情報を解析して操作コマンドの入力を監視する(S302)。制御部11(音声解析部21)が操作コマンドを認識できなかった場合は(S302のNo)、画像形成装置10が発する動作音によってユーザの音声が聞こえにくくなっている可能性があることから、制御部11(操作制御部24)は、画像形成装置10の動作の内の動作音が相対的に大きい動作(例えば、画像読取部15による画像読み取り動作、通信部13によるFAX画像の送受信動作、画像形成部17による画像形成動作など)を抑止する制御(動作音抑止制御)を実施する(S305)。一方、制御部11(音声解析部21)が操作コマンドを認識できた場合は(S302のYes)、制御部11(操作制御部24)は、操作コマンドを受け付け(S303)、操作コマンドに従って画像形成装置10の動作を制御した後、動作音抑止制御を解除する(S304)。
図7に示すように、制御部11(映像解析部22)は、映像入力部20が取得した映像情報を解析してユーザの口の動きを監視する(S401)。制御部11(映像解析部22)がユーザの口の動きを検出したら(S401のYes)、制御部11(音声解析部21)は、音声入力部18が取得した音声情報を解析して操作コマンドの入力を監視する(S402)。制御部11(音声解析部21)が操作コマンドを認識できた場合は(S402のYes)、制御部11(操作制御部24)は、操作コマンドを受け付け(S403)、操作コマンドに従って画像形成装置10の動作を制御する。一方、制御部11(音声解析部21)が操作コマンドを認識できなかった場合は(S402のNo)、周囲の雑音によってユーザの音声が聞こえにくくなっている可能性があることから、制御部11(操作制御部24)は、表示操作部14や音声出力部19を介して、ユーザに表示操作部14を用いた手動操作を指示する(S404)。例えば、表示操作部14に、図12に示すような通知画面26を表示させて、ユーザに手動操作を指示する。その後、制御部11(操作制御部24)は、手動操作を受け付け(S405)、手動操作に従って画像形成装置10の動作を制御する。
図8に示すように、制御部11は、表示操作部14に表示されている画面がセキュリティ情報(例えば、パスワードや送信宛先情報など)の入力画面であるかを判断する(S501)。セキュリティ情報の入力画面でない場合は(S501のNo)、図4乃至図6に示した操作コマンド受け付け処理を実施する(S502)。一方、セキュリティ情報の入力画面の場合は(S501のYes)、制御部11(操作制御部24)は、表示操作部14や音声出力部19を介して、ユーザに無音での口の動きによる操作を指示する(S503)。例えば、表示操作部14に、図13に示すような通知画面27を表示させて、ユーザに無音での口の動きによる操作を指示する。その後、制御部11(映像解析部22)は、映像入力部20が取得した映像情報を解析してユーザの口の動きを監視し(S504)、制御部11(映像解析部22)がユーザの口の動きを検出したら(S504のYes)、制御部11(読唇処理部23)は、ユーザの口の動きを読唇して発話内容を取得し(S505)、制御部11(操作制御部24)は、発話内容を操作コマンドとして受け付け(S506)、操作コマンドに従って画像形成装置10の動作を制御する。
図9に示すように、制御部11は、表示操作部14に表示されている画面がセキュリティ情報の入力画面であるかを判断する(S601)。セキュリティ情報の入力画面でない場合は(S601のNo)、図4乃至図6に示した操作コマンド受け付け処理を実施する(S602)。一方、セキュリティ情報の入力画面の場合は(S601のYes)、制御部11(操作制御部24)は、表示操作部14や音声出力部19を介して、ユーザに無音での口の動きによる操作を指示する(S603)。次に、制御部11(音声解析部21)は、音声入力部18が取得した音声情報を解析してユーザの音声を監視し(S604)、ユーザの音声を検出した場合は(S604のYes)、セキュリティ情報が漏洩する恐れがあることから、制御部11(操作制御部24)は、音声出力部19からマスク音を出力する(S605)。このマスク音は、ユーザの音声を認識しにくくする音であればよく、例えば、所定の機械音としてもよいし、制御部11(音声解析部21)が解析した音声を打ち消す音(例えば、逆の位相を持つ音)としてもよい。その後、制御部11(映像解析部22)は、映像入力部20が取得した映像情報を解析してユーザの口の動きを監視し(S606)、制御部11(映像解析部22)がユーザの口の動きを検出したら(S606のYes)、制御部11(読唇処理部23)は、ユーザの口の動きを読唇して発話内容を取得し(S607)、制御部11(操作制御部24)は、発話内容を操作コマンドとして受け付け(S608)、操作コマンドに従って画像形成装置10の動作を制御する。
図10に示すように、制御部11は、表示操作部14に表示されている画面がセキュリティ情報の入力画面であるかを判断する(S701)。セキュリティ情報の入力画面でない場合は(S701のNo)、図4乃至図6に示した操作コマンド受け付け処理を実施する(S702)。一方、セキュリティ情報の入力画面の場合は(S701のYes)、制御部11(操作制御部24)は、表示操作部14や音声出力部19を介して、ユーザに無音での口の動きによる操作を指示した後(S703)、音声出力部19からマスク音を出力する(S704)。その後、制御部11(映像解析部22)は、映像入力部20が取得した映像情報を解析してユーザの口の動きを監視し(S705)、制御部11(映像解析部22)がユーザの口の動きを検出したら(S705のYes)、制御部11(読唇処理部23)は、ユーザの口の動きを読唇して発話内容を取得し(S706)、制御部11(操作制御部24)は、発話内容を操作コマンドとして受け付け(S707)、操作コマンドに従って画像形成装置10の動作を制御する。
図14に示すように、制御部11(音声解析部21)は、音声入力部18が取得した音声情報を解析して操作コマンドの入力を監視する(S801)。制御部11(音声解析部21)が操作コマンドを認識した場合は(S801のYes)、制御部11(映像解析部22)は、映像入力部20が取得した映像情報を解析してユーザを検出したかを判断する(S802)。制御部11(映像解析部22)がユーザを検出しなかった場合は(S802のNo)、ユーザが映像入力部20の撮影範囲から外れた場所(例えば、画像形成装置10の側方)から音声を発している可能性があり、画像形成装置10が発する動作音によって音声解析部21による操作コマンドの認識に支障が生じる恐れがあることから、制御部11(操作制御部24)は、画像形成装置10の動作の内の動作音が相対的に大きい動作(例えば、画像読取部15による画像読み取り動作、通信部13によるFAX画像の送受信動作、画像形成部17による画像形成動作など)を抑止する制御(動作音抑止制御)を実施する(S804)。一方、制御部11(映像解析部22)がユーザを検出した場合は(S802のYes)、ユーザが映像入力部20の撮影範囲内(例えば、画像形成装置10の正面)から音声を発しており、音声解析部21による操作コマンドの認識に支障がないと考えられることから、制御部11(操作制御部24)は、動作音抑止制御を解除する(S803)。その後、制御部11(操作制御部24)は、操作コマンドを受け付け(S805)、操作コマンドに従って画像形成装置10の動作を制御する。
図15に示すように、制御部11(音声解析部21)は、音声入力部18が取得した音声情報を解析して操作コマンドの入力を監視する(S901)。制御部11(音声解析部21)が操作コマンドを認識した場合は(S901のYes)、制御部11(映像解析部22)は、映像入力部20が取得した映像情報を解析してユーザを検出したかを判断する(S902)。制御部11(映像解析部22)がユーザを検出した場合は(S902のYes)、制御部11(操作制御部24)は、操作コマンドを受け付け(S903)、操作コマンドに従って画像形成装置10の動作を制御する。一方、制御部11(映像解析部22)がユーザを検出しなかった場合は(S902のNo)、ユーザが映像入力部20の撮影範囲から外れた場所(例えば、画像形成装置10の側方)から音声を発している可能性があり、音声解析部21による操作コマンドの認識に支障が生じる恐れがあることから、制御部11(操作制御部24)は、表示操作部14や音声出力部19を介して、ユーザに表示操作部14を用いた手動操作を指示する(S904)。例えば、表示操作部14に、図12に示すような通知画面26を表示させて、ユーザに手動操作を指示する。その後、制御部11(操作制御部24)は、手動操作を受け付け(S905)、手動操作に従って画像形成装置10の動作を制御する。
11 制御部
11a CPU
11b ROM
11c RAM
12 記憶部
13 通信部
14 表示操作部
15 画像読取部
16 画像処理部
17 画像形成部
18 音声入力部
19 音声出力部
20 映像入力部
21 音声解析部
22 映像解析部
23 読唇処理部
24 操作制御部
25、26、27 通知画面
30 解析サーバ
40 通信ネットワーク
Claims (18)
- 画像処理装置の動作に関する画面を表示すると共にユーザの前記画像処理装置の動作に関する操作を受け付けるユーザインターフェースと、
前記ユーザの音声情報を取得する音声入力部と、
前記ユーザの映像情報を取得する映像入力部と、を備える画像処理装置において、
前記音声入力部が取得した前記音声情報を解析して、操作コマンドを認識する音声解析部と、
前記映像入力部が取得した前記映像情報を解析して、前記ユーザの口の動きを検出する映像解析部と、
前記映像解析部が検出した前記ユーザの口の動きから発話内容を読唇する読唇処理部と、
前記操作コマンドに従って前記画像処理装置の動作を制御する操作制御部と、を備え、
前記操作制御部は、前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示していない場合は、前記映像解析部が前記ユーザの口の動きを検出している時に、前記音声解析部が前記操作コマンドを認識した場合、認識した前記操作コマンドに従って前記画像処理装置の動作を制御し、
セキュリティに関する情報を入力する画面を表示している場合は、前記ユーザインターフェース又は音声出力部を介して、前記ユーザに無音での口の動きによる操作を指示し、および、前記読唇処理部が読唇した発話内容による前記操作コマンドに従って前記画像処理装置の動作を制御する、
ことを特徴とする画像処理装置。 - 前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示していない場合において、前記操作制御部は、前記音声解析部が認識した前記操作コマンドと前記読唇処理部が読唇した前記発話内容とが一致する場合、前記操作コマンドに従って前記画像処理装置の動作を制御する、
ことを特徴とする請求項1に記載の画像処理装置。 - 前記操作制御部は、前記音声解析部が認識した前記操作コマンドと前記読唇処理部が読唇した前記発話内容とが一致しない場合、前記ユーザインターフェースを介して、前記ユーザに再度の発話を指示する、
ことを特徴とする請求項2に記載の画像処理装置。 - 前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示していない場合において、
前記操作制御部は、前記音声解析部が前記操作コマンドを認識できない場合、前記画像処理装置の動作の内の動作音が相対的に大きい動作を抑止する動作音抑止制御を実施する、
ことを特徴とする請求項1乃至3のいずれか一に記載の画像処理装置。 - 前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示していない場合において、
前記操作制御部は、前記音声解析部が前記操作コマンドを認識できない場合、前記ユーザインターフェース又は音声出力部を介して、前記ユーザに前記ユーザインターフェースを用いた手動操作を指示する、
ことを特徴とする請求項1乃至3のいずれか一に記載の画像処理装置。 - 前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示している場合において、
前記操作制御部は、前記音声出力部に、他のユーザが前記ユーザの音声を識別できないようにするマスク音を出力させる、
ことを特徴とする請求項1乃至5のいずれか一に記載の画像処理装置。 - 前記操作制御部は、前記音声解析部が前記ユーザの音声を検出した場合は、前記音声出力部に前記マスク音を出力させる、
ことを特徴とする請求項6に記載の画像処理装置。 - 前記動作音が相対的に大きい動作は、スキャナ機能による画像読み取り動作、FAX機能による画像の送受信動作、プリント機能による画像形成動作のいずれかを含む、
ことを特徴とする請求項4に記載の画像処理装置。 - 画像処理装置の動作に関する画面を表示すると共にユーザの前記画像処理装置の動作に関する操作を受け付けるユーザインターフェースと、
前記ユーザの音声情報を取得する音声入力部と、
前記ユーザの映像情報を取得する映像入力部と、を備える画像処理装置における操作制御方法であって、
前記音声入力部が取得した前記音声情報を解析して、操作コマンドを認識する音声解析処理と、
前記映像入力部が取得した前記映像情報を解析して、前記ユーザの口の動きを検出する映像解析処理と、
前記映像解析処理で検出した前記ユーザの口の動きから発話内容を読唇する読唇処理と、
前記操作コマンドに従って前記画像処理装置の動作を制御する操作制御処理と、を実行し、
前記操作制御処理において、
前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示していない場合は、前記映像解析処理で前記ユーザの口の動きを検出している時に、前記音声解析処理で前記操作コマンドを認識した場合、認識した前記操作コマンドに従って前記画像処理装置の動作を制御し、
セキュリティに関する情報を入力する画面を表示している場合は、前記ユーザインターフェース又は音声出力部を介して、前記ユーザに無音での口の動きによる操作を指示し、および、前記読唇処理で読唇した発話内容による前記操作コマンドに従って前記画像処理装置の動作を制御する、
ことを特徴とする操作制御方法。 - 前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示していない場合において、
前記操作制御処理では、前記音声解析処理で認識した前記操作コマンドと前記読唇処理で読唇した前記発話内容とが一致する場合、前記操作コマンドに従って前記画像処理装置の動作を制御する、
ことを特徴とする請求項9に記載の操作制御方法。 - 前記操作制御処理では、前記音声解析処理で認識した前記操作コマンドと前記読唇処理で読唇した前記発話内容とが一致しない場合、前記ユーザインターフェースを介して、前記ユーザに再度の発話を指示する、
ことを特徴とする請求項10に記載の操作制御方法。 - 前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示していない場合において、
前記操作制御処理では、前記音声解析処理で前記操作コマンドを認識できない場合、前記画像処理装置の動作の内の動作音が相対的に大きい動作を抑止する動作音抑止制御を実施する、
ことを特徴とする請求項9乃至11のいずれか一に記載の操作制御方法。 - 前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示していない場合において、前記操作制御処理では、前記音声解析処理で前記操作コマンドを認識できない場合、前記ユーザインターフェース又は音声出力部を介して、前記ユーザに前記ユーザインターフェースを用いた手動操作を指示する、
ことを特徴とする請求項9乃至11のいずれか一に記載の操作制御方法。 - 前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示している場合において
前記操作制御処理では、前記音声出力部に、前記ユーザの音声を他のユーザが識別できないようにするマスク音を出力させる、
ことを特徴とする請求項9乃至13のいずれか一に記載の操作制御方法。 - 前記操作制御処理では、前記音声解析処理で前記ユーザの音声を検出した場合は、前記音声出力部に前記マスク音を出力させる、
ことを特徴とする請求項14に記載の操作制御方法。 - 前記動作音が相対的に大きい動作は、スキャナ機能による画像読み取り動作、FAX機能による画像の送受信動作、プリント機能による画像形成動作のいずれかを含む、
ことを特徴とする請求項12に記載の操作制御方法。 - 通信ネットワークを介して、前記画像処理装置に解析サーバが接続され、
前記解析サーバが、前記音声解析処理、及び/又は、前記映像解析処理を実行する、
ことを特徴とする請求項9乃至16のいずれか一に記載の操作制御方法。 - 画像処理装置の動作に関する画面を表示すると共にユーザの前記画像処理装置の動作に関する操作を受け付けるユーザインターフェースと、
前記ユーザの音声情報を取得する音声入力部と、
前記ユーザの映像情報を取得する映像入力部と、を備える画像処理装置で動作する操作制御プログラムであって、
前記画像処理装置に、
前記音声入力部が取得した前記音声情報を解析して、操作コマンドを認識する音声解析処理、
前記映像入力部が取得した前記映像情報を解析して、前記ユーザの口の動きを検出する映像解析処理、
前記映像解析処理で検出した前記ユーザの口の動きから発話内容を読唇する読唇処理、及び、
前記操作コマンドに従って前記画像処理装置の動作を制御する操作制御処理、を実行させ、
前記操作制御処理において、
前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示していない場合は、前記映像解析処理で前記ユーザの口の動きを検出している時に、前記音声解析処理で前記操作コマンドを認識した場合、認識した前記操作コマンドに従って前記画像処理装置の動作を制御させ、
セキュリティに関する情報を入力する画面を表示している場合は、前記ユーザインターフェース又は音声出力部を介して、前記ユーザに無音での口の動きによる操作を指示し、および、前記読唇処理で読唇した発話内容による前記操作コマンドに従って前記画像処理装置の動作を制御させる、
ことを特徴とする操作制御プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018195644A JP7187965B2 (ja) | 2018-10-17 | 2018-10-17 | 画像処理装置、操作制御方法及び操作制御プログラム |
US16/599,649 US20200128143A1 (en) | 2018-10-17 | 2019-10-11 | Image processing apparatus, operation control method for same and non-transitory computer-readable recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018195644A JP7187965B2 (ja) | 2018-10-17 | 2018-10-17 | 画像処理装置、操作制御方法及び操作制御プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020062796A JP2020062796A (ja) | 2020-04-23 |
JP7187965B2 true JP7187965B2 (ja) | 2022-12-13 |
Family
ID=70280040
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018195644A Active JP7187965B2 (ja) | 2018-10-17 | 2018-10-17 | 画像処理装置、操作制御方法及び操作制御プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20200128143A1 (ja) |
JP (1) | JP7187965B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230021054A1 (en) | 2020-03-31 | 2023-01-19 | Nec Corporation | Platform, system, method, and non-transitory computer readable medium |
CN115050375A (zh) * | 2021-02-26 | 2022-09-13 | 华为技术有限公司 | 一种设备的语音操作方法、装置和电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000099088A (ja) | 1998-09-22 | 2000-04-07 | Techno Ishii:Kk | 記録媒体および言語処理装置 |
JP2001175278A (ja) | 1999-12-13 | 2001-06-29 | Sharp Corp | 表示手段を有する制御装置 |
JP2006215206A (ja) | 2005-02-02 | 2006-08-17 | Canon Inc | 音声処理装置およびその制御方法 |
JP2010136335A (ja) | 2008-11-05 | 2010-06-17 | Ricoh Co Ltd | 画像形成装置、制御方法およびプログラム |
US20150254053A1 (en) | 2014-03-06 | 2015-09-10 | General Electric Company | Using visual cues to improve appliance audio recognition |
JP2016184095A (ja) | 2015-03-26 | 2016-10-20 | 大日本印刷株式会社 | 言語認識装置、言語認識方法及びプログラム |
JP2018121134A (ja) | 2017-01-23 | 2018-08-02 | 京セラドキュメントソリューションズ株式会社 | 画像形成装置 |
-
2018
- 2018-10-17 JP JP2018195644A patent/JP7187965B2/ja active Active
-
2019
- 2019-10-11 US US16/599,649 patent/US20200128143A1/en not_active Abandoned
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000099088A (ja) | 1998-09-22 | 2000-04-07 | Techno Ishii:Kk | 記録媒体および言語処理装置 |
JP2001175278A (ja) | 1999-12-13 | 2001-06-29 | Sharp Corp | 表示手段を有する制御装置 |
JP2006215206A (ja) | 2005-02-02 | 2006-08-17 | Canon Inc | 音声処理装置およびその制御方法 |
JP2010136335A (ja) | 2008-11-05 | 2010-06-17 | Ricoh Co Ltd | 画像形成装置、制御方法およびプログラム |
US20150254053A1 (en) | 2014-03-06 | 2015-09-10 | General Electric Company | Using visual cues to improve appliance audio recognition |
JP2016184095A (ja) | 2015-03-26 | 2016-10-20 | 大日本印刷株式会社 | 言語認識装置、言語認識方法及びプログラム |
JP2018121134A (ja) | 2017-01-23 | 2018-08-02 | 京セラドキュメントソリューションズ株式会社 | 画像形成装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2020062796A (ja) | 2020-04-23 |
US20200128143A1 (en) | 2020-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8510115B2 (en) | Data processing with automatic switching back and forth from default voice commands to manual commands upon determination that subsequent input involves voice-input-prohibited information | |
JP2016007800A (ja) | 異常検知システム、電子機器、異常検知方法およびプログラム | |
JP5826786B2 (ja) | 画像形成装置及び画像形成方法 | |
EP2381315A2 (en) | Image forming apparatus and method for providing user interface screen of image forming apparatus | |
US20200193991A1 (en) | Image processing system, image forming apparatus, voice input inhibition determination method, and recording medium | |
JP7187965B2 (ja) | 画像処理装置、操作制御方法及び操作制御プログラム | |
KR20120127648A (ko) | 오정렬된 페이지 검출 방법 및 장치 | |
US11055042B2 (en) | Image forming apparatus and method for controlling image forming apparatus | |
JP2006321190A (ja) | 画像形成装置及びその言語設定方法 | |
JP2022153407A (ja) | 画像形成装置および制御方法 | |
JP2009143141A (ja) | 画像形成装置 | |
US10692399B2 (en) | Braille tactile sensation presenting device and image forming apparatus | |
JP2006013584A (ja) | 画像形成装置 | |
US20200104078A1 (en) | Image forming apparatus, recording medium storing control program and control method | |
CN111953857A (zh) | 装置 | |
JP2006184722A (ja) | 自己診断機能を備えた画像形成装置 | |
JP2020036261A (ja) | 情報処理システムおよび操作履歴の確認方法 | |
JP2018120372A (ja) | 電子機器及び画像形成装置 | |
JP6269298B2 (ja) | 画像形成装置 | |
JP2008167457A (ja) | 送信装置 | |
US10911608B2 (en) | Image processing apparatus capable of restricting operation, operation control method | |
JP4432810B2 (ja) | 文書処理装置 | |
US11425271B2 (en) | Process condition setting system, process condition setting method, and program | |
JP2021150856A (ja) | 画像処理システム、画像処理装置、制御方法及びプログラム | |
JP2008052391A (ja) | 画像形成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20191120 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20191122 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210820 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220621 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220628 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20220829 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221021 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221101 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221114 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7187965 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |