JP7026812B2 - Information processing equipment and information processing method - Google Patents
Information processing equipment and information processing method Download PDFInfo
- Publication number
- JP7026812B2 JP7026812B2 JP2020547621A JP2020547621A JP7026812B2 JP 7026812 B2 JP7026812 B2 JP 7026812B2 JP 2020547621 A JP2020547621 A JP 2020547621A JP 2020547621 A JP2020547621 A JP 2020547621A JP 7026812 B2 JP7026812 B2 JP 7026812B2
- Authority
- JP
- Japan
- Prior art keywords
- nose
- end point
- face
- image
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 20
- 238000003672 processing method Methods 0.000 title claims description 6
- 238000001514 detection method Methods 0.000 claims description 40
- 238000004364 calculation method Methods 0.000 claims description 29
- 230000001815 facial effect Effects 0.000 claims description 3
- 238000000034 method Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Description
本発明は、情報処理装置及び情報処理方法に関する。 The present invention relates to an information processing apparatus and an information processing method.
近年のカーナビゲーションシステムは、音声で操作するための音声認識機能を備えたものが多い。音声認識機能は、目的地の設定等に活用され、発話内容を認識し、コマンドに変換することで操作を実現している。 Many car navigation systems in recent years are equipped with a voice recognition function for operating by voice. The voice recognition function is utilized for setting the destination, etc., and realizes the operation by recognizing the utterance content and converting it into a command.
しかしながら、自動車の車内では車外の騒音等、ノイズ源が多くあったり、複数の乗員が同時に発話したりすることで、音声認識が困難になるケースがある。このため、ノイズ成分を低減する必要がある。発話認識技術の従来技術としては、特許文献1に記載された技術が知られている。 However, there are cases where voice recognition becomes difficult due to many noise sources such as noise outside the vehicle inside the vehicle or when a plurality of occupants speak at the same time. Therefore, it is necessary to reduce the noise component. As a conventional technique of the utterance recognition technique, the technique described in Patent Document 1 is known.
特許文献1に記載された技術は、表情認識を目的に口の開き度合いを算出している。特許文献1では、右目の右端から口の右端までの右目-口間距離をDr、左目の左端から口の左端までの左目-口間距離をDl、右目の右端から左目の左端までの距離をWeとして、下記の(1)式により、口開き状態を示す特徴量V3として算出している。
V3=(Dr+Dl)÷We (1)The technique described in Patent Document 1 calculates the degree of mouth opening for the purpose of facial expression recognition. In Patent Document 1, the right-eye-mouth distance from the right end of the right eye to the right end of the mouth is Dr, the left-eye-mouth distance from the left end of the left eye to the left end of the mouth is Dl, and the distance from the right end of the right eye to the left end of the left eye. We are calculated as a feature amount V3 indicating an open mouth state by the following equation (1).
V3 = (Dr + Dl) ÷ We (1)
従来の技術は、ドライバーのふり向き等により、顔の向きが変化することでその特徴量V3が変化するため、口の開き状態を示すには十分とは言えない。 The conventional technique is not sufficient to show the open state of the mouth because the feature amount V3 changes when the direction of the face changes depending on the direction of the driver's swing.
そこで、本発明の1又は複数の態様は、顔のふり向きに対してロバストな開口度を算出できるようにすることを目的とする。 Therefore, one or a plurality of aspects of the present invention is aimed at making it possible to calculate a robust opening degree with respect to the direction of turning of the face.
本発明の1態様に係る情報処理装置は、画像データで示される画像から、人の顔に対応する部分である顔画像を検出する顔検出部と、前記顔画像から、前記人の唇の上下方向における開口幅を取得する開口幅取得部と、前記顔画像から、前記人の左右の目の中点と鼻の下端点との距離である鼻の長さを取得する鼻長取得部と、前記鼻の長さに対する、前記開口幅の相対的な長さを示す開口度を算出する開口度算出部と、を備えることを特徴とする。 The information processing apparatus according to one aspect of the present invention has a face detection unit that detects a face image that is a portion corresponding to a human face from an image shown by image data, and an upper and lower lips of the person from the face image. An opening width acquisition unit that acquires the opening width in the direction, and a nose length acquisition unit that acquires the length of the nose, which is the distance between the middle point of the left and right eyes of the person and the lower end point of the nose, from the face image. It is characterized by comprising an opening degree calculation unit for calculating an opening degree indicating a relative length of the opening width with respect to the length of the nose.
本発明の1態様に係る情報処理方法は、画像データで示される画像から、人の顔に対応する部分である顔画像を検出し、前記顔画像から、前記人の唇の上下方向における開口幅を取得し、前記顔画像から、前記人の左右の目の中点と鼻の下端点との距離である鼻の長さを取得し、前記鼻の長さに対する、前記開口幅の相対的な長さを示す開口度を算出することを特徴とする。
The information processing method according to one aspect of the present invention detects a face image, which is a portion corresponding to a human face, from an image shown by image data, and from the face image, an opening width in the vertical direction of the person's lip. Is obtained, and the length of the nose, which is the distance between the middle point of the left and right eyes of the person and the lower end point of the nose, is obtained from the face image, and the opening width is relative to the length of the nose. It is characterized by calculating the opening degree indicating the length.
本発明の1又は複数の態様によれば、顔のふり向きに対してロバストな開口度を算出することができる。 According to one or more aspects of the present invention, it is possible to calculate a robust opening degree with respect to the direction of turning of the face.
実施の形態1.
図1は、実施の形態1に係る情報処理装置である発話者判定装置100の構成を概略的に示すブロック図である。
発話者判定装置100は、顔検出部110と、開口度取得部120と、発話者判定部130とを備える。
発話者判定装置100は、撮像装置160から入力される画像データで示される画像から、発話者を判定する。そして、発話者判定装置100は、その判定結果をマイク装置170に与える。Embodiment 1.
FIG. 1 is a block diagram schematically showing a configuration of a
The
The
撮像装置160は、CCD(Charge Coupled Device)イメージセンサといった撮像素子を備え、撮像された画像の画像データを出力する。例えば、撮像装置160は、カメラにより実現することができる。
マイク装置170は、音を電気信号に変換するマイクを備える装置である。実施の形態1では、マイク装置170は、マイクの電源をオン又はオフにすることができ、発話者判定装置100からの判定結果に応じて、マイクの電源をオン又はオフにする。言い換えると、マイク装置170は、音の電気信号への変換する機能をオン又はオフにすることができる。また、マイク装置170は、例えば、単一指向性を有するマイクを備え、発話者判定装置100からの判定結果に応じて、集音する方向を変更できるようになっていてもよい。The
The
図2は、発話者判定装置100、撮像装置160及びマイク装置170の配置例を示す概略図である。
図2に示されているように、車両180の内部に、発話者判定装置100、撮像装置160及びマイク装置170が配置されている。FIG. 2 is a schematic view showing an arrangement example of the
As shown in FIG. 2, a
撮像装置160は、対象者である乗員の顔を撮像する。そして、撮像装置160は、発話者判定装置100と接続されており、撮像された画像の画像データを発話者判定装置100に送る。なお、撮像装置160は、ワイヤハーネス等の配線を介して発話者判定装置100と接続されてもよく、また、無線により発話者判定装置100と接続されてもよい。
The
撮像装置160は、RGB(Red Green Blue)カメラ、IR(InfRared)カメラ、ステレオカメラ又はTOF(Time Of Flight)カメラ等、口の形状が検出できるものであればどのような形式の装置であってもよい。なお、「RGBカメラ」は、異なった3本のケーブル等を用いて、赤、緑及び青の3色の信号を通信するカメラであり、一般に3つの独立したCCDセンサを用いる。「IRカメラ」は、赤外線カメラであり、赤外線領域の波長に感度をもつカメラである。
The
マイク装置170は、発話者の音声を収集する装置である。発話者判定装置100で特定された発話状態にある対象者の音声を収集する。マイク装置170は、指向性を持たせるために、指向性マイク又はマイクアレイの構成とする。
The
図1に戻り、顔検出部110は、撮像装置160から与えられた画像データで示される画像から、人の顔に対応する部分である顔画像を検出する。顔検出部110は、検出された顔画像の位置を示す位置情報を、画像データとともに、開口度取得部120及び発話者判定部130に与える。なお、画像から複数の顔画像が検出された場合には、位置情報は、複数の顔画像の位置を示す。
Returning to FIG. 1, the
開口度取得部120は、画像データで示される画像から検出された顔画像における口の開き具合を示す開口度を取得する。なお、開口度取得部120は、複数の顔画像が検出されている場合には、複数の顔画像の各々について、開口度を取得する。
開口度取得部120は、開口幅取得部121と、鼻長取得部124とを備える。The opening
The opening
開口幅取得部121は、顔検出部110により検出された顔画像から、唇の上下方向における開口幅を取得する。例えば、開口幅取得部121は、顔画像から、上唇の内側の下端点と、下唇の内側の上端点とを検出して、これらの間の距離を開口幅とすることができる。
開口幅取得部121は、唇検出部122と、開口幅算出部123とを備える。The opening
The opening
唇検出部122は、画像データで示される画像において、顔検出部110において検出された顔に対応する部分の画像である顔画像より上唇内側の端点である上端点と、下唇内側の端点である下端点とを検出する。
In the image shown by the image data, the
図3に示されているように、顔画像Fimにおいて、唇の上端点P1は、顔の中心線上の上唇内側の端点であり、唇の下端点P2は、顔の中心線上の下唇内側の端点である。
例えば、唇検出部122は、パターンマッチングにより顔画像Fimから唇の画像部分である唇画像を検出し、唇画像のエッジを検出することで、上唇の内側を示す線L1及び下唇の内側を示す線L2をそれぞれ検出することができる。そして、顔画像Fimの縦方向における中心線と、検出されたそれぞれの線L1、L2との交点により、唇の上端点P1及び下端点P2を検出することができる。As shown in FIG. 3, in the face image Fim, the upper end point P1 of the lips is the inner end point of the upper lip on the center line of the face, and the lower end point P2 of the lips is the inner end point of the lower lip on the center line of the face. It is an end point.
For example, the
なお、唇検出部122は、検出された唇の上端点及び下端点の位置を示す唇情報を開口幅算出部123に与える。なお、唇情報は、複数の顔画像が検出されている場合には、複数の顔画像のそれぞれから検出された唇の上端点及び下端点の位置を示す。
The
開口幅算出部123は、唇情報で示される唇の上端点及び下端点の位置により、唇の上端点及び下端点の間の距離を、開口幅として算出する。
例えば、開口幅算出部123は、図3に示されているように、唇の上端点P1及び下端点P2のユークリッド距離を、開口幅D1として算出する。
そして、開口幅算出部123は、算出された開口幅を示す開口幅情報を開口度算出部128に与える。なお、開口幅情報は、複数の顔画像が検出されている場合には、複数の顔画像のそれぞれから算出された開口幅を示す。The opening
For example, as shown in FIG. 3, the opening
Then, the opening
鼻長取得部124は、顔検出部110により検出された顔画像から、鼻の長さを取得する。例えば、鼻長取得部は、顔画像から、人の右の目の目尻又は目頭の端点である右端点と、人の左の目の目尻又は目頭の端点である左端点とを検出し、右端点及び左端点との間の中点を特定する。また、鼻長取得部124は、顔画像から鼻の下端点を検出する。そして、鼻長取得部124は、特定された中点と、検出された下端点との間の距離を鼻の長さとする。
鼻長取得部124は、目検出部125と、鼻検出部126と、鼻長算出部127と、開口度算出部128とを備える。The nose
The nose
目検出部125は、顔画像から、左右の目尻端点を検出して、それらの端点から左右の目の中点を検出する。
図3に示されているように、左右の目の中点P5は、左目の端点P3と、右目の端点P4との間の中央の点である。The
As shown in FIG. 3, the midpoint P5 of the left and right eyes is the central point between the endpoint P3 of the left eye and the endpoint P4 of the right eye.
例えば、目検出部125は、パターンマッチングにより顔画像Fimから左の目の画像部分である左目画像、及び、右の目の画像部分である右目画像を検出し、左目画像及び右目画像のそれぞれにおいて、エッジを検出することで、左目及び右目の外側の線をそれぞれ検出することができる。そして、左目の外側の線の最も左にある点を左目の端点P3とし、右目の外側の線の最も右にある点を右目の端点P4とすることで、それらの中点P5を検出することができる。
なお、目検出部125は、検出された中点の位置を示す目情報を鼻長算出部127に与える。目情報は、複数の顔画像が検出されている場合には、複数の顔画像のそれぞれから検出された中点の位置を示す。For example, the
The
鼻検出部126は、顔画像より左右の鼻孔の間にあたる、鼻下端点を検出する。
図3に示されているように、鼻下端点P6は、顔画像Fimに含まれている鼻の最も下にある点となる。The
As shown in FIG. 3, the nose lower end point P6 is the lowest point of the nose included in the face image Fim.
例えば、鼻検出部126は、パターンマッチングにより顔画像Fimから鼻の画像部分である鼻画像を検出し、鼻画像における最も下にある点により、鼻下端点P6を検出することができる。
鼻検出部126は、検出された鼻下端点の位置を示す鼻情報を鼻長算出部127に与える。なお、鼻情報は、複数の顔画像が検出されている場合には、複数の顔画像のそれぞれから検出された鼻下端点の位置を示す。For example, the
The
鼻長算出部127は、目情報で示される、左右の目の中点と、鼻情報で示される鼻下端点との間の距離を、鼻の長さである鼻長として算出する。
例えば、鼻長算出部127は、図3に示されているように、左右の目の中点P5と、鼻下端点P6との間のユークリッド距離を、鼻長D2として算出する。
そして、鼻長算出部127は、算出された鼻長を示す鼻長情報を開口度算出部128に与える。なお、鼻長情報は、複数の顔画像が検出されている場合には、複数の顔画像のそれぞれから算出された鼻長を示す。The nose
For example, the nose
Then, the nose
開口度算出部128は、鼻長情報で示される鼻長に対する、開口幅情報で示される開口幅の相対的な長さである開口度を算出する。例えば、開口度算出部128は、開口幅を鼻長で割ることで、開口度を算出する。
開口度算出部128は、算出された開口度を示す開口度情報を発話者判定部130に与える。なお、開口度情報は、複数の顔画像が検出されている場合には、複数の顔画像のそれぞれから算出された開口度を示す。The opening
The opening
発話者判定部130は、顔検出部110から与えられる位置情報で示される、顔画像が検出された位置と、開口度算出部128から与えられる開口度情報で示される、顔画像毎に算出された開口度から、対象者が発話を行っているか否かを判定する。なお、発話者判定部130は、複数の顔画像が検出されている場合には、複数の顔画像から算出された複数の開口度を用いて、複数の対象者の各々が発話を行っているか否かを判定する。
The
例えば、発話者判定部130は、開口度情報で示されるいずれの開口度も予め定められた閾値以下である場合には、発話者がいないと判定する。
また、発話者判定部130は、開口度情報で示されるいずれかの開口度が予め定められた閾値を超えている場合には、その開口度に対応する顔画像が検出された位置の対象者が発話者であると判定する。
そして、発話者判定部130は、発話者がいないと判定した場合には、その旨を判定結果とし、発話者を判定した場合には、対応する顔画像が検出された位置を判定結果として、その判定結果を示す判定結果情報をマイク装置170に送る。For example, the
Further, when any of the opening degrees indicated by the opening degree information exceeds a predetermined threshold value, the
Then, when the
マイク装置170は、発話者判定部130からの判定結果情報に従って、マイクの制御を行う。例えば、マイク装置170は、発話者がいないことを判定結果が示している場合には、マイクの電源をオフにする。また、マイク装置170は、発話者の位置を判定結果が示している場合には、マイクの集音方向がその方向に向くように、マイクの位置、又は、マイクアレイのゲインを制御する。
The
図4は、実施の形態1に係る発話者判定装置100のハードウェア構成を示すブロック図である。
発話者判定装置100は、CPU(Central Processing Unit)11と、プログラムメモリ12と、データメモリ13と、インターフェース(I/F)14と、これらを接続するバス15とを備える。
I/F14は、撮像装置160及びマイク装置170を接続し、これらとの間で通信を行うための接続インターフェースである。このため、I/F14は、図1には図示されていないが、撮像装置160から画像データの入力を受ける入力部として機能する。また、I/F14は、図1には図示されていないが、マイク装置170に、判定結果情報又はコマンドを出力する出力部として機能する。FIG. 4 is a block diagram showing a hardware configuration of the
The
The I /
CPU11は、プログラムメモリ12に記憶されたプログラムに従って動作する。動作の過程で種々のデータをデータメモリ13に記憶させる。
例えば、顔検出部110、開口度取得部120及び発話者判定部130は、CPU11がプログラムを実行することで実現することができる。The
For example, the
このようなプログラムは、ネットワークを通じて提供されてもよく、また、記録媒体に記録されて提供されてもよい。即ち、このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。 Such a program may be provided through a network, or may be recorded and provided on a recording medium. That is, such a program may be provided, for example, as a program product.
なお、発話者判定装置100のハードウェア構成は、図4に示されている構成に限定されるものではなく、例えば、顔検出部110、開口度取得部120及び発話者判定部130の一部又は全部が、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuits)又はFPGA(Field Programmable Gate Array)等の処理回路で構成することもできる。
The hardware configuration of the
図5は、実施の形態1に係る情報処理方法である発話者判定方法を示すフローチャートである。
まず、顔検出部110は、撮像装置160から、車の中の乗員を対象者として撮像された画像を示す画像データを取得する(S10)。ここでは、撮像範囲は、車の中の乗員を含む範囲であるが、撮像範囲は、対象となる人が映る可能性のある場所であればよく、エレベータの中、電車の車内、路上又は店内等であってもよい。FIG. 5 is a flowchart showing a speaker determination method, which is an information processing method according to the first embodiment.
First, the
顔検出部110は、画像データを取得すると、画像データで示される画像から対象者の顔に対応する部分である顔画像を検出する(S11)。顔を検出する方法については、特に問わない。例えば、一般的なHaar-like特徴量を使ったAdaBoostベースの検出器が用いられてもよい。なお、Haar-like特徴量は、画像の明暗差により特徴を捉える特徴量であり、画素値をそのまま特徴量として用いる場合と比べて、照明条件の変動及びノイズの影響を受けにくい特徴がある。また、AdaBoostは、Adaptive Boostingの略で、弱い分類器を複数組み合わせて利用することで、パフォーマンスを改善した機械学習アルゴリズムである。
When the
唇検出部122は、ステップS11で検出された顔の位置に対応する顔画像より上唇内側の端点である上端点の位置(座標)を検出する(S13)。
また、唇検出部122は、ステップS11で検出された顔の位置に対応する顔画像より下唇内側の端点である下端点の位置(座標)を検出する(S14)。
なお、ステップS13及びS14における、唇の端点の座標取得方法は、例えば、「黒田勉、渡辺富夫『HSV表現法に基づく顔画像の唇抽出方法』、日本機械学会論文集61巻592号、1995年12月、No95-021」に示されているように、RGB色空間又はHSV(Hue Saturation Lightness Value)色空間を使ったものでもよく、AAM(Active Appearance Model)等のように、モデルベースの顔画像の特徴点を検出するアルゴリズムが使用されてもよい。また、Deep Learningが用いられてもよい。Deep Learningは、4層以上の多層のニューラルネットワークによる機械学習手法であり、近年学習に必要な計算機の高速化及び学習手法の研究が進んだことで、高い性能を示している。The
Further, the
The method of acquiring the coordinates of the end points of the lips in steps S13 and S14 is, for example, "Tsutomu Kuroda, Tomio Watanabe" Lip extraction method of facial image based on HSV expression method ", Proceedings of the Japan Society of Mechanical Engineers, Vol. 61, No. 592, 1995. As shown in "December, No. 95-021", an RGB color space or an HSV (Hue Saturation Lightness Value) color space may be used, and a model-based one such as AAM (Active Appearance Model) may be used. An algorithm for detecting feature points in a facial image may be used. Moreover, Deep Learning may be used. Deep Learning is a machine learning method using a multi-layered neural network with four or more layers, and has shown high performance due to recent advances in research on speeding up computers and learning methods required for learning.
そして、開口幅算出部123は、ステップS13で検出された上端点及びステップS14で検出された下端点との間のユークリッド距離を、開口幅として算出する(S14)。
Then, the opening
また、目検出部125は、ステップS11で検出された顔の位置に対応する顔画像より、左右の目の目尻の端点の位置(座標)を検出し、検出された位置の中点の位置(座標)を検出する(S15)。
鼻検出部126は、ステップS11で検出された顔の位置に対応する顔画像より、鼻下端点を検出する(S16)。Further, the
The
そして、鼻長算出部127は、ステップS15で算出された、左右の目尻端点の中点と、ステップS16で算出された鼻下端点との間のユークリッド距離を、鼻長として算出する(S17)。
Then, the nose
次に、開口度算出部128は、ステップS14で算出された開口幅を、ステップS17で算出された鼻長で除算することにより、開口度を算出する(S18)。開口幅と、鼻長とは同軸上にあるため、これらにより算出された開口度は、顔向きの変化により影響を受けにくい。
Next, the opening
次に、発話者判定部130は、ステップS19で算出された開口度が、閾値を超えているかを判定する(S19)。なお、マイク装置170は、ステップS19での判定結果に応じて、マイクを制御する。例えば、発話者が検出されていない場合には、マイクをオフにすることで、騒音、ノイズ、又は、特定の話者以外の発話等による影響を制限することができる。
Next, the
以上のように、実施の形態1によれば、特定の対象者の発話状態を判定することができる。判定結果に応じたマイクの制御を行うことで、対象者が発話状態でないときの誤動作を防止することができる。 As described above, according to the first embodiment, it is possible to determine the utterance state of a specific target person. By controlling the microphone according to the determination result, it is possible to prevent a malfunction when the subject is not in the utterance state.
実施の形態2
図6は、実施の形態2に係る情報処理装置である発話者判定装置200の構成を概略的に示すブロック図である。
発話者判定装置200は、顔検出部110と、開口度取得部120と、発話者判定部230と、音声認識部240とを備える。
実施の形態2における顔検出部110及び開口度取得部120は、実施の形態1の顔検出部110及び開口度取得部120と同様である。Embodiment 2
FIG. 6 is a block diagram schematically showing the configuration of the
The
The
図7は、発話者判定装置200、撮像装置160及びマイク装置270の配置例を示す概略図である。
図7に示されているように、室内に、発話者判定装置200、撮像装置160及びマイク装置270が配置されている。
実施の形態2における撮像装置160は、実施の形態1における撮像装置160と同様である。FIG. 7 is a schematic view showing an arrangement example of the
As shown in FIG. 7, a
The
マイク装置270は、発話者の音声を収集する装置である。マイク装置270は、1つのマイクを備えていてもよく、複数のマイクを組み合わせたアレイマイクを備えていてもよい。マイク装置270は、発話者判定装置200に接続され、発話者判定装置200からの制御を受けるとともに、収集された音声を示す音声信号を発話者判定装置200に与える。
The
図6に戻り、音声認識部240は、マイク装置270より入力される音声信号で示される音声を認識する。例えば、音声認識部240は、マイク装置270から入力される音声信号で示される音声を自然言語化することで、認識する。音声認識部240は、認識された音声を示す音声情報を発話者判定部230に与える。
Returning to FIG. 6, the
発話者判定部230は、顔検出部110から与えられる位置情報で示される、顔画像が検出された位置と、開口度算出部128から与えられる開口度情報で示される、算出された顔毎の開口度と、から、音声認識部240から与えられる音声情報で示される音声を発した対象者を判定する。
The
例えば、室内に3名の対象者がいるものとして説明する。3名の対象者を、対象者A、対象者B及び対象者Cとする。
発話者判定部230には、開口度が0%の場合は、無言、開口度が30%の場合は、母音が「オ」の音、開口度が70%の場合は、母音が「ア」の音といったように、開口度に応じて、母音を示す判定ルールが予め定められている。For example, it is assumed that there are three subjects in the room. The three subjects are subject A, subject B, and subject C.
The
このため、発話者判定部230は、位置情報及び開口度情報により、対象者Aの開口度が0%、対象者Bの開口度が30%、及び、対象者Cの開口度が70%であると判定した場合、対象者Aは、無言、対象者Bは、音声情報で示される、母音が「オ」の音声、対象者Cは、音声情報で示される、母音が「ア」の音声を発していると判定することができる。
以上により、音声情報で示される音声を、複数の発話者の何れかに割り当てることができる。Therefore, in the
As described above, the voice indicated by the voice information can be assigned to any of the plurality of speakers.
実施の形態2における発話者判定装置200も、実施の形態1と同様に、図4に示されているような、ハードウェアにより構成することができる。例えば、音声認識部240も、CPU11がプログラムを実行することで実現することができる。なお、音声認識部240は、図示されていない処理回路で実現することもできる。
なお、実施の形態2では、I/F14は、マイク装置170から音声信号を入力する入力部としても機能する。The
In the second embodiment, the I /
図8は、実施の形態2に係る情報処理方法である発話者判定方法を示すフローチャートである。
なお、図8に示されているステップの内、図5に示されているステップと同様のステップについては、図5と同様の符号を付し、詳細な説明を省略する。FIG. 8 is a flowchart showing a speaker determination method, which is an information processing method according to the second embodiment.
Of the steps shown in FIG. 8, the same steps as those shown in FIG. 5 are designated by the same reference numerals as those in FIG. 5, and detailed description thereof will be omitted.
図8のステップS10~S18までの処理については、図5のステップS10~S18までの処理と同様である。但し、ステップS18の処理の後は、処理はステップS22に進む。 The processing of steps S10 to S18 in FIG. 8 is the same as the processing of steps S10 to S18 of FIG. However, after the process of step S18, the process proceeds to step S22.
ステップS10~S18での処理とは別に、音声認識部240は、マイク装置270から、例えば、室内の対象者の音声を示す音声信号を取得する(S20)。音声を取得する場所は、車内又は屋外等、特に限定しない。
Apart from the processing in steps S10 to S18, the
次に、音声認識部240は、ステップS20で取得された音声信号で示される音声の認識処理を実施する(S21)。そして、処理はステップS22に進む。
Next, the
なお、音声認識方法は、例えば、古くから研究されている確率モデルとして隠れマルコフモデルを導入したものでもよく、リカレントニューラルネットワークを使用した手法でもよい。
隠れマルコフモデルは、時系列的に変動するデータを確率的なモデルで表現したものである。また、リカレントニューラルネットワークは、既存のニューラルネットワークを前後の時系列情報まで扱えるように拡張したネットワークを指す。連続的な情報を利用できる点で自然言語処理の分野に向いているとされている。The speech recognition method may be, for example, a method in which a hidden Markov model is introduced as a stochastic model that has been studied for a long time, or a method using a recurrent neural network.
The hidden Markov model is a probabilistic model of data that fluctuates over time. In addition, the recurrent neural network refers to a network that is an extension of an existing neural network so that it can handle time-series information before and after. It is said to be suitable for the field of natural language processing in that continuous information can be used.
ステップS22では、発話者判定部230は、ステップS11で顔画像が検出された位置と、顔画像毎にステップS18で算出された開口度とから、ステップS21で認識された音声を発した対象者を判定する。
In step S22, the
以上のように、実施の形態2によれば、音声認識処理により認識された音声が誰の発話かを判定することができる。具体的には、複数の対象者が同時に音声コマンドを入力した場合、それらを聞き分けてそれぞれ対象の人物に適応することができる。 As described above, according to the second embodiment, it is possible to determine who is speaking the voice recognized by the voice recognition process. Specifically, when a plurality of target persons input voice commands at the same time, they can be distinguished and adapted to each target person.
以上に記載された実施の形態1では、発話者判定部130から判定結果をマイク装置170に送り、マイク装置170が判定結果に応じて、マイク装置170がマイクの制御を行っているが、実施の形態1は、このような例に限定されない。例えば、発話者判定部130は、判定結果に従って、マイクを制御するためのコマンドをマイク装置170に送り、このようなコマンドに応じて、マイク装置170がマイクの制御を行ってもよい。
In the first embodiment described above, the
100,200 発話者判定装置、 110 顔検出部、 120 開口度取得部、 122 唇検出部、 123 開口幅算出部、 125 目検出部、 126 鼻検出部、 127 鼻長算出部、 128 開口度算出部、 130,230 発話者判定部、 240 音声認識部、 160 撮像装置、 170,270 マイク装置。 100,200 Speaker determination device, 110 face detection unit, 120 opening degree acquisition unit, 122 lip detection unit, 123 opening width calculation unit, 125th eye detection unit, 126 nose detection unit, 127 nose length calculation unit, 128 opening degree calculation unit Unit, 130, 230 speaker determination unit, 240 voice recognition unit, 160 image pickup device, 170, 270 microphone device.
Claims (10)
前記顔画像から、前記人の唇の上下方向における開口幅を取得する開口幅取得部と、
前記顔画像から、前記人の左右の目の中点と鼻の下端点との距離である鼻の長さを取得する鼻長取得部と、
前記鼻の長さに対する、前記開口幅の相対的な長さを示す開口度を算出する開口度算出部と、を備えること
を特徴とする情報処理装置。 A face detection unit that detects a face image, which is a part corresponding to a human face, from an image shown by image data, and a face detection unit.
An opening width acquisition unit that acquires an opening width in the vertical direction of the person's lips from the face image,
A nose length acquisition unit that acquires the length of the nose, which is the distance between the midpoint of the left and right eyes of the person and the lower end point of the nose, from the face image.
An information processing apparatus comprising: an opening degree calculation unit for calculating an opening degree indicating a relative length of the opening width with respect to the length of the nose.
を特徴とする請求項1に記載の情報処理装置。 The opening width acquisition portion detects the inner lower end point of the upper lip on the lips and the inner upper end point of the lower lip on the lips from the face image, and the distance between the lower end point and the upper end point. The information processing apparatus according to claim 1, wherein the opening width is set to.
を特徴とする請求項1又は2に記載の情報処理装置。 From the face image, the nose length acquisition portion is a right end point which is an end point corresponding to the outer corner or the inner corner of the right eye of the person and a left end point which is an end point corresponding to the outer corner or the inner corner of the left eye of the person. Is detected, the midpoint between the right end point and the left end point is specified, the lower end point of the nose is detected from the face image, and the middle point between the middle point and the lower end point of the nose is detected. The information processing apparatus according to claim 1 or 2, wherein the distance is calculated to obtain the length of the nose.
を特徴とする請求項1から3の何れか一項に記載の情報処理装置。 The information processing apparatus according to any one of claims 1 to 3, wherein the opening degree calculation unit calculates the opening degree by dividing the opening width by the length of the nose.
を特徴とする請求項1から4の何れか一項に記載の情報処理装置。 The information processing apparatus according to any one of claims 1 to 4, further comprising a speaker determination unit that determines whether or not the person is speaking using the opening degree.
前記開口幅取得部は、前記複数の顔画像から、複数の前記開口幅を取得し、
前記鼻長取得部は、前記複数の顔画像から、複数の前記鼻の長さを取得し、
前記開口度算出部は、前記複数の人の各々に各々が対応する複数の前記開口度を算出すること
を特徴とする請求項1から4の何れか一項に記載の情報処理装置。 The face detection unit detects the face image corresponding to the face of each of the plurality of persons from the image, thereby displaying the plurality of face images corresponding to each face of the plurality of persons. Detect and
The opening width acquisition unit acquires a plurality of the opening widths from the plurality of face images, and obtains the plurality of opening widths.
The nose length acquisition unit acquires a plurality of the nose lengths from the plurality of facial images, and obtains the plurality of nose lengths.
The information processing apparatus according to any one of claims 1 to 4, wherein the opening degree calculation unit calculates a plurality of opening degrees corresponding to each of the plurality of people.
を特徴とする請求項6に記載の情報処理装置。 The information processing apparatus according to claim 6, further comprising a speaker determination unit that determines whether or not each of the plurality of people is speaking using the plurality of openings.
を特徴とする請求項5又は7に記載の情報処理装置。 The information processing device according to claim 5 or 7, wherein the speaker determination unit controls a microphone device that collects voice from the person according to the result of the determination.
前記複数の開口度から、前記複数の人から、前記認識された音声を発した人を判定する発話者判定部と、をさらに備えること
を特徴とする請求項6に記載の情報処理装置。 A voice recognition unit that recognizes the voice indicated by the voice signal,
The information processing apparatus according to claim 6, further comprising a speaker determination unit that determines a person who has emitted the recognized voice from the plurality of persons from the plurality of openings.
前記顔画像から、前記人の唇の上下方向における開口幅を取得し、
前記顔画像から、前記人の左右の目の中点と鼻の下端点との距離である鼻の長さを取得し、
前記鼻の長さに対する、前記開口幅の相対的な長さを示す開口度を算出すること
を特徴とする情報処理方法。 From the image shown in the image data, the face image, which is the part corresponding to the human face, is detected.
From the face image, the opening width in the vertical direction of the person's lips is obtained.
From the face image, the length of the nose, which is the distance between the midpoint of the left and right eyes of the person and the lower end of the nose, is obtained.
An information processing method comprising calculating an opening degree indicating a relative length of the opening width with respect to the length of the nose.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/035339 WO2020065706A1 (en) | 2018-09-25 | 2018-09-25 | Information processing device and information processing method |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020065706A1 JPWO2020065706A1 (en) | 2021-04-30 |
JP7026812B2 true JP7026812B2 (en) | 2022-02-28 |
Family
ID=69952544
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020547621A Active JP7026812B2 (en) | 2018-09-25 | 2018-09-25 | Information processing equipment and information processing method |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP7026812B2 (en) |
DE (1) | DE112018008012T5 (en) |
WO (1) | WO2020065706A1 (en) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000175170A (en) | 1998-12-04 | 2000-06-23 | Nec Corp | Multi-point video conference system and its communication method |
JP2009118434A (en) | 2007-11-09 | 2009-05-28 | Sanyo Electric Co Ltd | Blurring correction device and imaging apparatus |
JP2010251841A (en) | 2009-04-10 | 2010-11-04 | Nikon Corp | Image extraction program and image extraction device |
JP5197557B2 (en) | 2009-12-10 | 2013-05-15 | ドギーマンハヤシ株式会社 | Pet cooling mat |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05197557A (en) * | 1991-09-06 | 1993-08-06 | Nippon Telegr & Teleph Corp <Ntt> | Operation assistance method of interactive system |
JP3430944B2 (en) * | 1997-12-15 | 2003-07-28 | 花王株式会社 | Impression evaluation method |
-
2018
- 2018-09-25 DE DE112018008012.9T patent/DE112018008012T5/en active Pending
- 2018-09-25 WO PCT/JP2018/035339 patent/WO2020065706A1/en active Application Filing
- 2018-09-25 JP JP2020547621A patent/JP7026812B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000175170A (en) | 1998-12-04 | 2000-06-23 | Nec Corp | Multi-point video conference system and its communication method |
JP2009118434A (en) | 2007-11-09 | 2009-05-28 | Sanyo Electric Co Ltd | Blurring correction device and imaging apparatus |
JP2010251841A (en) | 2009-04-10 | 2010-11-04 | Nikon Corp | Image extraction program and image extraction device |
JP5197557B2 (en) | 2009-12-10 | 2013-05-15 | ドギーマンハヤシ株式会社 | Pet cooling mat |
Non-Patent Citations (1)
Title |
---|
長野信男, 外2名,"顔特徴を用いた表情の認識",電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,2003年06月06日,第103巻, 第115号,p.61-66 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2020065706A1 (en) | 2021-04-30 |
WO2020065706A1 (en) | 2020-04-02 |
DE112018008012T5 (en) | 2021-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106653041B (en) | Audio signal processing apparatus, method and electronic apparatus | |
JP4847022B2 (en) | Utterance content recognition device | |
JP7233035B2 (en) | SOUND COLLECTION DEVICE, SOUND COLLECTION METHOD, AND PROGRAM | |
US20110071830A1 (en) | Combined lip reading and voice recognition multimodal interface system | |
JP6705656B2 (en) | Visual aids and object classification detection methods | |
KR20100086262A (en) | Robot and control method thereof | |
Scanlon et al. | Feature analysis for automatic speechreading | |
CN111386531A (en) | Multi-mode emotion recognition apparatus and method using artificial intelligence, and storage medium | |
CN108665907B (en) | Voice recognition device, voice recognition method, recording medium, and robot | |
WO2022001347A1 (en) | In-vehicle voice instruction control method, and related device | |
US20140222425A1 (en) | Speech recognition learning method using 3d geometric information and speech recognition method using 3d geometric information | |
US10964326B2 (en) | System and method for audio-visual speech recognition | |
JP2006251266A (en) | Audio-visual coordinated recognition method and device | |
US9355641B2 (en) | Monitoring device using selective attention model and method for monitoring same | |
KR20120091625A (en) | Speech recognition device and speech recognition method using 3d real-time lip feature point based on stereo camera | |
US20100217435A1 (en) | Audio signal processing system and autonomous robot having such system | |
JP7026812B2 (en) | Information processing equipment and information processing method | |
KR20210039583A (en) | Method and Apparatus for Distinguishing User based on Multimodal | |
KR101353936B1 (en) | Speech recognition apparatus and method for speech recognition | |
JP2003122394A (en) | Method and device for recognizing discrimination object and robot mounted with the same device | |
KR20060044008A (en) | A voice recognition apparatus for a number of speaker division | |
US9082002B2 (en) | Detection device and detection method | |
JP5465166B2 (en) | Utterance content recognition device and utterance content recognition method | |
KR101507507B1 (en) | System and method for processing object using stereo camera | |
JP6174114B2 (en) | Voice input device and image display device provided with the voice input device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201022 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211109 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20211112 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211228 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220118 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220215 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7026812 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |