JP7036046B2 - Information processing equipment, information processing methods, and information processing programs - Google Patents
Information processing equipment, information processing methods, and information processing programs Download PDFInfo
- Publication number
- JP7036046B2 JP7036046B2 JP2019005363A JP2019005363A JP7036046B2 JP 7036046 B2 JP7036046 B2 JP 7036046B2 JP 2019005363 A JP2019005363 A JP 2019005363A JP 2019005363 A JP2019005363 A JP 2019005363A JP 7036046 B2 JP7036046 B2 JP 7036046B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- participant
- utterance
- relationship
- facial expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 70
- 238000003672 processing method Methods 0.000 title claims description 5
- 230000008921 facial expression Effects 0.000 claims description 260
- 230000008859 change Effects 0.000 claims description 12
- 230000002123 temporal effect Effects 0.000 claims description 12
- 230000001815 facial effect Effects 0.000 claims description 10
- 238000004891 communication Methods 0.000 description 27
- 238000000034 method Methods 0.000 description 24
- 238000012545 processing Methods 0.000 description 17
- 230000008451 emotion Effects 0.000 description 13
- 239000013604 expression vector Substances 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 230000036544 posture Effects 0.000 description 10
- 230000007613 environmental effect Effects 0.000 description 8
- 239000000284 extract Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000002996 emotional effect Effects 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 6
- 238000003384 imaging method Methods 0.000 description 5
- CURLTUGMZLYLDI-UHFFFAOYSA-N Carbon dioxide Chemical compound O=C=O CURLTUGMZLYLDI-UHFFFAOYSA-N 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 229910002092 carbon dioxide Inorganic materials 0.000 description 2
- 239000001569 carbon dioxide Substances 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000009223 counseling Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 230000000704 physical effect Effects 0.000 description 2
- 230000029058 respiratory gaseous exchange Effects 0.000 description 2
- 230000001568 sexual effect Effects 0.000 description 2
- 241000287531 Psittacidae Species 0.000 description 1
- 241000287530 Psittaciformes Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000011514 reflex Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Tourism & Hospitality (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Description
本発明は、情報処理装置、情報処理方法、及び情報処理プログラムに関する。 The present invention relates to an information processing apparatus, an information processing method, and an information processing program.
ユーザ間の円滑なコミュニケーションを支援するサービスが従来技術として知られている。特許文献1には、コールセンターのオペレータと顧客との会話における音声に基づいて感情を認識し、音声と感情とを組み合わせて音声分析することで、オペレータのパフォーマンスを評価する電話音声モニタリング評価システムが記載されている。特許文献2には、ユーザが入力したチャット文が示す感情を認識し、ユーザ間の感情の類似度を求める感情マッチング装置が記載されている。
A service that supports smooth communication between users is known as a conventional technique.
しかしながら、上述のような従来技術は、会話における音声のみに基づいて、又は、入力されたチャット文のみに基づいて、話者の感情を認識するため、多面的な感情認識ができないという問題がある。 However, the conventional technique as described above has a problem that multifaceted emotion recognition cannot be performed because the speaker's emotion is recognized only based on the voice in the conversation or based only on the input chat sentence. ..
本発明の一態様は、会話中の各ユーザの感情を多面的に認識し、認識された感情に基づく会話の評価を通知するコミュニケーション支援技術を提供することを目的とする。 One aspect of the present invention is to provide a communication support technique for recognizing the emotions of each user during a conversation from various aspects and notifying the evaluation of the conversation based on the recognized emotions.
前記の課題を解決するために、本発明の一態様に係る情報処理装置は、複数の参加者のうち第1の参加者の表情に関する第1の表情情報と、前記複数の参加者のうち第2の参加者の表情に関する第2の表情情報とを取得する表情情報取得部と、当該第1の参加者の発話に関する第1の発話情報と、前記複数の参加者のうち第2の参加者の発話に関する第2の発話情報とを取得する音声情報取得部と、前記第1の表情情報と前記第2の表情情報とを参照して、前記第1の参加者と前記第2の参加者との表情に関する関係性を示す表情関係性情報を生成する表情関係性情報生成部と、前記第1の発話情報と前記第2の発話情報とを参照して、前記第1の参加者と前記第2の参加者との発話に関する関係性を示す発話関係性情報を生成する発話関係性情報生成部と、前記表情関係性情報と前記発話関係性情報とを参照して前記第1の参加者と前記第2の参加者との関係を示す情報である関係性情報を生成する関係性情報生成部と、を備えていることを特徴としている。 In order to solve the above-mentioned problems, the information processing apparatus according to one aspect of the present invention includes the first facial expression information regarding the facial expressions of the first participant among the plurality of participants and the first among the plurality of participants. The facial expression information acquisition unit that acquires the second facial expression information regarding the facial expressions of the second participant, the first speech information regarding the speech of the first participant, and the second participant among the plurality of participants. The first participant and the second participant with reference to the voice information acquisition unit that acquires the second utterance information related to the utterance, the first facial information, and the second facial information. With reference to the facial relationship information generation unit that generates facial relationship information indicating the relationship between the first and the first spoken information and the second spoken information, the first participant and the said first participant. The first participant refers to the utterance relationship information generation unit that generates utterance relationship information indicating the relationship with the second participant, and the facial expression relationship information and the utterance relationship information. It is characterized by including a relationship information generation unit that generates relationship information, which is information indicating the relationship between the second participant and the second participant.
これによれば、各参加者の音声情報及び表情情報の両方に基づいて、会議中の参加者間の関係性を評価することができる。 According to this, it is possible to evaluate the relationship between the participants during the meeting based on both the voice information and the facial expression information of each participant.
前記一態様に係る情報処理装置において、前記関係性情報は、前記第1の参加者と前記第2の参加者との関係を示すリアルタイム又は経時的な情報である。 In the information processing apparatus according to the one aspect, the relationship information is real-time or temporal information indicating the relationship between the first participant and the second participant.
これによれば、各参加者の音声情報及び表情情報の両方に基づいて、会議中の参加者間の関係性をリアルタイムで評価することができる。 According to this, it is possible to evaluate the relationship between the participants during the meeting in real time based on both the voice information and the facial expression information of each participant.
前記一態様に係る情報処理装置において、前記第1の表情情報には、前記第1の参加者の表情を表現する複数の第1の指標が含まれており、前記第2の表情情報には、前記第2の参加者の表情を表現する複数の第2の指標が含まれており、前記表情関係性情報生成部は、前記第1の指標と前記第2の指標との差に関する表情差分情報を生成し、生成した表情差分情報を、前記表情関係性情報に含める。 In the information processing apparatus according to the one aspect, the first facial expression information includes a plurality of first indexes expressing the facial expressions of the first participant, and the second facial expression information includes a plurality of first indexes. , A plurality of second indexes expressing the facial expressions of the second participant are included, and the facial expression relationship information generation unit uses the facial expression difference regarding the difference between the first index and the second index. Information is generated, and the generated facial expression difference information is included in the facial expression relationship information.
これによれば、表情関係性情報を生成するために参照する参加者の表情を表現するために複数の指標を用いるため、より正確に参加者の表情を表現することができる。 According to this, since a plurality of indexes are used to express the facial expressions of the participants referred to for generating the facial expression relationship information, the facial expressions of the participants can be expressed more accurately.
前記一態様に係る情報処理装置において、前記第1の表情情報には、前記第1の参加者の視線方向に関する第1の視線情報が含まれており、前記第2の表情情報には、前記第2の参加者の視線方向に関する第2の視線情報が含まれており、前記表情関係性情報生成部は、前記第1の視線情報と前記第2の視線情報とを参照して視線関係性情報を生成し、生成した視線関係性情報を、前記表情関係性情報に含める。 In the information processing apparatus according to the one aspect, the first facial expression information includes the first line-of-sight information regarding the line-of-sight direction of the first participant, and the second facial expression information includes the above-mentioned second facial expression information. The second line-of-sight information regarding the line-of-sight direction of the second participant is included, and the facial expression relationship information generation unit refers to the first line-of-sight information and the second line-of-sight information to form a line-of-sight relationship. Information is generated, and the generated line-of-sight relationship information is included in the facial expression relationship information.
これによれば、表情関係性情報を生成するために参照する参加者の表情情報に参加者の視線情報も含むため、より正確に参加者の表情を表現することができる。 According to this, since the facial expression information of the participant referred to for generating the facial expression relationship information includes the line-of-sight information of the participant, the facial expression of the participant can be expressed more accurately.
前記一態様に係る情報処理装置において、前記発話関係性情報生成部は、前記第1の発話情報が示す前記第1の参加者の発話時間と、前記第2の発話情報が示す前記第2の参加者の発話時間との関係を示す発話時間関係性情報を生成し、生成した発話時間関係性情報を、前記発話関係性情報に含める。 In the information processing apparatus according to the one aspect, the utterance relationship information generation unit has the utterance time of the first participant indicated by the first utterance information and the second utterance information indicated by the second utterance information. The utterance time relationship information indicating the relationship with the utterance time of the participant is generated, and the generated utterance time relationship information is included in the utterance relationship information.
これによれば、発話関係性情報を生成するために参照する参加者の発話情報に発話時間関係性情報も含むため、より正確に参加者の発話関係性情報を生成することができる。 According to this, since the utterance time relationship information of the participant referred to for generating the utterance relationship information is also included, the utterance relationship information of the participant can be generated more accurately.
前記一態様に係る情報処理装置において、前記発話関係性情報生成部は、前記第1の発話情報及び前記第2の発話情報の少なくとも何れかに、特定のカテゴリーに含まれる発話内容が含まれているか否かを判定し、判定した結果に応じた情報を前記発話関係性情報に含める。 In the information processing apparatus according to the one aspect, the utterance relationship information generation unit includes, at least one of the first utterance information and the second utterance information, the utterance content included in a specific category. It is determined whether or not the information is present, and the information corresponding to the result of the determination is included in the utterance relationship information.
これによれば、発話関係性情報に特定のカテゴリーに含まれる発話内容が含まれているか否かの判定結果に応じた情報も含むため、より正確に参加者間の関係性情報を生成することができる。 According to this, since the utterance relationship information includes information according to the judgment result of whether or not the utterance content included in a specific category is included, the relationship information between the participants can be generated more accurately. Can be done.
前記一態様に係る情報処理装置において、前記発話関係性情報生成部は、前記第1の発話情報及び前記第2の発話情報の少なくとも何れかから、所定時間内において相対的に出現頻度の高い単語を抽出し、抽出した単語を前記発話関係性情報に含める。 In the information processing apparatus according to the one aspect, the utterance relationship information generation unit is a word having a relatively high frequency of appearance within a predetermined time from at least one of the first utterance information and the second utterance information. Is extracted, and the extracted words are included in the utterance relationship information.
これによれば、発話関係性情報に頻度の高い単語の上方も含むため、より正確に参加者間の関係性情報を生成することができる。 According to this, since the utterance relationship information includes the upper part of the frequently used word, the relationship information between the participants can be generated more accurately.
前記一態様に係る情報処理装置において、前記関係性情報生成部は、前記関係性情報を参照して、前記第1の参加者及び前記第2の参加者の少なくとも何れかに提示する提示情報を生成する。 In the information processing apparatus according to the one aspect, the relationship information generation unit refers to the relationship information and presents presentation information to at least one of the first participant and the second participant. Generate.
これによれば、提示情報を参加者に提示することで、関係性情報を参加者に認識させることができる。 According to this, by presenting the presented information to the participants, it is possible to make the participants recognize the relationship information.
前記提示情報には、前記第1の参加者の発話時間と、前記第2の参加者の発話時間との割合を示す情報、及び、前記第1の参加者の視線方向と、前記第2の参加者の視線方向との合致率の経時変化に関する情報が含まれている。 The presented information includes information indicating the ratio between the utterance time of the first participant and the utterance time of the second participant, the line-of-sight direction of the first participant, and the second. It contains information about the time course of the match rate with the participant's line-of-sight direction.
これによれば、提示情報を参加者に提示することで、各参加者の発話時間の割合、及び、各参加者の視線方向の合致率の経時変化を参加者に認識させることができる。 According to this, by presenting the presented information to the participants, it is possible to make the participants recognize the ratio of the utterance time of each participant and the change with time of the matching rate in the line-of-sight direction of each participant.
前記一態様に係る情報処理装置において、前記表情関係性情報生成部、及び前記発話関係性情報生成部は、前記第1及び第2の参加者の属性を示す参加者情報を更に参照して、前記表情関係性情報及び前記発話関係性情報を生成する。 In the information processing apparatus according to the one aspect, the facial expression relationship information generation unit and the utterance relationship information generation unit further refer to the participant information indicating the attributes of the first and second participants. The facial expression relationship information and the utterance relationship information are generated.
これによれば、表情関係性情報及び発話関係性情報の生成に参加者の属性も参照するので、より正確な表情関係性情報及び発話関係性情報を生成することができる。 According to this, since the attributes of the participants are also referred to in the generation of the facial expression relationship information and the utterance relationship information, more accurate facial expression relationship information and the utterance relationship information can be generated.
また、前記課題を解決するために、本発明の一態様に係る情報処理方法は、複数の参加者のうち第1の参加者の表情に関する第1の表情情報と、前記複数の参加者のうち第2の参加者の表情に関する第2の表情情報とを取得する表情情報取得ステップと、当該第1の参加者の発話に関する第1の発話情報と、前記複数の参加者のうち第2の参加者の発話に関する第2の発話情報とを取得する音声情報取得ステップと、前記第1の表情情報と前記第2の表情情報とを参照して、前記第1の参加者と前記第2の参加者との表情に関する関係性を示す表情関係性情報を生成する表情関係性情報生成ステップと、前記第1の発話情報と前記第2の発話情報とを参照して、前記第1の参加者と前記第2の参加者との発話に関する関係性を示す発話関係性情報を生成する発話関係性情報生成ステップと、前記表情関係性情報と前記発話関係性情報とを参照して前記第1の参加者と前記第2の参加者との関係を示すリアルタイム又は経時的な情報である関係性情報を生成する関係性情報生成ステップと、を含む、ことを特徴としている。 Further, in order to solve the above-mentioned problems, the information processing method according to one aspect of the present invention includes the first facial expression information regarding the facial expressions of the first participant among the plurality of participants and the first facial expression information regarding the facial expressions of the first participant among the plurality of participants. The facial information acquisition step for acquiring the second facial information regarding the facial expressions of the second participant, the first utterance information regarding the utterance of the first participant, and the second participation among the plurality of participants. The first participant and the second participation with reference to the voice information acquisition step of acquiring the second utterance information regarding the utterance of the person and the first facial information and the second facial information. With reference to the first utterance information and the second utterance information, and the first participant The first participation with reference to the utterance relationship information generation step for generating the utterance relationship information indicating the utterance relationship information with the second participant, and the facial expression relationship information and the utterance relationship information. It is characterized by including a relationship information generation step of generating relationship information, which is real-time or temporal information indicating the relationship between the person and the second participant.
これによれば、各参加者の音声情報及び表情情報に基づいて、会議中の参加者間の関係性を評価することができる。 According to this, it is possible to evaluate the relationship between the participants during the meeting based on the voice information and the facial expression information of each participant.
また、前記課題を解決するために、本発明の一態様に係る情報処理プログラムは、前記何れかに記載の情報処理装置としてコンピュータを機能させるための情報処理プログラムであって、前記表情情報取得部、前記音声情報取得部、前記表情関係性情報生成部、前記発話関係性情報生成部、及び前記関係性情報生成部としてコンピュータを機能させる。 Further, in order to solve the above-mentioned problems, the information processing program according to one aspect of the present invention is an information processing program for operating a computer as the information processing device according to any one of the above, and is the facial expression information acquisition unit. The computer functions as the voice information acquisition unit, the facial expression relationship information generation unit, the speech relationship information generation unit, and the relationship information generation unit.
これによれば、各参加者の音声情報及び表情情報に基づいて、会議中の参加者間の関係性を評価することができる。 According to this, it is possible to evaluate the relationship between the participants during the meeting based on the voice information and the facial expression information of each participant.
本発明の一態様によれば、各参加者の音声情報及び表情情報に基づいて、会議中の参加者間の関係性を評価することができる。 According to one aspect of the present invention, the relationship between the participants during the meeting can be evaluated based on the voice information and the facial expression information of each participant.
[実施形態1]
以下、本発明の一実施形態について、詳細に説明する。図1は、本実施形態の情報処理装置10を含む情報処理システム100の概要を示す図である。図1に示すように、情報処理システム100は、情報処理装置10、第1の端末装置20、及び第2の端末装置30を備えている。なお端末装置の数は、本実施形態を限定するものではなく、3以上であってもよい。
[Embodiment 1]
Hereinafter, one embodiment of the present invention will be described in detail. FIG. 1 is a diagram showing an outline of an
図2は、本発明の一実施形態に係る情報処理装置10を含む情報処理システム100の概要を示す図である。情報処理システム100においては、図2に示すように、第1の端末装置20を使用する第1の参加者200と、第2の端末装置30を使用する第2の参加者201との間の関係性を評価する。
FIG. 2 is a diagram showing an outline of an
情報処理システム100においては、第1の端末装置20及び第2の端末装置30から得られる第1の参加者200及び第2の参加者201の会議中の表情情報及び発話情報を元に、情報処理装置10が第1の参加者200と第2の参加者201との会議中の関係性を評価する。情報処理システム100は、関係性を評価した結果を、第1の端末装置20及び第2の端末装置30の少なくとも一方に表示させることで、第1の参加者200及び第2の参加者201の少なくとも一方に評価結果をリアルタイムでフィードバックし、会議中のコミュニケーション状態の改善を促す。
In the
なお、本実実施形態において、「会議」とは、狭義の意味の会議に限定されるものではなく、面談、面接、カウンセリング、問診、接客、接見、相談等が含まれる。一例として、
・上司と部下との面談
・医師による患者への問診
・カウンセラーによる対象者へのカウンセリング
・客に対する店員の接客や窓口相談
・Web Meeting等の遠隔でのコミュニケーション
・e-Learning等の対ビデオ画像に対するコミュニケーション
等が含まれる。
In the present embodiment, the “meeting” is not limited to a meeting in a narrow sense, but includes interviews, interviews, counseling, interviews, customer service, interviews, consultations, and the like. As an example,
・ Interviews between superiors and subordinates ・ Interviews with patients by doctors ・ Counseling with target persons by counselors ・ Customer service and counter consultation for customers ・ Remote communication such as Web Meeting ・ For video images such as e-Learning Communication etc. are included.
また、図3は、情報処理システム100におけるデータの流れの概要を示す図である。
Further, FIG. 3 is a diagram showing an outline of the data flow in the
〔第1の端末装置20〕
図1に示すように、第1の端末装置20は、カメラ21、マイク22、表示部23、制御部24、スピーカ25、及び通信部26を備えている。
[First terminal device 20]
As shown in FIG. 1, the first
<動画取得処理>
カメラ21は、第1の参加者を撮像し、撮像画像を制御部24に供給する。ここで、カメラ21による撮像画像は、動画像であることが好ましく、当該構成の場合、図3に示すように、カメラ21は、制御部24に対して、動画ファイル、及び動画ファイルに含まれる各画像のリストである動画ファイルリストの少なくとも何れかを供給する。カメラ21は、当該動画ファイルに含まれる各画像の撮像時刻を示すタイムスタンプを制御部24に供給する。
<Video acquisition process>
The
なお、第1の端末装置20は、複数のカメラを備える構成としてもよく、当該構成の場合、制御部24は、カメラデバイス識別情報を参照することによって、カメラ21を特定することができる。
The first
<画像認識処理>
制御部24は、カメラ21から供給される動画ファイル、動画ファイルリスト、及びタイムスタンプを参照して、画像認識処理を行う。
<Image recognition processing>
The
一例として、図3に示すように、制御部24は、動画ファイル、動画ファイルリスト、及びタイムスタンプを参照した画像認識処理を行うことによって、時系列表情値、時系列顔パーツ座標、時系列視線座標を算出する。時系列表情値、時系列顔パーツ座標、時系列視線座標は、第1の参加者の表情に関する第1の表情情報の一例である。
As an example, as shown in FIG. 3, the
<音声取得処理>
マイク22は、主として、第1の参加者の発話する音声を集音し、集音した音声を示す音声ファイル、及び、当該音声ファイルにおける発話の時点を特定するためのタイムスタンプを制御部24に供給する。
<Voice acquisition processing>
The
なお、第1の端末装置20は、複数のマイクを備える構成としてもよく、当該構成の場合、制御部24は、音声デバイス識別情報を参照することによって、マイク22を特定することができる。
The first
<発話認識処理>
制御部24は、マイク22から供給される音声ファイル及びタイムスタンプを参照して、発話認識処理を行う。
<Utterance recognition processing>
The
一例として、図3に示すように、制御部24は、音声ファイル、及びタイムスタンプを参照した発話認識処理を行うことによって、区間時系列テキストデータを生成する。ここで区間時系列テキストデータは、主として第1の参加者が発話した内容を時系列的にテキストデータとして示す情報である。当該区間時系列テキストデータは、第1の参加者の発話を示す第1の発話情報の一例である。
As an example, as shown in FIG. 3, the
〔第2の端末装置30〕
また、第2の端末装置30は、カメラ31、マイク32、表示部33、制御部34、スピーカ35、及び通信部36を備えている。
[Second terminal device 30]
The second
<動画取得処理>
カメラ31は、第2の参加者を撮像し、撮像画像を制御部34に供給する。ここで、カメラ31による撮像画像は、動画像であることが好ましく、当該構成の場合、図3に示すように、カメラ31は、制御部34に対して、動画ファイル、及び動画ファイルに含まれる各画像のリストである動画ファイルリストの少なくとも何れかを供給する。カメラ31は、当該動画ファイルに含まれる各画像の撮像時刻を示すタイムスタンプを制御部34に供給する。
<Video acquisition process>
The
なお、第2の端末装置30は、複数のカメラを備える構成としてもよく、当該構成の場合、制御部34は、カメラデバイス識別情報を参照することによって、カメラ31を特定することができる。
The second
<画像認識処理>
制御部34は、カメラ31から供給される動画ファイル、動画ファイルリスト、及びタイムスタンプを参照して、画像認識処理を行う。
<Image recognition processing>
The
一例として、図3に示すように、制御部34は、動画ファイル、動画ファイルリスト、及びタイムスタンプを参照した画像認識処理を行うことによって、時系列表情値、時系列顔パーツ座標、時系列視線座標を算出する。時系列表情値、時系列顔パーツ座標、時系列視線座標は、第2の参加者の表情に関する第2の表情情報の一例である。
As an example, as shown in FIG. 3, the
<音声取得処理>
マイク32は、主として、第2の参加者の発話する音声を集音し、集音した音声を示す音声ファイル、及び、当該音声ファイルにおける発話の時点を特定するためのタイムスタンプを制御部34に供給する。
<Voice acquisition processing>
The
なお、第2の端末装置30は、複数のマイクを備える構成としてもよく、当該構成の場合、制御部34は、音声デバイス識別情報を参照することによって、マイク32を特定することができる。
The second
<発話認識処理>
制御部34は、マイク32から供給される音声ファイル及びタイムスタンプを参照して、発話認識処理を行う。
<Utterance recognition processing>
The
一例として、図3に示すように、制御部34は、音声ファイル、及びタイムスタンプを参照した発話認識処理を行うことによって、区間時系列テキストデータを生成する。ここで区間時系列テキストデータは、主として第2の参加者が発話した内容を時系列的にテキストデータとして示す情報である。当該区間時系列テキストデータは、第2の参加者の発話を示す第2の発話情報の一例である。
As an example, as shown in FIG. 3, the
〔情報処理装置10〕
情報処理装置10は、表情情報取得部13、音声情報取得部14、表情関係性情報生成部15、発話関係性情報生成部16、及び関係性情報生成部17を備えている。情報処理装置10は、さらに、通信部11を備えている。表情情報取得部13、音声情報取得部14、表情関係性情報生成部15、発話関係性情報生成部16、関係性情報生成部17は、演算部12が備えている。
[Information processing device 10]
The
(表情情報取得部13)
表情情報取得部13は、通信部11を介して複数の会議参加者のうち第1の参加者の表情に関する第1の表情情報と、複数の会議参加者のうち第2の参加者の表情に関する第2の表情情報とを取得する。
(Facial expression information acquisition unit 13)
The facial expression
<数値データ洗浄処理>
表情情報取得部13は、一例として、通信部11を介して、第1の参加者に関する表情情報に含まれる時系列数値データである時系列表情値、時系列顔パーツ座標、及び時系列視線座標を参照し、当該時系列数値データに対して、一例として以下の処理を行うことによって、数値データ洗浄処理を行う。
・無効データ区間を削除する
・有効データ区間におけるデータを平均する
・分散及び項数に変換する
表情情報取得部13は、上述の数値データ洗浄処理を行うことによって、第1の参加者に関する区間時系列数値データを生成する。当該区間時系列数値データは、有効区間における時系列表情値、時系列顔パーツ座標、及び時系列視線座標を含んでいる。
<Numerical data cleaning process>
As an example, the facial expression
-Delete the invalid data section-Average the data in the valid data section-Convert to the distribution and the number of terms The facial expression
表情情報取得部13は、第2の参加者に関する表情情報についても同様の処理を行い、第2の参加者に関する区間時系列数値データを生成する。
The facial expression
<表情の検出>
表情情報取得部13は、第1の参加者に関する区間時系列数値データを参照して、第1の参加者の表情を表現する複数の第1の指標を算出する。また、表情情報取得部13は、第2の参加者に関する区間時系列数値データを参照して、第2の参加者の表情を表現する複数の第2の指標を算出する。
<Facial expression detection>
The facial expression
ここで、表情を表現する指標の例には、以下の指標が挙げられる。
・怒り(anger)
・侮辱(contempt)
・嫌悪(disgust)
・恐怖(fear)
・喜び(happiness)
・中立(neutral)
・悲しみ(sadness)
・驚き(surprise)
したがって、表情を表現する指標とは、当該表情が示す感情を表現する指標ということもできる。
Here, as an example of the index expressing the facial expression, the following index can be mentioned.
・ Anger
・ Insult (contempt)
・ Disgust
・ Fear
・ Happiness
・ Neutral
・ Sadness
・ Surprise
Therefore, the index expressing the facial expression can also be said to be an index expressing the emotion indicated by the facial expression.
なお、表情情報取得部13は、第1の参加者に関する区間時系列数値データに含まれる時系列表情値を、そのまま第1の参加者の表情を表現する複数の第1の指標として用いてもよい。同様に、表情情報取得部13は、第2の参加者に関する区間時系列数値データに含まれる時系列表情値を、そのまま第2の参加者の表情を表現する複数の第2の指標として用いてもよい。
The facial expression
また、第1の参加者の表情及び第2の参加者の表情は、上記の指標を各成分とするベクトルとして表現することもできる。こられのベクトルを、表情ベクトルと呼ぶこともある。 Further, the facial expressions of the first participant and the facial expressions of the second participant can also be expressed as a vector having the above index as each component. These vectors are sometimes called facial expression vectors.
なお、各参加者の表情を検出する技術及び検出した表情が示す感情を指標化して表現する技術は、本実施形態を限定するものではなく、例えば、公知の技術を用いることができる。 The technique for detecting the facial expressions of each participant and the technique for indexing and expressing the emotions indicated by the detected facial expressions are not limited to the present embodiment, and for example, known techniques can be used.
<視線の検出>
また、表情情報取得部13は、通信部11を介して、第1の端末装置20及び第2の端末装置30から、第1の参加者及び第2の参加者の視線方向に関する情報を取得する。具体的には、一例として、表情情報取得部13は、第1の参加者の視線方向に関する情報として、上述した第1の参加者に関する区間時系列数値データに含まれる時系列視線座標を取得する。同様に、表情情報取得部13は、第2の参加者の視線方向に関する情報として、上述した第2の参加者に関する区間時系列数値データに含まれる時系列視線座標を取得する。
<Detection of line of sight>
Further, the facial expression
なお、視線座標の取得方法としては、特に限定されないが、第1の端末装置20及び第2の端末装置30に、点光源(不図示)を設け、点光源からの光の角膜反射像をカメラ21及びカメラ31で所定時間撮影することにより、ユーザの視線座標を取得する方法が挙げられる。点光源の種類は特に限定されず、可視光、赤外光が挙げられるが、例えば赤外線LEDを用いることで、ユーザに不快感を与えることなく、視線座標を取得することができる。
The method of acquiring the line-of-sight coordinates is not particularly limited, but a point light source (not shown) is provided in the first
<距離の検出>
また、表情情報取得部13は、当該区間時系列数値データに含まれる第1の参加者の時系列顔パーツ座標を取得し、第1の参加者と撮像手段(カメラ21)との間の距離を算出してもよい。また、表情情報取得部13は、当該区間時系列数値データに含まれる第2の参加者の時系列顔パーツ座標を取得し、第2の参加者と撮像手段(カメラ31)との間の距離を算出してもよい。参加者と撮像手段との間の距離は、例えば、顔パーツ座標から得られる撮像画像中の顔の目尻距離を顔角度補正したものを目尻距離とし、この目尻距離の逆数として算出することができる。
<Distance detection>
Further, the facial expression
(音声情報取得部14)
音声情報取得部14は、第1の参加者の発話に関する第1の発話情報と、複数の会議参加者のうち第2の参加者の発話に関する第2の発話情報とを取得する。すなわち、音声情報取得部14は、通信部11を介して、第1の端末装置20及び第2の端末装置30から第1の参加者及び第2の参加者の発話に関する情報を取得する。
(Voice information acquisition unit 14)
The voice
音声情報取得部14は、一例として、上述した第1の参加者に関する区間時系列テキストデータに含まれる時系列発話テキストを取得する。同様に、音声情報取得部14は、一例として、上述した第2の参加者に関する区間時系列テキストデータに含まれる時系列発話テキストを取得する。
As an example, the voice
また、一例として、音声情報取得部14は、第1の参加者に関する時系列発話テキストと、当該時系列発話テキストの発話の時点における時系列顔パーツ座標を取得する。音声情報取得部14は、時系列顔パーツ座標を参照して、時系列発話テキストの発話の時点において第1の参加者の口が開いていれば、当該時系列発話テキストを第1の参加者の発話に関する第1の発話情報に含める。同様に、音声情報取得部14は、第2の参加者に関する時系列発話テキストと、当該時系列発話テキストの発話の時点における時系列顔パーツ座標を取得する。音声情報取得部14は、時系列顔パーツ座標を参照して、時系列発話テキストの発話の時点において第2の参加者の口が開いていれば、当該時系列発話テキストを第2の参加者の発話に関する第2の発話情報に含める。これにより、マイク22又はマイク32として、指向性の無い簡易なマイクを用いた場合でも、発話した人物を特定できる。
Further, as an example, the voice
(表情関係性情報生成部15)
表情関係性情報生成部15は、第1の表情情報と第2の表情情報とを参照して、第1の参加者と第2の参加者との表情に関する関係性を示す表情関係性情報を生成する。
(Facial expression relationship information generation unit 15)
The facial expression relationship
会議参加者の会議に対する満足度は、会議の内容及び結論のみならず、参加者間の良好なコミュニケーションの有無にも依存する。参加者間のコミュニケーション状態は、会議中の参加者間の関係性により表され、参加者間の関係性は感情の一致度により評価することができる。表情関係性情報生成部15は、表情情報取得部13から第1の表情情報及び第2の表情情報を取得し、これらの表情情報を元に、会議中の参加者間の感情の一致度を参加者双方の表情から評価することで、参加者間のコミュニケーション状態をリアルタイムで評価する。
Meeting participants' satisfaction with the meeting depends not only on the content and conclusions of the meeting, but also on the presence or absence of good communication between the participants. The state of communication between participants is represented by the relationships between participants during the meeting, and the relationships between participants can be evaluated by the degree of emotional concordance. The facial expression relationship
表情関係性情報生成部15が表情情報取得部13から取得するそれぞれの表情情報は、区間時系列数値データを元に算出されたものであり、つまり、各参加者のリアルタイム又は経時的な表情に関する情報に基づいて算出されたものである。表情関係性情報生成部15は、各参加者のリアルタイム又は経時的な表情情報を元に、表情関係性情報を生成するので、生成された表情関係性情報は、参加者間のリアルタイム又は経時的な表情に関する関係性を表している。
Each facial expression information acquired by the facial expression relationship
<表情一致率判定>
上述のように、第1の表情情報には、第1の参加者の表情を表現する複数の第1の指標が含まれており、第2の表情情報には、第2の参加者の表情を表現する複数の第2の指標が含まれている。
<Facial expression match rate judgment>
As described above, the first facial expression information includes a plurality of first indexes expressing the facial expressions of the first participant, and the second facial expression information includes the facial expressions of the second participant. A plurality of second indicators expressing the above are included.
表情関係性情報生成部15は、第1の指標と第2の指標との差に関する表情差分情報を生成し、生成した表情差分情報を、表情関係性情報に含めてもよい。
The facial expression relationship
一例として、表情関係性情報生成部15は、第1の参加者の表情を表現する複数の指標を要素とする第1の表情ベクトルと、第2の参加者の表情を表現する複数の指標を要素とする第2の表情ベクトルとの差の絶対値を用いて、表情不一致量を算出する。算出された表情不一致量は、参加者間の会議中の感情の融和状態を表す指標とも言える。また、表情関係性情報生成部15は、会議開始から現時点までに、表情が一致した割合を示す指標として表情一致率を算出してもよい。表情一致率は、例えば、会議開始から現時点までの時間から表情が不一致であった時間を引いて、会議開始から現時点までの時間で除算することによって得られる。
As an example, the facial expression relationship
<視線合致率判定>
また、第1の表情情報が、第1の参加者の視線方向に関する第1の視線情報を含む構成とし、第2の表情情報が、第2の参加者の視線方向に関する第2の視線情報を含む構成としてもよい。表情関係性情報生成部15は、第1の視線情報と第2の視線情報とを参照して視線関係性情報を生成し、生成した視線関係性情報を、表情関係性情報に含めてもよい。
<Judgment of line-of-sight matching rate>
Further, the first facial expression information includes the first line-of-sight information regarding the line-of-sight direction of the first participant, and the second facial expression information includes the second line-of-sight information regarding the line-of-sight direction of the second participant. It may be a configuration including. The facial expression relationship
一例として、表情関係性情報生成部15は、視線関係性情報として、第1の参加者と第2の参加者との視線合致率を算出する。算出された視線合致率は、会議中に他の参加者の様子を気にかけている状態を表す指標とも言える。より具体的には、まず、制御部24又は表情関係性情報生成部15が、カメラ21の撮像画像を解析することにより、会議室における第1の参加者の目の位置を特定し、制御部34又は表情関係性情報生成部15が、カメラ31の撮像画像を解析することにより、会議室における第2の参加者の目の位置を特定する。
As an example, the facial expression relationship
そして、表情関係性情報生成部15は、各時点において、第1の視線情報が示す第1の参加者の視線方向が、第2の参加者の目に向かっているか否かを判定し、第2の視線情報が示す第2の参加者の視線方向が、第1の参加者の目に向かっているか否かを判定することにより、各時点において、第1の参加者の視線と第2の参加者の視線とが合致しているかを判定する。
Then, the facial expression relationship
一例として、表情関係性情報生成部15は、第1の参加者の視線が第2の参加者の目に向かっていると判定した場合に、第1の参加者の視線フラグを1に設定する。また、表情関係性情報生成部15は、第2の参加者の視線が第1の参加者の目に向かっていると判定した場合に、第2の参加者の視線フラグを1に設定する。そして、表情関係性情報生成部15は、双方の視線フラグが共に1である場合に、視線が合致していると判定する。
As an example, the facial expression relationship
そして、表情関係性情報生成部15は、会議開始から現時点までに、視線が合致した割合を示す指標として視線合致率を算出する。視線合致率は、例えば、視線が合致した時間を、会議開始から現時点までの時間で除算することによって得られる。
Then, the facial expression relationship
なお、視線が互いの目に向かっているか否かの判定には、第1の端末装置20と第2の端末装置30との相対的な位置関係を示す位置情報を更に参照する構成としてもよい。
In addition, in order to determine whether or not the lines of sight are directed toward each other's eyes, a configuration may be configured in which the position information indicating the relative positional relationship between the first
また、互いの視線が必ずしも相手の目ではなく、相手の顔又は相手の身体の方向を向いている場合に、視線が合致していると判定する構成としてもよい。 Further, when the eyes of each other are not necessarily the eyes of the other party but are facing the face of the other party or the body of the other party, it may be determined that the lines of sight match.
また、参加者がインターネット等を介して会議する場合には、端末装置の画面を通した参加者間の視線合致率を算出する。より具体的には、一例として、第1の端末装置20の表示画面に表示される第2の参加者の顔の位置を、当該表示画面上の座標として特定し、特定した座標に対して第1の参加者の視線が向けられている場合に、第1の参加者の視線フラグを1に設定する。同様に、第2の端末装置30の表示画面に表示される第1の参加者の顔の位置を、当該表示画面上の座標として特定し、特定した座標に対して第2の参加者の視線が向けられている場合に、第2の参加者の視線フラグを1に設定する。
Further, when the participants have a meeting via the Internet or the like, the line-of-sight matching rate between the participants is calculated through the screen of the terminal device. More specifically, as an example, the position of the face of the second participant displayed on the display screen of the first
<前のめり率判定>
また、表情関係性情報生成部15は、第1の参加者と第2の参加者との前のめり率を算出し、算出した前のめり率を表情関係性情報に含めてもよい。算出された前のめり率は、会議中に他の参加者の発話に興味を示している状態を表す指標とも言える。一例として、表情関係性情報生成部15は、第1の参加者及び第2の参加者の、それぞれの撮像手段からの距離が、予め設定された一定時間内においてしきい値よりも下回った場合に、第1の参加者及び第2の参加者が前のめり状態であると判定する。
<Judgment of front leaning rate>
Further, the facial expression relationship
そして、表情関係性情報生成部15は、会議開始から現時点までの時間において、第1の参加者が前のめりになっている時間の割合を、第1の参加者に関する前のめり率として特定し、第2の参加者が前のめりになっている時間の割合を、第2の参加者に関する前のめり率として特定する。
Then, the facial expression relationship
また、表情関係性情報生成部15は、第1の参加者及び第2の参加者それぞれの撮像手段からの距離を元に得られる顔画像サイズについて、予め設定された一定時間内の変化から会議中の参加者の姿勢を算出し、表情関係性情報に含めてもよい。算出された参加者の姿勢は、会議中に他の参加者の発話を聞くにふさわしい態度を表す指標とも言える。
Further, the facial expression relationship
さらに、表情関係性情報生成部15は、第1の参加者の姿勢の変化と第2の参加者の第2の表情ベクトルの変化との相関を算出し、その相関を表情関係性情報に含めてもよい。姿勢の変化と表情ベクトルの変化との相関は、一の参加者の姿勢が他の参加者の表情に及ぼす影響を表す指標とも言える。同様に、表情関係性情報生成部15は、第2の参加者の姿勢の変化と第1の参加者の第1の表情ベクトルの変化との相関を算出し、その相関を表情関係性情報に含めてもよい。
Further, the facial expression relationship
また、表情関係性情報生成部15は、第1の参加者の姿勢と第2の参加者の姿勢とを参照して、第1の参加者と第2の参加者との姿勢状態の類似度を算出し、算出した類似度を表情関係性情報に含めてもよい。姿勢状態の類似度は、ミラーリング状態を表しており、会議中に他の参加者の発話に興味を示している状態を表す指標とも言える。
Further, the facial expression relationship
なお、表情関係性情報生成部15は、第1及び第2の参加者の属性を示す参加者情報を更に参照して、表情関係性情報を生成してもよい。参加者の属性を示す参加者情報は、当該参加者の年齢、性別、血液型、性格、出身地、家族関係、役職、勤続年数、転職回数、職務履歴等の少なくとも何れかを含む。また、参加者情報には、当該システムの利用履歴も含まれる。
The facial expression relationship
一例として、表情関係性情報生成部15は、参加者情報を参照し、当該参加者が特定の表情が出やすいと判断した場合には、当該特定の表情に対応する指標に1より小さい重み係数を乗算する補正を行うことによって当該参加者の表情ベクトルを補正し、補正後の表情ベクトルを用いて表情関係性情報を生成してもよい。
例えば、第1の参加者の属性を示す参加者情報が、当該第1の参加者が内気であることを示している場合、表情関係性情報生成部15は、「中立(neutral)」の指標に対して重み0.8を乗算し、残り0.2の重みを他の指標に比例配分する等の処理を行うことによって、当該第1の参加者の表情ベクトルを補正し、補正後の表情ベクトルを用いて表情関係性情報を生成する構成としてもよい。
As an example, when the facial expression relationship
For example, when the participant information indicating the attribute of the first participant indicates that the first participant is shy, the facial expression relationship
情報処理装置10は、参加者の脈波、脳波等の生体情報と、参加者周囲の温度、湿度、二酸化炭素濃度、照度等の環境情報とをさらに取得する構成とし、表情関係性情報生成部15は、生体情報及び環境情報を更に参照して、表情関係性情報を生成してもよい。
The
一例として、表情関係性情報生成部15は、第1の参加者の脈波又は呼吸から判定した参加者のストレス状態と、その直前又はその時点における第2の参加者の表情を表現する第2の指標を参照し、第1の参加者にストレスを与える第2の参加者の表情を推定する。そして、表情関係性情報生成部15は、推定された第2の参加者の表情を、第1の参加者に対するNG表情と認定し、その情報を表情関係性情報に含めてもよい。一の参加者の他の参加者に対するNG表情は、一の参加者の表情が他の参加者のストレス状態に及ぼす影響を表す指標とも言える。同様に、表情関係性情報生成部15は、第2の参加者にストレスを与える第1の参加者の表情を推定し、第2の参加者に対するNG表情を認定してもよい。
As an example, the facial expression relationship
また、表情関係性情報生成部15は、予め定められた一定期間内の、参加者の周囲の環境情報の変化と、第1の参加者の第1の表情ベクトル及び第2の参加者の第2の表情ベクトルの平均値の変化との相関を算出し、その相関を表情関係性情報に含めてもよい。環境情報の変化と表情ベクトルの平均値の変化との相関は、参加者の周囲の環境が参加者間のコミュニケーション状態に及ぼす影響を表す指標とも言える。
Further, the facial expression relationship
<対話管理処理>
表情関係性情報生成部15は、一例として、通信部11を介して、第1の参加者及び第2の参加者それぞれのユーザIDと、当該ユーザIDが表す参加者が会議開始した時刻及び終了した時刻を表すタイムスタンプとを参照し、対話管理処理を行う。表情関係性情報生成部15は、一の参加者に関する区間時系列数値データのある時点のデータについて、その時点に対話している他の参加者のユーザIDを抽出し、どの参加者と対話中に得られたデータであるかを判定して、結果を表情関係性情報に含めてもよい。
<Dialogue management process>
As an example, the facial expression relationship
(発話関係性情報生成部16)
発話関係性情報生成部16は、第1の発話情報と第2の発話情報とを参照して、第1の参加者と第2の参加者との発話に関する関係性を示す発話関係性情報を生成する。発話関係性情報生成部16は、音声情報取得部14から第1の発話情報及び第2の発話情報を取得し、これらの発話情報を元に、会議中の参加者間の感情の一致度を参加者双方の発話から評価することで、参加者間のコミュニケーション状態を評価する。
(Utterance relationship information generation unit 16)
The utterance relationship
発話関係性情報生成部16が音声情報取得部14から取得するそれぞれの発話情報は、区間時系列テキストデータを元に算出されたものであり、つまり、各参加者のリアルタイム又は経時的な発話に関する情報に基づいて算出されたものである。発話関係性情報生成部16は、各参加者のリアルタイム又は経時的な発話情報を元に、発話関係性情報を生成するので、生成された発話関係性情報は、参加者間のリアルタイム又は経時的な発話に関する関係性を表している。
Each utterance information acquired by the utterance relationship
<発話比率判定>
発話関係性情報生成部16は、第1の発話情報が示す第1の参加者の発話時間と、第2の発話情報が示す第2の参加者の発話時間との関係を示す発話時間関係性情報を生成し、生成した発話時間関係性情報を、発話関係性情報に含めてもよい。
<Utterance ratio judgment>
The utterance relationship
一例として、発話関係性情報生成部16は予め定められた一定時間内の、第1の参加者の発話時間と第2の参加者の発話時間との発話比率を算出し、発話関係性情報に含める。算出された発話比率は、参加者間の関係の対等性を表す指標とも言える。
As an example, the utterance relationship
<発話頻度判定>
また、発話関係性情報生成部16は、第1の発話情報及び第2の発話情報の少なくとも何れかに、特定のカテゴリーに含まれる発話内容が含まれているか否かを判定し、判定した結果に応じた情報を前記発話関係性情報に含めてもよい。
<Utterance frequency judgment>
Further, the utterance relationship
発話内容に含まれる特定のカテゴリーの例には、オープンクエスチョン、行動促しワード(それで?、なるほど、確かに)、オウム返し、発話の遮り、発話の被り、否定ワード(でも、だけど)が含まれる。一例として、発話関係性情報生成部16は、予め定められた一定時間内における、このような特定のカテゴリーに含まれる発話内容が発話された頻度を算出し、算出した頻度に関する情報を発話関係性情報に含める。
Examples of specific categories in the utterance include open questions, action-prompting words (so? Well, sure), parrots, utterance interruptions, utterance sufferings, and negative words (but, though). .. As an example, the utterance relationship
具体的には、一例として、発話内容に含まれる特定カテゴリーをオープンクエスチョンと設定し、発話関係性情報生成部16は、第1の参加者の区間時系列テキストデータから、一定時間内に含まれるオープンクエスチョンを表すテキストデータを抽出する。そして、発話関係性情報生成部16は、抽出されたテキストデータの単語数を上記一定時間内の全テキストデータの単語数で除算することによって、オープンクエスチョンが発話された頻度をオープン質問率として算出する。同様に、発話関係性情報生成部16は、第2の参加者の区間時系列テキストデータから、オープン質問率を算出する。そして、発話関係性情報生成部16は、第1の参加者のオープン質問率と第2の参加者のオープン質問率とを比較して、オープン質問比率を算出し、発話関係性情報に含める。算出されたオープン質問比率は、参加者間の関係の対等性を表す指標とも言える。また、発話関係性情報生成部16は、第1の参加者のオープン質問率及び第2の参加者のオープン質問率を、発話関係性情報に含めてもよい。
Specifically, as an example, a specific category included in the utterance content is set as an open question, and the utterance relationship
同様に、発話内容に含まれる特定カテゴリーを行動促しワードと設定し、発話関係性情報生成部16は、第1の参加者の区間時系列テキストデータから、一定時間内に含まれる行動促しワードを表すテキストデータを抽出する。そして、発話関係性情報生成部16は、抽出されたテキストデータの単語数を上記一定時間内の全テキストデータの単語数で除算することによって、行動促しワードが発話された頻度を促し質問率として算出する。
同様に、発話関係性情報生成部16は、第2の参加者の区間時系列テキストデータから、促し質問率を算出する。そして、発話関係性情報生成部16は、第1の参加者の促し質問率と第2の参加者の促し質問率とを比較して、促し質問比率を算出し、発話関係性情報に含める。算出された促し質問比率は、参加者間の関係の対等性を表す指標とも言える。また、発話関係性情報生成部16は、第1の参加者の促し質問率及び第2の参加者の促し質問率を、発話関係性情報に含めてもよい。
Similarly, a specific category included in the utterance content is set as an action urging word, and the utterance relationship
Similarly, the utterance relationship
<単語に基づく評価>
また、発話関係性情報生成部16は、第1の発話情報及び第2の発話情報の少なくとも何れかから、所定時間内において相対的に出現頻度の高い単語を抽出し、抽出した単語を発話関係性情報に含めてもよい。
<Word-based evaluation>
Further, the utterance relationship
一例として、発話関係性情報生成部16は、第1の参加者及び第2の参加者のそれぞれの区間時系列テキストデータから、予め定められた一定時間内に含まれる各単語の出現数を参加者毎に算出して順位付けし、相対的に出現頻度の高い単語を上位から複数抽出する。そして、発話関係性情報生成部16は、抽出した出現頻度の上位の単語を頻出単語として発話関係性情報に含める。また、発話関係性情報生成部16は、第1の参加者及び第2の参加者のそれぞれの頻出単語及びその順位が一致しているかを判定し、その判定結果を発話関係性情報に含めてもよい。
As an example, the utterance relationship
また、発話関係性情報生成部16は、第1の参加者及び第2の参加者のそれぞれの区間時系列テキストデータから、予め定められた一定時間内に含まれる単語を参加者毎に抽出し、抽出された単語の一致率を算出して、発話関係性情報に含めてもよい。単語の一致率は、予め定められた一定時間内の区間時系列テキストデータに含まれる全単語中における、第1の参加者と第2の参加者とで一致した単語の比率として算出することができる。算出された単語の一致率は、オウム返しができているかの指標とも言える。
Further, the utterance relationship
また、発話関係性情報生成部16は、第1の参加者及び第2の参加者のそれぞれの区間時系列テキストデータから発話タイミングを抽出し、発話タイミングの時間的なオーバーラップを算出してもよい。そして、発話関係性情報生成部16は、予め定められた一定時間内のオーバーラップの回数をオーバーラップ頻度として算出し、発話関係性情報に含めてもよい。算出したオーバーラップ頻度は、他の参加者の発話をさえぎる頻度を表す指標とも言える。
Further, the utterance relationship
さらに、発話関係性情報生成部16は、第1及び第2の参加者の属性を示す参加者情報を更に参照して、発話関係性情報を生成してもよい。参加者の属性を示す参加者情報は、当該参加者の年齢、性別、血液型、性格、出身地、家族関係、役職、勤続年数、転職回数、職務履歴等の少なくとも何れかを含む。また、参加者情報には、当該システムの利用履歴も含まれる。
Further, the utterance relationship
情報処理装置10は、参加者の脈波、脳波等の生体情報と、参加者周囲の温度、湿度、二酸化炭素濃度、照度等の環境情報とをさらに取得する構成とし、発話関係性情報生成部16は、生体情報及び環境情報を更に参照して、発話関係性情報を生成してもよい。
The
また、一例として、発話関係性情報生成部16は、第1の参加者の脈波又は呼吸から判定した参加者のストレス状態と、その直前又はその時点における第2の参加者の区間時系列テキストデータとを参照し、第1の参加者にストレスを与える第2の参加者のテキストデータを推定する。そして、発話関係性情報生成部16は、推定された第2の参加者のテキストデータを、第1の参加者に対するNGワードと認定し、その情報を発話関係性情報に含めてもよい。一の参加者の他の参加者に対するNGワードは、一の参加者の発言が他の参加者のストレス状態に及ぼす影響を表す指標とも言える。同様に、発話関係性情報生成部16は、第2の参加者にストレスを与える第1の参加者のテキストデータを推定し、第2の参加者に対するNGワードを認定してもよい。
Further, as an example, the utterance relationship
また、一例として、発話関係性情報生成部16は、第1の参加者の脳波から判定した参加者の思考の活性度と、その直前又はその時点における第2の参加者の区間時系列テキストデータとを参照し、第1の参加者の思考を活性化させる第2の参加者のテキストデータを推定する。そして、発話関係性情報生成部16は、推定された第2の参加者のテキストデータを、第1の参加者に対する重要ワードと認定し、その情報を発話関係性情報に含めてもよい。一の参加者の他の参加者に対する重要ワードは、一の参加者の発言が他の参加者の思考の活性化に及ぼす影響を表す指標とも言える。同様に、発話関係性情報生成部16は、第2の参加者の思考を活性化する第1の参加者のテキストデータを推定し、第2の参加者に対する重要ワードを認定してもよい。
Further, as an example, the utterance relationship
また、発話関係性情報生成部16は、参加者間の声のトーンの一致度、発話スピードの一致度、音量の一致度等を算出してもよい。
Further, the utterance relationship
さらに、発話関係性情報生成部16は、蓄積された区間時系列テキストデータから、第1の参加者及び第2の参加者それぞれの発話を表すログを抽出し、その形態素解析データを取得して、過去の発話中の頻出単語をリストアップし、発話関係性情報に含めてもよい。過去の発話中の頻出単語は、会議中の参加者双方に提示することで、会議のテーマ決定を支援するために利用され得る。
Further, the utterance relationship
<対話管理処理>
発話関係性情報生成部16は、一例として、通信部11を介して、第1の参加者及び第2の参加者それぞれのユーザIDと、当該ユーザIDが表す参加者が会議開始した時刻及び終了した時刻を表すタイムスタンプとを参照し、対話管理処理を行う。発話関係性情報生成部16は、一の参加者に関する区間時系列テキストデータのある時点のデータについて、その時点に対話している他の参加者のユーザIDを抽出し、どの参加者と対話中に得られたデータであるかを判定して、結果を発話関係性情報に含めてもよい。
<Dialogue management process>
As an example, the utterance relationship
(関係性情報生成部17)
関係性情報生成部17は、表情関係性情報と前記発話関係性情報とを参照して前記第1の参加者と前記第2の参加者との関係を示すリアルタイム又は経時的な情報である関係性情報を生成する。会議中の参加者双方の表情及び発話の両方を評価することで、参加者間のコミュニケーション状態をより詳細に評価することができる。また、関係性情報生成部17は、参加者間のリアルタイム又は経時的な表情情報及び発話情報を元に関係性情報を生成するので、参加者間のリアルタイム又は経時的なコミュニケーション状態を評価することができる。
(Relationship information generation unit 17)
The relationship
関係性情報生成部17は、第1の参加者及び第2の参加者の少なくとも何れかに提示する提示情報を生成してもよい。提示情報には、表情関係性情報と発話関係性情報とに基づき総合的に評価した参加者双方の感情の一致度等が含まれていてもよい(例えば、視線合致率が高く、発話比率が対等であれば感情の一致度を高くする等)。
The relationship
関係性情報生成部17が生成した提示情報を参加者に提示することで、参加者間の関係性を参加者にフィードバックすることができる。提示情報をリアルタイムで参加者に提示すれば、会話中にリアルタイムで関係性を確認することができるので、リアルタイムでコミュニケーションの改善を促すことも可能である。
By presenting the presentation information generated by the relationship
提示情報は、第1の参加者及び第2の参加者の双方に提示するものであってもよいし、いずれか一方に提示するものであってもよい。また、関係性情報は、第1の参加者及び第2の参加者に同じ内容を提示するものであってもよいし、異なる内容を提示するものであってもよい。第1の参加者及び第2の参加者に同じ内容を提示する関係性情報を生成することで、参加者間のフラットな関係性の構築が期待できる。また、提示情報を参加者自身が選択できるようになっていてもよいし、ルール又は参加者間の合意により提示される提示情報が変更されてもよい。 The presented information may be presented to both the first participant and the second participant, or may be presented to either one. Further, the relationship information may present the same content to the first participant and the second participant, or may present different content. By generating relationship information that presents the same content to the first participant and the second participant, it can be expected to build a flat relationship between the participants. In addition, the presented information may be selectable by the participants themselves, or the presented information may be changed by a rule or an agreement between the participants.
関係性情報には、第1の参加者の発話時間と、第2の参加者の発話時間との割合を示す情報、及び、第1の参加者の視線方向と、第2の参加者の視線方向との合致率の経時変化に関する情報が含まれていてもよい。また、関係性情報には、表情一致率又は表情不一致率の経時変化、前のめり率、発話内容のテキスト、頻出単語等に関する情報が含まれていてもよい。さらに、関係性情報には、参加者のID、参加者自身の顔画像、他の参加者の表情を表すアバター画像、発話内容に基づき蓄積データから抽出した推奨議題又は推奨ワードの表示等が含まれていてもよい。 The relationship information includes information indicating the ratio between the utterance time of the first participant and the utterance time of the second participant, the line-of-sight direction of the first participant, and the line-of-sight of the second participant. It may contain information about the time course of the match rate with the direction. In addition, the relationship information may include information on changes in the facial expression match rate or the facial expression mismatch rate over time, the forward lean rate, the text of the utterance content, frequently-used words, and the like. Furthermore, the relationship information includes the participant's ID, the participant's own facial image, the avatar image showing the facial expressions of other participants, the display of the recommended agenda or recommended words extracted from the accumulated data based on the utterance content, and the like. It may be.
また、提示情報に、会議参加者のコミュニケーションスキルを向上させるための評価結果を含めてもよい。一例として、表情一致率と共に、表情一致率を高めることで反射的傾聴スキルが向上させることを促す情報を提示したり、視線合致率と共に、視線合致率を高めることでコミュニケーションに適した姿勢、態度を取るように促す情報を提示したりしてもよい。また、推奨するワードや質問内容を提示して、対話レベル及び質問レベルの控除を促してもよい。 In addition, the presented information may include evaluation results for improving the communication skills of the conference participants. As an example, along with the facial expression matching rate, information that encourages improvement of reflexive listening skills by increasing the facial expression matching rate can be presented, and by increasing the line-of-sight matching rate, the posture and attitude suitable for communication can be achieved. You may also present information that encourages you to take. In addition, recommended words and question contents may be presented to encourage dialogue-level and question-level deductions.
提示情報を提示する方法は、具体的には、一例として、会議参加者の表示部(表示部23及び表示部33のそれぞれ)に表示する方法、会議参加者全員が視認できる共通の表示部に表示する方法、ネットワーク配信等により会議参加者以外にも提示する方法、腕時計型デバイスのようなウェアラブルデバイスからの物理的な作用(振動、電気刺激等)により提示する方法、環境設備(証明、空調、音楽等)からの物理的な作用(議論が白熱した場合に部屋を赤く照らす等)により提示する方法、感情を表す指標に対応した画像イメージ(怒りを表す火山の噴火等)により提示する方法、感情を表す指標に対応したアバターの表情により提示する方法等が挙げられる。
Specifically, as an example, the method of presenting the presented information is a method of displaying on the display unit of the conference participants (each of the
図4及び5を参照して、表示部23及び表示部33の少なくとも一方に提示情報を提示される画面例を説明する。図4は、本発明の一実施形態に係る情報処理装置を含む情報処理システムが提示する情報の一例を示す図であり、図5は、本発明の一実施形態に係る情報処理装置を含む情報処理システムが提示する情報の他の例を示す図である。
A screen example in which presentation information is presented to at least one of the
図4に示すように、画面400において、領域401に会議参加者のユーザIDを表示し、領域402に会議参加者の顔画像を表示して、提示情報を提示する対象を特定する。領域403に発話比率をトーク比率として、例えば円グラフで表示し、領域404に対話中の参加者の感情を表す指標に対応したアバターの表情を表示し、また、領域405に表情一致率の経時変化をグラフで表示することで、会議中にコミュニケーションの状態の現状を瞬時に確認できるようにする。また、領域406に、発話内容を表すテキストをTalk Streamとして表示し、また、会議中に推奨される会話テーマや単語を表示する。領域405に表示する表情一致率は、表情関係性情報について、過去から現在までの経時的な情報に基づき生成された提示情報の例である。領域404に表示するアバターの表情は、表情関係性情報について、リアルタイムの情報に基づき生成された提示情報の例である。
As shown in FIG. 4, on the
また、図5に示すように、画面500において、画面400と同様に、領域501にユーザIDを表示し、領域502に顔画像を表示し、領域503にトーク比率を表示し、領域504にアバター表情を表示し、領域505に発話内容及び推奨テーマ等を表示すると共に、領域505に、表情一致率ではなく視線合致率を表示してもよい。
Further, as shown in FIG. 5, on the
<付記事項1>
端末装置の制御部における処理の一部又は全部を、情報処理装置10の備える演算部12において行う構成としてもよい。例えば、演算部12が、通信部11を介して、カメラ21の撮像画像を取得し、表情情報取得部13において、第1の参加者の表情に関する第1の表情情報、及び、第2の参加者の表情に関する第2の表情情報を生成する構成としてもよい。
<
A part or all of the processing in the control unit of the terminal device may be performed in the
<付記事項2>
また、上記の例では、第1の参加者及び第2の参加者の2名による会議を例にしたが、本実施形態はこれに限定されるものではない。当然、N名(Nは3以上)による会議に対しても本明細書に記載の発明を適用することができる。その場合、N名中の任意の2人のペアに対して、本明細書に記載の構成を個別に適用することができる。例えば、3名(A、B、C)による会議に対しては、(A、B)(A、C)(B、C)の3組に対して本明細書に記載の発明を個別に適用することができる。
このように、本実施形態に記載の発明は、N人の状態を表すデータ,N人の状態の履歴データおよびN人の環境情報を用いて、当該N人の内の一部又は全部の参加者間の関係を示す「関係性情報」を生成するものであると表現することもできる。
<付記事項3>
また、上記の例では、第1の参加者及び第2の参加者が共に人間である場合を例に挙げたが、これは本実施形態を限定するものではない。
例えば、第2の参加者は、人間ではなく、予め設定されたアバターやBOTのようにコンピュータによって表現される疑似的な人間であってもよい。このような構成の場合、第2の端末装置は、必須ではなく、表情情報取得部13及び音声情報取得部14は、予め作成された当該BOTが表す表情及び発話内容を、第2の参加者の表情情報及び音声情報として取得する構成とすればよい。
なお、BOTが表す表情及び発話内容は、会議前に事前に作成されたデータを用いてもよいし、会議中の第1の参加者の表情や発話に応じて適応的に変更される構成としてもよい。
<Appendix 2>
Further, in the above example, a meeting of two participants, a first participant and a second participant, is taken as an example, but the present embodiment is not limited to this. As a matter of course, the invention described in the present specification can be applied to a meeting with N names (N is 3 or more). In that case, the configurations described herein can be applied individually to any two pairs of N names. For example, for a meeting of three people (A, B, C), the inventions described herein are individually applied to the three sets (A, B) (A, C) (B, C). can do.
As described above, the invention described in the present embodiment uses data representing the state of N persons, history data of the state of N persons, and environmental information of N persons, and participates in a part or all of the N persons. It can also be expressed as generating "relationship information" indicating the relationship between persons.
<Appendix 3>
Further, in the above example, the case where the first participant and the second participant are both human beings is taken as an example, but this does not limit the present embodiment.
For example, the second participant may not be a human but a pseudo-human represented by a computer such as a preset avatar or BOT. In the case of such a configuration, the second terminal device is not indispensable, and the facial expression
The facial expressions and utterances represented by the BOT may use data created in advance before the meeting, or may be adaptively changed according to the facial expressions and utterances of the first participant during the meeting. May be good.
〔ソフトウェアによる実現例〕
情報処理装置1の制御ブロック(特に演算部12)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、ソフトウェアによって実現してもよい。
[Example of implementation by software]
The control block (particularly, the arithmetic unit 12) of the
後者の場合、情報処理装置1は、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータを備えている。このコンピュータは、例えば1つ以上のプロセッサを備えていると共に、上記プログラムを記憶したコンピュータ読み取り可能な記録媒体を備えている。そして、上記コンピュータにおいて、上記プロセッサが上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記プロセッサとしては、例えばCPU(Central Processing Unit)を用いることができる。上記記録媒体としては、「一時的でない有形の媒体」、例えば、ROM(Read Only Memory)等の他、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムを展開するRAM(Random Access Memory)などをさらに備えていてもよい。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
In the latter case, the
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。 The present invention is not limited to the above-described embodiments, and various modifications can be made within the scope of the claims, and the embodiments obtained by appropriately combining the technical means disclosed in the different embodiments. Is also included in the technical scope of the present invention.
100 情報処理システム
10 情報処理装置
20 第1の端末装置
30 第2の端末装置
13 表情情報取得部
14 音声情報取得部
15 表情関係性情報生成部
16 発話関係性情報生成部
17 関係性情報生成部
100
Claims (12)
当該第1の参加者の発話に関する第1の発話情報と、前記複数の参加者のうち第2の参加者の発話に関する第2の発話情報とを取得する音声情報取得部と、
前記第1の表情情報と前記第2の表情情報とを参照して、前記第1の参加者と前記第2の参加者との表情に関する関係性を示す表情関係性情報を生成する表情関係性情報生成部と、
前記第1の発話情報と前記第2の発話情報とを参照して、前記第1の参加者と前記第2の参加者との発話に関する関係性を示す発話関係性情報を生成する発話関係性情報生成部と、
前記表情関係性情報と前記発話関係性情報とを参照して前記第1の参加者と前記第2の参加者との関係を示す情報である関係性情報を生成する関係性情報生成部と、
を備えていることを特徴とする情報処理装置。 A facial expression information acquisition unit that acquires the first facial expression information regarding the facial expression of the first participant among the plurality of participants and the second facial expression information regarding the facial expression of the second participant among the plurality of participants. ,
A voice information acquisition unit that acquires the first utterance information regarding the utterance of the first participant and the second utterance information regarding the utterance of the second participant among the plurality of participants.
A facial expression relationship that generates facial expression relationship information indicating a relationship between the first participant and the second participant with reference to the first facial expression information and the second facial expression information. Information generator and
The utterance relationship that generates the utterance relationship information showing the relationship between the first participant and the second participant by referring to the first utterance information and the second utterance information. Information generator and
A relationship information generation unit that generates relationship information, which is information indicating the relationship between the first participant and the second participant, with reference to the facial expression relationship information and the utterance relationship information.
An information processing device characterized by being equipped with.
ことを特徴とする請求項1に記載の情報処理装置。 The information processing apparatus according to claim 1, wherein the relationship information is real-time or temporal information indicating the relationship between the first participant and the second participant.
前記第2の表情情報には、前記第2の参加者の表情を表現する複数の第2の指標が含まれており、
前記表情関係性情報生成部は、前記第1の指標と前記第2の指標との差に関する表情差分情報を生成し、生成した表情差分情報を、前記表情関係性情報に含める
ことを特徴とする請求項1又は2に記載の情報処理装置。 The first facial expression information includes a plurality of first indexes expressing the facial expressions of the first participant.
The second facial expression information includes a plurality of second indexes expressing the facial expressions of the second participant.
The facial expression relationship information generation unit is characterized in that it generates facial expression difference information regarding the difference between the first index and the second index, and includes the generated facial expression difference information in the facial expression relationship information. The information processing apparatus according to claim 1 or 2.
前記第2の表情情報には、前記第2の参加者の視線方向に関する第2の視線情報が含まれており、
前記表情関係性情報生成部は、前記第1の視線情報と前記第2の視線情報とを参照して視線関係性情報を生成し、生成した視線関係性情報を、前記表情関係性情報に含める
ことを特徴とする請求項1から3の何れか1項に記載の情報処理装置。 The first facial expression information includes the first line-of-sight information regarding the line-of-sight direction of the first participant.
The second facial expression information includes the second line-of-sight information regarding the line-of-sight direction of the second participant.
The facial expression relationship information generation unit generates line-of-sight relationship information with reference to the first line-of-sight information and the second line-of-sight information, and includes the generated line-of-sight relationship information in the facial expression relationship information. The information processing apparatus according to any one of claims 1 to 3, wherein the information processing apparatus is characterized by the above.
前記第1の発話情報が示す前記第1の参加者の発話時間と、前記第2の発話情報が示す前記第2の参加者の発話時間との関係を示す発話時間関係性情報を生成し、生成した発話時間関係性情報を、前記発話関係性情報に含める
ことを特徴とする請求項1から4の何れか1項に記載の情報処理装置。 The utterance relationship information generation unit
The utterance time relationship information indicating the relationship between the utterance time of the first participant indicated by the first utterance information and the utterance time of the second participant indicated by the second utterance information is generated. The information processing apparatus according to any one of claims 1 to 4, wherein the generated utterance time relationship information is included in the utterance relationship information.
前記第1の発話情報及び前記第2の発話情報の少なくとも何れかに、特定のカテゴリーに含まれる発話内容が含まれているか否かを判定し、判定した結果に応じた情報を前記発話関係性情報に含める
ことを特徴とする請求項1から5の何れか1項に記載の情報処理装置。 The utterance relationship information generation unit
It is determined whether or not at least one of the first utterance information and the second utterance information includes the utterance content included in a specific category, and the information according to the determination result is the utterance relationship. The information processing apparatus according to any one of claims 1 to 5, wherein the information processing apparatus is included in the information.
前記第1の発話情報及び前記第2の発話情報の少なくとも何れかから、所定時間内において相対的に出現頻度の高い単語を抽出し、抽出した単語を前記発話関係性情報に含めることを特徴とする請求項1から6の何れか1項に記載の情報処理装置。 The utterance relationship information generation unit
A feature is that words having a relatively high frequency of appearance are extracted from at least one of the first utterance information and the second utterance information within a predetermined time, and the extracted words are included in the utterance relationship information. The information processing apparatus according to any one of claims 1 to 6.
ことを特徴とする請求項1から7の何れか1項に記載の情報処理装置。 Claim 1 is characterized in that the relationship information generation unit refers to the relationship information and generates presentation information to be presented to at least one of the first participant and the second participant. The information processing apparatus according to any one of 7 to 7.
前記第1の参加者の発話時間と、前記第2の参加者の発話時間との割合を示す情報、
及び、
前記第1の参加者の視線方向と、前記第2の参加者の視線方向との合致率の経時変化に関する情報
が含まれている
ことを特徴とする請求項8に記載の情報処理装置。 The presented information includes
Information indicating the ratio between the utterance time of the first participant and the utterance time of the second participant,
as well as,
The information processing apparatus according to claim 8, wherein the information processing apparatus includes information on a change over time in a matching rate between the line-of-sight direction of the first participant and the line-of-sight direction of the second participant.
ことを特徴とする請求項1から9の何れか1項に記載の情報処理装置。 The facial expression relationship information generation unit and the utterance relationship information generation unit further refer to the participant information indicating the attributes of the first and second participants, and further refer to the facial expression relationship information and the utterance relationship information. The information processing apparatus according to any one of claims 1 to 9, wherein information is generated.
複数の参加者のうち第1の参加者の表情に関する第1の表情情報と、前記複数の参加者のうち第2の参加者の表情に関する第2の表情情報とを取得する表情情報取得ステップと、
当該第1の参加者の発話に関する第1の発話情報と、前記複数の参加者のうち第2の参加者の発話に関する第2の発話情報とを取得する音声情報取得ステップと、
前記第1の表情情報と前記第2の表情情報とを参照して、前記第1の参加者と前記第2の参加者との表情に関する関係性を示す表情関係性情報を生成する表情関係性情報生成ステップと、
前記第1の発話情報と前記第2の発話情報とを参照して、前記第1の参加者と前記第2の参加者との発話に関する関係性を示す発話関係性情報を生成する発話関係性情報生成ステップと、
前記表情関係性情報と前記発話関係性情報とを参照して前記第1の参加者と前記第2の参加者との関係を示すリアルタイム又は経時的な情報である関係性情報を生成する関係性情報生成ステップと、
を前記コンピュータが行うことを特徴とする情報処理方法。 It is an information processing method performed by a computer under the control of software.
A facial expression information acquisition step for acquiring the first facial expression information regarding the facial expression of the first participant among the plurality of participants and the second facial expression information regarding the facial expression of the second participant among the plurality of participants. ,
A voice information acquisition step for acquiring the first utterance information regarding the utterance of the first participant and the second utterance information regarding the utterance of the second participant among the plurality of participants.
A facial expression relationship that generates facial expression relationship information indicating a relationship between the first participant and the second participant with reference to the first facial expression information and the second facial expression information. Information generation step and
The utterance relationship that generates the utterance relationship information showing the relationship between the first participant and the second participant by referring to the first utterance information and the second utterance information. Information generation steps and
A relationship that generates relationship information that is real-time or temporal information indicating the relationship between the first participant and the second participant by referring to the facial expression relationship information and the utterance relationship information. Information generation step and
An information processing method, characterized in that the computer performs the above.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019005363A JP7036046B2 (en) | 2019-01-16 | 2019-01-16 | Information processing equipment, information processing methods, and information processing programs |
PCT/JP2019/009523 WO2020148920A1 (en) | 2019-01-16 | 2019-03-08 | Information processing device, information processing method, and information processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019005363A JP7036046B2 (en) | 2019-01-16 | 2019-01-16 | Information processing equipment, information processing methods, and information processing programs |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020113197A JP2020113197A (en) | 2020-07-27 |
JP7036046B2 true JP7036046B2 (en) | 2022-03-15 |
Family
ID=71614064
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019005363A Active JP7036046B2 (en) | 2019-01-16 | 2019-01-16 | Information processing equipment, information processing methods, and information processing programs |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7036046B2 (en) |
WO (1) | WO2020148920A1 (en) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022264222A1 (en) * | 2021-06-14 | 2022-12-22 | 株式会社I’mbesideyou | Video analysis system |
JP7440844B2 (en) * | 2021-09-30 | 2024-02-29 | 株式会社調和技研 | Information processing equipment and programs |
WO2023074129A1 (en) * | 2021-11-01 | 2023-05-04 | ソニーグループ株式会社 | Information processing device, communication assistance device, and communication assistance system |
WO2023084715A1 (en) * | 2021-11-11 | 2023-05-19 | 日本電信電話株式会社 | Information processing device, information processing method, and program |
JP2023132597A (en) | 2022-03-11 | 2023-09-22 | 株式会社リコー | Information processing system, organizational structure support system, information processing method, and program |
WO2023243009A1 (en) * | 2022-06-15 | 2023-12-21 | 日本電信電話株式会社 | Information presenting device, information presenting method, and program |
JP2024006627A (en) * | 2022-07-04 | 2024-01-17 | パナソニックIpマネジメント株式会社 | Evaluation system, evaluation device, and evaluation method |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005284822A (en) | 2004-03-30 | 2005-10-13 | Seiko Epson Corp | Feelings matching system, feelings matching method, and program |
JP2016103081A (en) | 2014-11-27 | 2016-06-02 | Kddi株式会社 | Conversation analysis device, conversation analysis system, conversation analysis method and conversation analysis program |
JP2016177483A (en) | 2015-03-19 | 2016-10-06 | キヤノン株式会社 | Communication support device, communication support method, and program |
-
2019
- 2019-01-16 JP JP2019005363A patent/JP7036046B2/en active Active
- 2019-03-08 WO PCT/JP2019/009523 patent/WO2020148920A1/en active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005284822A (en) | 2004-03-30 | 2005-10-13 | Seiko Epson Corp | Feelings matching system, feelings matching method, and program |
JP2016103081A (en) | 2014-11-27 | 2016-06-02 | Kddi株式会社 | Conversation analysis device, conversation analysis system, conversation analysis method and conversation analysis program |
JP2016177483A (en) | 2015-03-19 | 2016-10-06 | キヤノン株式会社 | Communication support device, communication support method, and program |
Also Published As
Publication number | Publication date |
---|---|
WO2020148920A1 (en) | 2020-07-23 |
JP2020113197A (en) | 2020-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7036046B2 (en) | Information processing equipment, information processing methods, and information processing programs | |
US10706873B2 (en) | Real-time speaker state analytics platform | |
Gratch et al. | Can virtual humans be more engaging than real ones? | |
US20220392625A1 (en) | Method and system for an interface to provide activity recommendations | |
US20190130910A1 (en) | Information processing apparatus | |
EP3897388B1 (en) | System and method for reading and analysing behaviour including verbal, body language and facial expressions in order to determine a person's congruence | |
US11417045B2 (en) | Dialog-based testing using avatar virtual assistant | |
Sun et al. | Towards visual and vocal mimicry recognition in human-human interactions | |
Lucas et al. | Towards an affective interface for assessment of psychological distress | |
US20220019746A1 (en) | Determination of transcription accuracy | |
US20210271864A1 (en) | Applying multi-channel communication metrics and semantic analysis to human interaction data extraction | |
Chollet et al. | A multimodal corpus for the assessment of public speaking ability and anxiety | |
JP6715410B2 (en) | Evaluation method, evaluation device, evaluation program, and evaluation system | |
US11163965B2 (en) | Internet of things group discussion coach | |
Byun et al. | Honest signals in video conferencing | |
WO2021094330A1 (en) | System and method for collecting behavioural data to assist interpersonal interaction | |
RU2293518C1 (en) | Method for estimating sincerity-insincerity of speaking person | |
WO2022065446A1 (en) | Feeling determination device, feeling determination method, and feeling determination program | |
Ochs et al. | From emotions to interpersonal stances: Multi-level analysis of smiling virtual characters | |
Torre et al. | Exploring the effects of virtual agents’ smiles on human-agent interaction: A mixed-methods study | |
Grůber et al. | Czech Senior COMPANION: Wizard of Oz data collection and expressive speech corpus recording and annotation | |
Vatikiotis-Bateson et al. | 23 Time-Varying Coordination in Multisensory Speech Processing | |
US20230315810A1 (en) | System and method for interpretation of human interpersonal interaction | |
WO2023135939A1 (en) | Information processing device, information processing method, and program | |
WO2022230136A1 (en) | Video analysis system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220118 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220201 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220214 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7036046 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |