JP2022050924A - Information processing device, information processing method, and information processing program - Google Patents
Information processing device, information processing method, and information processing program Download PDFInfo
- Publication number
- JP2022050924A JP2022050924A JP2020157116A JP2020157116A JP2022050924A JP 2022050924 A JP2022050924 A JP 2022050924A JP 2020157116 A JP2020157116 A JP 2020157116A JP 2020157116 A JP2020157116 A JP 2020157116A JP 2022050924 A JP2022050924 A JP 2022050924A
- Authority
- JP
- Japan
- Prior art keywords
- users
- information processing
- degree
- feature amount
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、情報処理装置、情報処理方法および情報処理プログラムに関する。 The present invention relates to an information processing apparatus, an information processing method and an information processing program.
近年、センサデバイスを用いてコミュニケーションを評価する技術が開発されている。例えば、特許文献1では、ユーザの位置情報に基づき、該ユーザが参加している組織内のコミュニティを特定し、該コミュニティの識別情報と該コミュニティに含まれる全てのユーザの識別情報とを対応付ける技術などが開示されている。また、特許文献2では、ユーザの位置情報に基づき、2以上のユーザが所定の距離以内に所定時間以上連続していたか否かを条件にユーザ間でコミュニケーションが成立したか否かを判定する技術などが開示されている。
In recent years, techniques for evaluating communication using sensor devices have been developed. For example, in
しかし、上述した技術は、コミュニケーションが図られたか否かの条件に2以上のユーザが互いに一定時間接近していることを要する。そのため、例えば、挨拶などの接近時間が短い場合は、上述した技術はユーザ間でコミュニケーションが図られたと判定しない。すなわち、挨拶などの短時間のコミュニケーションを分析するために改善の余地があった。 However, the above-mentioned technique requires that two or more users are in close contact with each other for a certain period of time depending on whether or not communication has been achieved. Therefore, for example, when the approach time such as greeting is short, the above-mentioned technique does not determine that communication has been achieved between users. That is, there was room for improvement in order to analyze short-term communication such as greetings.
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、2以上のユーザが一定時間以上接近している条件を要さずにコミュニケーションを分析することが可能な、新規かつ改良された情報処理装置、情報処理方法および情報処理プログラムを提供することにある。 Therefore, the present invention has been made in view of the above problems, and an object of the present invention is to analyze communication without requiring a condition that two or more users are close to each other for a certain period of time or longer. It is to provide possible new and improved information processing devices, information processing methods and information processing programs.
上記課題を解決するために、本発明のある観点によれば、複数のユーザの音声データに基づき、少なくとも2以上のユーザがコミュニケーションを図ったか否かを認識する認識部と、前記認識部によりコミュニケーションを図ったと認識された前記2以上のユーザのコミュニケーション中におけるデータから算出された前記2以上のユーザの各々の特徴量である第1の特徴量と、前記2以上のユーザの過去のコミュニケーション中におけるデータから算出された前記2以上のユーザの各々の特徴量である第2の特徴量とを比較し、前記2以上のユーザの各々について得られた当該比較の結果に基づき、前記2以上のユーザが同調している度合いを示す同調度を算出する算出部と、を備える、情報処理装置が提供される。 In order to solve the above problems, according to a certain viewpoint of the present invention, a recognition unit that recognizes whether or not at least two or more users have communicated based on voice data of a plurality of users, and a recognition unit that communicates with the recognition unit. The first feature amount, which is the feature amount of each of the two or more users calculated from the data during the communication of the two or more users recognized as having attempted, and the past communication of the two or more users. The second feature amount, which is the feature amount of each of the two or more users calculated from the data, is compared with the second feature amount, and based on the result of the comparison obtained for each of the two or more users, the two or more users. Provided is an information processing apparatus including a calculation unit for calculating a degree of synchronization indicating the degree of synchronization.
前記算出部は、前記2以上のユーザの各々について得られた比較の結果の差分が小さいほど、高い度合を示す同調度を算出してもよい。 The calculation unit may calculate the degree of entrainment indicating a higher degree as the difference between the comparison results obtained for each of the two or more users is smaller.
前記第2の特徴量は、前記2以上のユーザ間で生じた過去のコミュニケーション中におけるデータのみから算出された特徴量を示してもよい。 The second feature amount may indicate a feature amount calculated only from data in the past communication generated between the two or more users.
前記情報処理装置は、二つの文字列を互いに対応付けて記憶する記憶部と、前記二つの文字列の一方が示す言葉を少なくとも1以上のユーザが発言し、かつ前記二つの文字列の他方が示す言葉を前記1以上のユーザと異なるユーザが発言したか否かを判定する判定部と、をさらに備え、前記判定部が発言したと判定した場合、前記認識部は少なくとも2以上のユーザがコミュニケーションを図ったと認識してもよい。 In the information processing device, a storage unit that stores two character strings in association with each other, and at least one user speaks a word indicated by one of the two character strings, and the other of the two character strings speaks. Further, a determination unit for determining whether or not a user different from the one or more users has spoken the indicated word is further provided, and when it is determined that the determination unit has spoken, at least two or more users communicate with the recognition unit. It may be recognized that the attempt was made.
前記第2の特徴量は、前記2以上のユーザが前記二つの文字列が示す言葉のどちらか一方を発言した際の過去のコミュニケーション中におけるデータのみから算出された特徴量を示してもよい。 The second feature amount may indicate a feature amount calculated only from data in the past communication when one of the words indicated by the two character strings is spoken by the two or more users.
前記二つの文字列は、挨拶の言葉または会話のはじめに発生する呼びかけの言葉を示してもよい。 The two strings may indicate a greeting or a call that occurs at the beginning of a conversation.
前記第1の特徴量および前記第2の特徴量は、前記2以上のユーザが発した言葉の音圧レベル、基本周波数または発話速度を含めてもよい。 The first feature amount and the second feature amount may include the sound pressure level, fundamental frequency or utterance speed of words spoken by the two or more users.
前記情報処理装置は、複数のユーザの位置情報に基づき、少なくとも2以上のユーザが接近したか否かを検知する検知部、をさらに備え、前記認識部は、前記検知部により接近したと検知されたユーザの音声データに基づき、少なくとも2以上のユーザが会話を行ったか否かを認識してもよい。 The information processing device further includes a detection unit that detects whether or not at least two or more users have approached based on the position information of a plurality of users, and the recognition unit is detected to have approached by the detection unit. It may be recognized whether or not at least two or more users have a conversation based on the voice data of the user.
前記複数のユーザの位置情報は、前記複数のユーザの位置を測位した測位データが示す情報を含めてもよい。 The position information of the plurality of users may include information indicated by positioning data for positioning the positions of the plurality of users.
前記情報処理装置は、前記同調度が所定の基準を満たした場合、前記2以上のユーザの関係性に変化があったと推定する推定部、をさらに備えてもよい。 The information processing device may further include an estimation unit that estimates that the relationship between the two or more users has changed when the degree of synchronization meets a predetermined criterion.
前記所定の基準は、前記同調度と、過去の同調度または過去の同調度の平均値との差分が所定値を超えた場合を含めてもよい。 The predetermined criterion may include the case where the difference between the tuning degree and the past tuning degree or the average value of the past tuning degree exceeds the predetermined value.
また、上記課題を解決するために、本発明の別の観点によれば、複数のユーザの音声データに基づき、少なくとも2以上のユーザがコミュニケーションを図ったか否かを認識することと、コミュニケーションを図ったと認識された前記2以上のユーザのコミュニケーション中におけるデータから算出された前記2以上のユーザの各々の第1の特徴量と、前記2以上のユーザの過去のコミュニケーション中におけるデータから算出された前記2以上のユーザの各々の第2の特徴量とを比較し、前記2以上のユーザの各々について得られた当該比較の結果に基づき、前記2以上のユーザが同調している度合いを示す同調度を算出することと、を含む、コンピュータにより実行される情報処理方法が提供される。 Further, in order to solve the above-mentioned problems, according to another viewpoint of the present invention, it is recognized whether or not at least two or more users have communicated with each other based on the voice data of a plurality of users, and communication is attempted. The first feature amount of each of the two or more users calculated from the data in the communication of the two or more users recognized as having been recognized, and the data calculated from the data in the past communication of the two or more users. A degree of synchronization indicating the degree to which the two or more users are synchronized based on the result of the comparison obtained for each of the two or more users by comparing with the second feature amount of each of the two or more users. Is provided, and information processing methods performed by the computer, including.
また、上記課題を解決するために、本発明の別の観点によれば、コンピュータを、複数のユーザの音声データに基づき、少なくとも2以上のユーザがコミュニケーションを図ったか否かを認識する認識部と、前記認識部によりコミュニケーションを図ったと認識された前記2以上のユーザのコミュニケーション中におけるデータから算出された前記2以上のユーザの各々の第1の特徴量と、前記2以上のユーザの過去のコミュニケーション中におけるデータから算出された前記2以上のユーザの各々の第2の特徴量とを比較し、前記2以上のユーザの各々について得られた当該比較の結果に基づき、前記2以上のユーザが同調している度合いを示す同調度を算出する算出部、として機能させるための、情報処理プログラムが提供される。 Further, in order to solve the above problems, according to another viewpoint of the present invention, the computer is a recognition unit that recognizes whether or not at least two or more users have communicated with each other based on the voice data of a plurality of users. , The first feature amount of each of the two or more users calculated from the data during the communication of the two or more users recognized as having communicated by the recognition unit, and the past communication of the two or more users. The second or more users are compared with the second feature amount of each of the two or more users calculated from the data in the data, and the two or more users are synchronized based on the result of the comparison obtained for each of the two or more users. An information processing program is provided to function as a calculation unit for calculating the degree of synchronization indicating the degree of synchronization.
以上説明したように本発明によれば、2以上のユーザが一定時間以上接近している条件を要さずにコミュニケーションを分析することが可能である。 As described above, according to the present invention, it is possible to analyze communication without requiring the condition that two or more users are close to each other for a certain period of time or longer.
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。 Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. In the present specification and the drawings, components having substantially the same functional configuration are designated by the same reference numerals, and duplicate description will be omitted.
また、本明細書および図面の説明は、第1のユーザU1が保有する情報端末を情報端末5A、および第2のユーザU2が保有する情報端末を情報端末5Bのように、必要に応じて各情報端末を区別する。ただし、各情報端末を特に区別する必要がない場合は、各情報端末を単に情報端末5と称する。
Further, in the description of the present specification and the drawings, the information terminal owned by the first user U1 is the
<1.情報処理システムの概要>
本発明の実施形態は、2以上のユーザが一定時間以上接近している条件を要さずにコミュニケーションを分析することを可能とする情報処理システムに関する。以下、図1を参照し、情報処理システムの概要を説明する。
<1. Information processing system overview>
An embodiment of the present invention relates to an information processing system capable of analyzing communication without requiring a condition that two or more users are in close proximity for a certain period of time or longer. Hereinafter, an outline of the information processing system will be described with reference to FIG.
図1は、本実施形態に係る情報処理システムの概略的な構成の一例を示す説明図である。本発明の実施形態による情報処理システムは、図1に示したように、測位部3と、情報端末5と、サーバ10と、を有する。また、ユーザU1およびユーザU2は、コミュニケーションを図っているユーザを示す。
FIG. 1 is an explanatory diagram showing an example of a schematic configuration of an information processing system according to the present embodiment. As shown in FIG. 1, the information processing system according to the embodiment of the present invention includes a
(ネットワーク)
ネットワーク1は、測位部3、情報端末5、およびサーバ10を接続している。例えば、ネットワーク1は、電話回線網、インターネット、通信衛星網などの公衆回線網や、LAN(Local Aera Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク1は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。
(network)
The
(測位部)
測位部3は、情報端末5の位置を測位する機能を有する。測位部3は、ネットワーク1を介して、測位の結果を示す測位データをサーバ10に送信する。測位部3は、例えば、情報端末5から発せれた各情報端末5に固有の識別情報を含む信号を測位部3で受信し、該識別信号の受信強度に基づいて、情報端末5の位置を測位する。
(Positioning department)
The
(情報端末)
情報端末5は、ユーザの音声データを取得する機能および一定間隔で情報端末5の識別情報を含む信号を送信する機能などを有する。音声データを取得する機能は、例えば、マイクロフォンを備えてもよい。また、識別情報を含む信号を送信する機能は、例えば、BLE(Bluetooth Low Energy)を送信する機能を備えてもよい。なお、音声データを取得する機能および識別情報を含む信号を送信する機能はそれぞれ分離して構成されてもよい。また、情報端末5は、ネットワーク1を介して、取得した音声データをサーバ10に送信する。また、情報端末5は各ユーザが所有している端末であり、例えば、タブレット端末、スマートフォンまたはウェアラブル端末であってもよい。
(Information terminal)
The information terminal 5 has a function of acquiring voice data of a user, a function of transmitting a signal including identification information of the information terminal 5 at regular intervals, and the like. The function of acquiring voice data may include, for example, a microphone. Further, the function of transmitting a signal including the identification information may include, for example, a function of transmitting BLE (Bluetooth Low Energy). The function of acquiring voice data and the function of transmitting a signal including identification information may be separately configured. Further, the information terminal 5 transmits the acquired voice data to the
(サーバ)
サーバ10は、データを分析する機能、データを送受信する機能、およびデータを保管する機能などを有する。例えば、本実施形態では、サーバ10は測位部3から得られたデータおよび情報端末5から得られたデータに基づいて、ユーザがコミュニケーションを図ったか否かを認識する機能、およびユーザが同調している度合いを示す同調度を算出する機能などを有する。
(server)
The
本実施形態では、上述した情報処理システムのうち、特にサーバ10に創意工夫がなされている。以下、本実施形態によるサーバ10の構成および動作を順次詳細に説明する。
In the present embodiment, among the above-mentioned information processing systems, the
<2.本実施形態に係るサーバ10の機能構成>
図2は、本実施形態に係るサーバ10の機能構成を示すブロック図である。図2に示したように、サーバ10は、通信部11と、ユーザ検知部15と、音声認識部19と、ペア判定部23と、情報分析部27と、同調度算出部31と、記憶部35と、関係性推定部39と、を有する。
<2. Functional configuration of
FIG. 2 is a block diagram showing a functional configuration of the
通信部11は、ネットワーク1を介して、測位部3または情報端末5と通信する機能を有する。例えば、通信部11は、測位部3から測位データを受信し、情報端末5から音声データを受信する。
The communication unit 11 has a function of communicating with the
ユーザ検知部15は、検知部の一例であり、2以上のユーザが接近したか否かを検知する機能を有する。例えば、ユーザ検知部15は測位部3より受信した測位データに基づいて、2以上のユーザが接近したか否かを検知する。
The
音声認識部19は、認識部の一例であり、通信部11により情報端末5から受信された音声データに基づき、ユーザが発した言葉を示す文字データを認識する機能を有する。さらに音声認識部19は、ユーザが発した言葉に基づき、音の分節単位を示すモーラ数を認識してもよい。例えば、音声認識部19は、ユーザ検知部15により接近していると検知された2以上のユーザがコミュニケーションを図った場合、音声認識部19は該2以上のユーザが発した言葉を示す文字データを認識し、該ユーザがコミュニケーションを図ったか否かを認識する。
The
ここで、2以上のユーザがコミュニケーションを図ったか否かを認識する一例を、図1を参照して説明する。まず、ユーザ検知部15は、測位部3から受信された測位データに基づき、ユーザU1およびユーザU2が接近したと検知する。次に、接近していると検知されたユーザU1の保有する情報端末5AおよびユーザU2の保有する情報端末5Bに音声が入力された場合、情報端末5Aおよび情報端末5Bはサーバ10の通信部11に音声を送信する。ここで、情報端末5Aおよび情報端末5Bから受信された音声の音圧レベルがともに所定値を超えた場合、音声認識部19は、ユーザU1およびユーザU2が互いに言葉を発したことを認識し、該ユーザ間でコミュニケーションを図ったと認識する。
Here, an example of recognizing whether or not two or more users have communicated will be described with reference to FIG. First, the
ペア判定部23は、判定部の一例であり、音声認識部19によって認識された文字データに基づき、後述する記憶部35に記憶されている互いに対応付けられた二つの文字列の一方が示す言葉を1以上のユーザが発し、該二つの文字列の他方が示す言葉を該1以上のユーザと異なるユーザが発したか否かを判定する機能を有する。以下、記憶部35に記憶されている互いに対応付けられた二つの文字列を挨拶ペアと称する。
The
例えば、記憶部35は複数の挨拶を示す文字列と該挨拶に対する応答を示す文字列を互いに対応付けて記憶している。ここで、1以上のユーザがいずれかの該挨拶を示す言葉を発し、かつ、該1以上のユーザと異なるユーザが該挨拶に対応付けられた応答を示す言葉を発した場合、ペア判定部23は、2以上のユーザが、挨拶ペアが示す言葉を発したと判定する。一方、該挨拶が示す言葉または該挨拶に対する応答が示す言葉のどちらか一方の言葉を1以上のユーザが発しなかった場合、ペア判定部23は、挨拶ペアが示す言葉を2以上のユーザが発しなかったと判定する。
For example, the
情報分析部27は、通信部11により情報端末5から受信されたデータに基づき、特徴量を分析する。情報分析部27は、例えば、情報端末5から受信された音声データに基づき、音圧レベル、基本周波数および発話速度などの特徴量を分析する。なお、情報分析部27は、公知の方法に基づき、特徴量を分析してもよい。例えば、情報分析部27は、ユーザが発した言葉から認識されたモーラ数および該ユーザが発した言葉の音声検出時間に基づき、発話速度を分析してもよい。
The
同調度算出部31は、算出部の一例であり、情報分析部27によって分析された特徴量に基づき、2以上のユーザが同調している度合いを示す同調度を算出する。例えば、あるユーザU1の体調が優れず、該ユーザU1が他のユーザに対して普段よりも小さい声量で挨拶を行った場合、該ユーザU1を気遣って普段よりも小さい声量で挨拶を返すユーザU2が存在し得るし、普段通りの声量で挨拶を返すユーザU3も存在し得る。ここで、普段よりも小さい声量で挨拶を返すユーザU2は、普段通りの声量で挨拶を返すユーザU3よりもユーザU1に同調していると考えられる。そこで、同調度算出部31は、ユーザU1とユーザU3との同調度よりも、ユーザU1とユーザU2との同調度を高く算出する。以下、図3を参照して同調度の算出方法をより具体的に説明する。
The synchronization
図3は、同調度の算出方法の一例を説明するための説明図である。以下、2以上のユーザが互いに挨拶を行った場合の同調度の算出方法を説明するが、同調度算出部31は挨拶に限定せずに会話から同調度を算出してもよい。
FIG. 3 is an explanatory diagram for explaining an example of a method for calculating the degree of synchronization. Hereinafter, a method of calculating the degree of entrainment when two or more users greet each other will be described, but the entrainment
まず、話しかけユーザ51Aは挨拶を行ったユーザを示し、応答ユーザ51Bは話しかけユーザ51Aに対して挨拶を返したユーザを示す。挨拶話しかけ55Aは話しかけユーザ51Aが発した言葉を示し、挨拶応答55Bは応答ユーザ51Bが発した言葉を示す。なお、ペア判定部23によって判定される挨拶ペアは、挨拶話しかけ55Aおよびそれに対応付けられた挨拶応答55Bを示す。次に、音圧レベル59は、ユーザが発した言葉の音圧レベルの値を示す。平均音圧レベル63は、ユーザが過去に発した言葉の音圧レベルの平均値を示す。つぎに、音圧レベル変動67は、音圧レベル59および平均音圧レベル63の比較の結果を示す。なお、平均音圧レベル63は音圧レベル59との比較対象を示しているが、該比較対象は、平均音圧レベル63に代えて、ユーザが直近の過去に発した言葉の音圧レベルの値でもよい。
First, the talking
同調度算出部31は、話しかけユーザ51Aの音圧レベル変動67Aと、応答ユーザ51Bの音圧レベル変動67Bとの差分から同調度を算出する。例えば、同調度算出部31は両ユーザの音圧レベル変動の差分が小さいほど、高い同調度を算出する。
The tuning
まずはNo1の行に基づき算出される同調度を説明する。話しかけユーザ51Aの音圧レベル変動67Aは「-5dB」を示しており、ユーザ51Bの音圧レベル変動67Bもまた「-5dB」を示している。したがって、話しかけユーザ51Aの音圧レベル変動67Aと、応答ユーザ51Bの音圧レベル変動67Bとの差分は「0」になり、同調度は最も高く算出される。
First, the degree of synchronization calculated based on the No. 1 row will be described. The sound
次にNo3の行に基づき算出される同調度を説明する。ユーザ51Aの音圧レベル変動67Aは「-8dB」を示しており、ユーザ51Bの音圧レベル変動67Bは「+2dB」を示している。したがって、話しかけユーザ51Aの音圧レベル変動67Aと、応答ユーザ51Bの音圧レベル変動67Bとの差分は「10dB」になり、No1の行に基づき算出される同調度と比較すると、No3の行に基づき算出される同調度は低くなる。
Next, the degree of synchronization calculated based on the row of No. 3 will be described. The sound
なお、同調度算出部31は、音圧レベル変動67A及び音圧レベル変動67Bの差分の大きさに応じて、定量的に同調度を算出してもよい。例えば、差分が「0~3dB」の場合、同調度は「3」を示し、差分が「4~6dB」の場合、同調度は「2」を示し、差分が「7dB~」の場合、同調度は「1」を示してもよい。また、特徴量として音圧レベルを用いて同調度を算出する例を主に説明したが、同調度算出部31は、他の特徴量を用いて同調度を算出してもよいし、複数の特徴量を用いて同調度を算出してもよい。例えば、同調度算出部31は、音圧レベルに加えて、基本周波数および発話速度の各々についてユーザ間での特徴量の差分を算出し、算出された複数の特徴量の差分に基づき、同調度を算出してもよい。
The tuning
また、平均音圧レベル63は、同一のユーザ間において生じた過去のコミュニケーション中の音声データのみから分析された音圧レベルの平均値を示してもよい。また、平均音圧レベル63は、ユーザが同一の挨拶ペアが示す言葉を発した際の過去のコミュニケーション中における音声データのみから分析された音圧レベルの平均値を示してもよい。さらに、平均音圧レベル63は、同一のユーザ間において、同一の挨拶ペアが示す言葉を発した過去のコミュニケーション中における音声データのみから分析された音圧レベルの平均値を示してもよい。
Further, the average
ここで、図2を参照して本実施形態に係るサーバ10の説明にもどる。記憶部35は、ソフトウェアおよび各種データを保持する機能を有する。例えば、記憶部35は、対応付けられた二つの文字列を保持し、情報分析部27によって分析された特徴量を保持する。
Here, the description of the
関係性推定部39は、推定部の一例であり、同調度算出部31によって算出された同調度に基づき、ユーザ間の関係性に変化があったか否かを推定する機能を有する。以下、図4を参照してユーザ間の関係性に変化があったか否かを推定する方法を説明する。
The
図4は、ユーザ間の関係性に変化があったか否かを推定する方法の一例を説明するための説明図である。図4のグラフの横軸は、ユーザU1とユーザU2とがコミュニケーションを図った日時を示し、縦軸はユーザU1とユーザU2の同調度の高さを示している。すなわち、図4のグラフはユーザU1およびユーザU2間における同調度の時系列変化を示している。 FIG. 4 is an explanatory diagram for explaining an example of a method of estimating whether or not there is a change in the relationship between users. The horizontal axis of the graph of FIG. 4 shows the date and time when the user U1 and the user U2 communicate with each other, and the vertical axis shows the high degree of synchronization between the user U1 and the user U2. That is, the graph of FIG. 4 shows the time-series change of the degree of entrainment between the user U1 and the user U2.
例えば、ユーザU1とユーザU2との関係性に変化がない場合、普段と同じような調子でコミュニケーションが図られると考えられるため、同調度算出部31は、該ユーザ間の同調度を高く算出し得る。また、ユーザU1とユーザU2との関係性に変化があった場合、ユーザU1またはユーザU2のいずれか一方のユーザが普段と異なる調子でコミュニケーションが図られると考えられるため、同調度算出部31は、該ユーザ間の同調度を低く算出し得る。この場合、ユーザU1およびユーザU2の同調度と、ユーザU1およびユーザU2の過去の同調度または過去の同調度の平均値との差分が所定値を超えた際に、ユーザU1とユーザU2との関係性に変化があった場合、ユーザU1またはユーザU2のいずれか一方のユーザが普段と異なる調子でコミュニケーションが図られたことが考えられるため、関係性推定部39は、ユーザ間の関係性に変化があったと推定してもよい。
For example, if there is no change in the relationship between the user U1 and the user U2, it is considered that communication can be achieved in the same manner as usual, so that the synchronization
以下、t1において行われた挨拶から算出された同調度と、t2において行われた挨拶から算出された同調度との差分Aは所定値以下の値として説明する。また、t2において行われた挨拶から算出された同調度と、t3において行われた挨拶から算出された同調度との差分Bは所定値を超えた値として説明する。 Hereinafter, the difference A between the tuning degree calculated from the greeting performed at t1 and the tuning degree calculated from the greeting performed at t2 will be described as a value equal to or less than a predetermined value. Further, the difference B between the tuning degree calculated from the greeting performed at t2 and the tuning degree calculated from the greeting performed at t3 will be described as a value exceeding a predetermined value.
まず、t1において行われた挨拶から算出された同調度と、t2において行われた挨拶から算出された同調度との差分Aは所定値以下のため、関係性推定部39は、ユーザU1とユーザU2との関係性に変化がなかったと推定する。また、t2において行われた挨拶から算出された同調度と、t3において行われた挨拶から算出された同調度との差分Bは所定値を超えているため、関係性推定部39は、ユーザU1とユーザU2との関係性に変化があったと推定する。ここで、過去の同調度は、直近の過去の同調度を示しているが、過去の複数の同調度の平均値を示してもよい。例えば、差分Cは、t7において行われた挨拶から算出された同調度と、t4~t6において行われた挨拶から算出された各々の同調度の平均値P1との差分を示している。この場合、関係性推定部39は、該平均値P1と、t7において行われた挨拶から算出された同調度との差分Cに基づき、ユーザ間の関係性に変化があったか否かを推定してもよい。
First, since the difference A between the synchronization degree calculated from the greeting performed at t1 and the synchronization degree calculated from the greeting performed at t2 is equal to or less than a predetermined value, the
以上、本実施形態に係るサーバ10の機能構成を説明した。続いて図5を参照して、本実施形態に係る情報処理システムの動作を説明する。
The functional configuration of the
<3.本実施形態に係るサーバ10の動作の流れの一例>
図5は本実施形態に係るサーバ10の動作の流れの一例を説明するための説明図である。まず、測位部3から受信された測位データに基づき、ユーザ検知部15は2以上のユーザが接近したことを検知する(S01)。そして、通信部11は情報端末5から音声データを受信し(S05)、音声認識部19は、通信部11により受信された音声データを文字データとして認識する(S09)。
<3. An example of the operation flow of the
FIG. 5 is an explanatory diagram for explaining an example of the operation flow of the
次に、ペア判定部23は、音声認識部19により認識された複数の文字データに基づき、記憶部35に保持されたいずれかの挨拶ペアを2以上のユーザが発したか否かを判定する(S13)。ペア判定部23がいずれかの挨拶ペアを2以上のユーザが発したと判定した場合、処理はS17に進められ(S13/Yes)、ペア判定部23が挨拶ペアのいずれも2以上のユーザが発していないと判定した場合、処理はS01に進められる(S13/No)。
Next, the
ペア判定部23がいずれかの挨拶ペアを2以上のユーザが発したと判定した場合(S13/Yes)、音声認識部19は音声データを情報分析部27に出力する(S17)。そして、情報分析部27は該音声データに含まれる音圧レベルを分析する(S21)。
When the
続いて、同調度算出部31は、S21で分析された音圧レベルが示す値と、S13によって2以上のユーザが発したと判定された挨拶ペアの過去の音圧レベルの平均値とを比較し、各ユーザの比較の結果の差分に基づき、同調度を算出する(S25)。
Subsequently, the tuning
そして、記憶部35は同調度算出部31によって算出された同調度を記憶し(S29)、サーバ10は情報処理システムの動作を終了する。
Then, the
以上、本実施形態に係るサーバ10の動作を説明した。続いて、本実施形態の作用効果を説明する。
The operation of the
<4.本実施形態の作用効果>
以上説明した本実施形態によれば、多様な作用効果が得られる。例えば、本実施形態によれば、2以上のユーザ間で図られたコミュニケーションが挨拶のような短時間なコミュニケーションであった場合にも、サーバ10は、該コミュニケーションを効果的に分析することが可能である。詳細に説明すると、本実施形態では、同調度算出部31は、2以上のユーザの挨拶のデータから分析された各々の特徴量と、該2以上のユーザの過去の挨拶のデータから分析された各々の特徴量とを比較し、その比較の結果に基づき、同調度を算出する。他の方法として、一回の挨拶のデータのみに着目して2以上のユーザの関係を分析する方法も考えられるが、一回の挨拶のデータのみから得られる情報量が限られるため、該他の方法を用いて有用な分析結果を得ることは困難である。
<4. Action and effect of this embodiment>
According to the present embodiment described above, various effects can be obtained. For example, according to the present embodiment, even when the communication between two or more users is a short-time communication such as a greeting, the
一方、本実施形態では、上記のように新たな挨拶のデータから分析された特徴量と過去の挨拶のデータから分析された特徴量とを対比的に用いる。したがって、複数のユーザが一定時間接近していることを要さず、2以上のユーザが普段と同じ調子で挨拶を行ったか、または、2以上のユーザが普段と異なる調子で挨拶を行った場合には普段の挨拶との異なり方にユーザ間で同調傾向があったか、などを示す同調度を得ることが可能である。 On the other hand, in the present embodiment, the feature amount analyzed from the new greeting data and the feature amount analyzed from the past greeting data as described above are used in contrast. Therefore, it is not necessary for multiple users to be close to each other for a certain period of time, and two or more users greet in the same tone as usual, or two or more users greet in a different tone than usual. It is possible to obtain a degree of entrainment that indicates whether there was a tendency for entrainment among users in a way different from the usual greeting.
また、同調度算出部31は、コミュニケーションを図った2以上のユーザのデータから分析された各々の特徴量と、該2以上のユーザと同一のユーザ間で生じたコミュニケーション中における過去のデータから分析された各々の特徴量とを比較し、比較の結果に基づき、同調度を算出する。ここで、あるユーザの普段のコミュニケーションの調子は、相手のユーザによって異なり得る。したがって、上記のように同一のユーザ間で生じたコミュニケーション中における過去のデータから分析された特徴量を比較対象に用いることにより、比較の結果として、同一のユーザ間で生じたコミュニケーションの普段との相違をより正確に得ることが可能である。その結果、同調度算出部31は、同調度の算出精度を向上し得る。
Further, the synchronization
また、同調度算出部31はコミュケーションを図った2以上のユーザの音声データから分析された各々の特徴量と、該2以上のユーザが発した言葉と同一の挨拶ペアの過去の音声データから分析された各々の特徴量とを比較し、比較の結果に基づき、同調度を算出する。ここで、あるユーザの普段のコミュニケーションの調子は、挨拶の内容によって異なり得る。したがって、上記のように同一の挨拶ペアの過去の音声データから分析された特徴量を比較対象に用いることにより、比較の結果として、同一の挨拶ペアが示す言葉を発したコミュニケーションの普段との相違をより正確に得ることが可能である。その結果、同調度算出部31は、同調度の算出精度を向上し得る。
Further, the entrainment
また、ユーザ検知部15が、ユーザが接近しているか否かを検知することで、音声認識部19はコミュニケーションが図られたか否かを認識する精度を向上し得る。
Further, the
また、関係性推定部39がユーザ間の関係性の変化があったか否かを推定するため、例えば、サーバ10はユーザ間で生じた問題を把握し得る。
Further, since the
以上、本実施形態に係るサーバ10の作用効果を説明した。上述した、特徴量を分析および同調度を算出などの情報処理は、ソフトウェアと、サーバ10のハードウェアとの協働により実現される。図6を参照し、本実施形態に係るサーバ10のハードウェア構成を説明する。
The operation and effect of the
<5.本実施形態に係るサーバ10のハードウェア構成>
図6は本実施形態に係るサーバ10のハードウェア構成を示したブロック図である。サーバ10は、CPU(Central Processing Unit)102と、ROM(Read Only Memory)104と、RAM(Randome Access Memory)106と、内部バス108と、入出力インタフェース110と、表示部112と、入力部113と、音声出力部114と、記憶部115と、ドライブ116と、ネットワークインタフェース117と、外部インタフェース118と、を備えることができる。
<5. Hardware configuration of
FIG. 6 is a block diagram showing a hardware configuration of the
CPU102は、演算処理装置及び制御装置として機能し、各種プログラムに従ってサーバ10内の動作全般を制御する。CPU102が後述するROM104、RAM106及びソフトウェアと協働することにより、例えば、音声認識部19、同調度算出部31、および関係性推定部39などの機能が実現され得る。
The
ROM104は、CPU102が使用するプログラムおよび演算パラメータ等を記憶する。RAM106は、CPU102の実行において使用するプログラム、およびその実行において適宜変化するパラメータ等を一時記憶する。
The
CPU102、ROM104、RAM106は、内部バス108によって相互に接続され、さらに入出力インタフェース110を介して後述する表示部112、入力部113、音声出力部114、記憶部115、ドライブ116、ネットワークインタフェース117、外部インタフェース118と接続される。
The
表示部112は、例えば、CRT(Cathode Ray Tube)ディスプレイ装置、液晶ディスプレイ(LCD)、OLED(Organic Light Emitting Diode)装置などの表示装置であり、映像データを映像に変換して出力する。また、入力部113は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、センサ、スイッチ及びレバーなどメンバーが情報を入力するための入力手段と、メンバーによる入力に基づいて入力信号を生成し、CPU102に出力する入力制御回路などから構成され得る。また、音声出力部114は、スピーカ及びヘッドホンなどの音声出力装置であり、音声データなどを音声に変換して出力する。
The
記憶部115は、本実施形態にかかる記憶部35の一例として構成されたデータ記憶用の装置である。記憶部115は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置及び記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。記憶部115は、例えば、HDD(Hard Disk Drive)やSSD(Solid Strage Drive)、あるいは同等の機能を有するメモリ等で構成される。この記憶部115は、ストレージを駆動し、CPU102が実行するプログラムや各種データを記憶する。
The
ドライブ116は、記憶媒体用リーダライタであり、サーバ10に内蔵、または外付けされる。ドライブ116は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記憶媒体に記憶されている情報を読み出して、RAM106に出力する。また、ドライブ116は、リムーバブル記憶媒体に情報を書き込むことも可能である。
The
ネットワークインタフェース117は、例えば、インターネットなどの通信網に接続するためのデバイス等で構成された通信インタフェースである。また、ネットワークインタフェース117は、有線LAN(Local Area Network)または無線LAN対応通信装置であってもよいし、有線による通信を行うワイヤー通信装置であってもよい。
The
外部インタフェース118は、例えばUSB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポート、RS-232Cポートまたは光オーディオ端子などのような外部接続機器を接続するための接続ポートで構成された接続インタフェースである。
The
<6.補足>
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
<6. Supplement>
Although the preferred embodiments of the present invention have been described in detail with reference to the accompanying drawings, the present invention is not limited to these examples. It is clear that a person having ordinary knowledge in the field of technology to which the present invention belongs can come up with various modifications or modifications within the scope of the technical ideas described in the claims. , These are also naturally understood to belong to the technical scope of the present invention.
例えば、本実施形態による情報処理システムを利用する各々のユーザは複数のグループのうちのいずれかのグループに分類されていてもよい。例えば、ユーザU1がグループBに属するユーザU2とコミュニケーションを図った場合、同調度算出部31は、ユーザU1とグループBに属するユーザとの過去のコミュニケーション中におけるデータから分析された特徴量の平均値を比較対象として用いて、同調度を算出してもよい。例えば、ユーザU1より上司であるユーザU2の属するグループBが課長グループであった場合、同調度算出部31は、ユーザU1と課長グループに属する全てのユーザとの特徴量の平均値を比較対象として用いて、ユーザU1とユーザU2との同調度を算出する。この場合、サーバ10は、ユーザU1とユーザU2との関係性が、ユーザU1と課長グループ全体との関係性と比較して平均的であるか否かを推定し得る。
For example, each user who uses the information processing system according to the present embodiment may be classified into one of a plurality of groups. For example, when the user U1 communicates with the user U2 belonging to the group B, the synchronization
また、本実施形態に係るサーバ10の動作の処理におけるステップは、必ずしも説明図として記載された順序に沿って時系列に処理する必要はない。例えば、サーバ10の動作の処理における各ステップは、説明図として記載した順序と異なる順序で処理されてもよく、並列的に処理されてもよい。
Further, the steps in the processing of the operation of the
また、ユーザ検知部15は、ユーザを撮影した映像データから2以上のユーザが接近しているか否かを検知してもよい。かかる構成によれば、測位部3がない場合においても、ユーザ検知部15は2以上のユーザが接近しているか否かを検知できる。
Further, the
また、情報分析部27はユーザを撮影した映像データに基づき、表情または動作の特徴量を分析してもよい。情報分析部27は、例えば、表情分析として、口角の高さ、またはおじぎの角度を分析してもよい。この結果、情報分析部27は、ジェスチャーのみからもコミュニケーションを分析し得る。また、情報分析部27は、ユーザの感情の変化を分析し得る。さらに、同調度算出部31は、音声データから分析される特徴量と、映像データから分析される特徴量とを組み合わせることによって、高い精度で同調度を算出し得る。
Further, the
また、関係性推定部39がユーザ間の関係性に変化があったと推定した場合、通信部11は該ユーザにアラートを送信してもよい。この場合、アラートを受けたユーザは相手のユーザとの間で関係性に変化があったと推定されたことを把握し得る。
Further, when the
また、サーバ10は、例えば、過去に算出された同調度の変化と、該同調度が算出された同一の時点おけるユーザ間の関係性の変化との関係を学習する推定器をさらに備えてもよい。そして、関係性推定部39は、前記関係を学習させた推定器を用いて、ユーザ間の関係性が変化するか否かを推定してもよい。この結果、サーバ10はユーザ間の関係性が悪化するか否かを予測的に把握し得る。
Further, the
また、サーバ10に内蔵されるCPU、ROMおよびRAMなどのハードウェアに、上述したサーバ10の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。
Further, it is possible to create a computer program for causing the hardware such as the CPU, ROM, and RAM built in the
1 ネットワーク
3 測位部
5 情報端末
10 サーバ
11 通信部
15 ユーザ検知部
19 音声認識部
23 ペア判定部
27 情報分析部
31 同調度算出部
35 記憶部
39 関係性推定部
1
Claims (13)
前記認識部によりコミュニケーションを図ったと認識された前記2以上のユーザのコミュニケーション中におけるデータから算出された前記2以上のユーザの各々の特徴量である第1の特徴量と、前記2以上のユーザの過去のコミュニケーション中におけるデータから算出された前記2以上のユーザの各々の特徴量である第2の特徴量とを比較し、前記2以上のユーザの各々について得られた当該比較の結果に基づき、前記2以上のユーザが同調している度合いを示す同調度を算出する算出部と、
を備える、情報処理装置。 A recognition unit that recognizes whether or not at least two or more users have communicated based on the voice data of multiple users.
The first feature amount, which is the feature amount of each of the two or more users calculated from the data during the communication of the two or more users recognized as having communicated by the recognition unit, and the two or more users. Compared with the second feature amount, which is the feature amount of each of the two or more users calculated from the data in the past communication, and based on the result of the comparison obtained for each of the two or more users. A calculation unit that calculates the degree of synchronization, which indicates the degree of synchronization of the two or more users.
An information processing device equipped with.
二つの文字列を互いに対応付けて記憶する記憶部と、
前記二つの文字列の一方が示す言葉を少なくとも1以上のユーザが発言し、かつ前記二つの文字列の他方が示す言葉を前記1以上のユーザと異なるユーザが発言したか否かを判定する判定部と、
をさらに備え、
前記判定部が発言したと判定した場合、前記認識部は少なくとも2以上のユーザがコミュニケーションを図ったと認識する、請求項1~3のいずれかに記載の情報処理装置。 The information processing device is
A storage unit that stores two character strings in association with each other,
Determination of whether or not at least one user has spoken a word indicated by one of the two character strings, and a user different from the one or more users has spoken the word indicated by the other of the two character strings. Department and
Further prepare
The information processing apparatus according to any one of claims 1 to 3, wherein when it is determined that the determination unit has spoken, the recognition unit recognizes that at least two or more users have communicated with each other.
複数のユーザの位置情報に基づき、少なくとも2以上のユーザが接近したか否かを検知する検知部、
をさらに備え、
前記認識部は、前記検知部により接近したと検知されたユーザの音声データに基づき、少なくとも2以上のユーザが会話を行ったか否かを認識する、請求項1~7のいずれか一項に記載の情報処理装置。 The information processing device is
A detector that detects whether or not at least two or more users have approached based on the location information of multiple users.
Further prepare
The one according to any one of claims 1 to 7, wherein the recognition unit recognizes whether or not at least two or more users have a conversation based on the voice data of the user detected to be closer by the detection unit. Information processing equipment.
前記同調度が所定の基準を満たした場合、前記2以上のユーザの関係性に変化があったと推定する推定部、
をさらに備える、請求項1~9のいずれか一項に記載の情報処理装置。 The information processing device is
An estimation unit that estimates that the relationship between two or more users has changed when the degree of synchronization meets a predetermined criterion.
The information processing apparatus according to any one of claims 1 to 9, further comprising.
コミュニケーションを図ったと認識された前記2以上のユーザのコミュニケーション中におけるデータから算出された前記2以上のユーザの各々の第1の特徴量と、前記2以上のユーザの過去のコミュニケーション中におけるデータから算出された前記2以上のユーザの各々の第2の特徴量とを比較し、前記2以上のユーザの各々について得られた当該比較の結果に基づき、前記2以上のユーザが同調している度合いを示す同調度を算出することと、
を含む、コンピュータにより実行される情報処理方法。 Recognizing whether at least two or more users have communicated based on the voice data of multiple users.
Calculated from the first feature amount of each of the two or more users calculated from the data in the communication of the two or more users recognized as having communicated, and the data in the past communication of the two or more users. The degree to which the two or more users are synchronized is determined based on the result of the comparison obtained for each of the two or more users by comparing with the second feature amount of each of the two or more users. To calculate the degree of entrainment shown and
Information processing methods performed by a computer, including.
複数のユーザの音声データに基づき、少なくとも2以上のユーザがコミュニケーションを図ったか否かを認識する認識部と、
前記認識部によりコミュニケーションを図ったと認識された前記2以上のユーザのコミュニケーション中におけるデータから算出された前記2以上のユーザの各々の第1の特徴量と、前記2以上のユーザの過去のコミュニケーション中におけるデータから算出された前記2以上のユーザの各々の第2の特徴量とを比較し、前記2以上のユーザの各々について得られた当該比較の結果に基づき、前記2以上のユーザが同調している度合いを示す同調度を算出する算出部、
として機能させるための、情報処理プログラム。 Computer,
A recognition unit that recognizes whether or not at least two or more users have communicated based on the voice data of multiple users.
The first feature amount of each of the two or more users calculated from the data during the communication of the two or more users recognized as having communicated by the recognition unit, and the past communication of the two or more users. The second or more users are compared with the second feature amount of each of the two or more users calculated from the data in the above, and the two or more users are synchronized based on the result of the comparison obtained for each of the two or more users. A calculation unit that calculates the degree of synchronization, which indicates the degree of synchronization.
An information processing program to function as.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020157116A JP2022050924A (en) | 2020-09-18 | 2020-09-18 | Information processing device, information processing method, and information processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020157116A JP2022050924A (en) | 2020-09-18 | 2020-09-18 | Information processing device, information processing method, and information processing program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022050924A true JP2022050924A (en) | 2022-03-31 |
Family
ID=80854739
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020157116A Pending JP2022050924A (en) | 2020-09-18 | 2020-09-18 | Information processing device, information processing method, and information processing program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022050924A (en) |
-
2020
- 2020-09-18 JP JP2020157116A patent/JP2022050924A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110268470B (en) | Audio device filter modification | |
CN108351872B (en) | Method and system for responding to user speech | |
US10847171B2 (en) | Method for microphone selection and multi-talker segmentation with ambient automated speech recognition (ASR) | |
US11138977B1 (en) | Determining device groups | |
JP6350148B2 (en) | SPEAKER INDEXING DEVICE, SPEAKER INDEXING METHOD, AND SPEAKER INDEXING COMPUTER PROGRAM | |
CN103714813B (en) | Phrase recognition system and method | |
CN107799126A (en) | Sound end detecting method and device based on Supervised machine learning | |
WO2016095218A1 (en) | Speaker identification using spatial information | |
WO2014120291A1 (en) | System and method for improving voice communication over a network | |
JP2009237353A (en) | Association device, association method, and computer program | |
JP2020115206A (en) | System and method | |
JP5549506B2 (en) | Speech recognition apparatus and speech recognition method | |
KR102580828B1 (en) | Multi-channel voice activity detection | |
JP2015082093A (en) | Abnormal conversation detector, abnormal conversation detecting method, and computer program for detecting abnormal conversation | |
JP3838159B2 (en) | Speech recognition dialogue apparatus and program | |
US20200279570A1 (en) | Speaker determination apparatus, speaker determination method, and control program for speaker determination apparatus | |
JP2022050924A (en) | Information processing device, information processing method, and information processing program | |
KR20120079342A (en) | Acoustic processing apparatus and method based on position information | |
KR20230011894A (en) | Techniques for audio feature detection | |
US11631411B2 (en) | System and method for multi-microphone automated clinical documentation | |
KR20230118165A (en) | Adapting Automated Speech Recognition Parameters Based on Hotword Attributes | |
US6934364B1 (en) | Handset identifier using support vector machines | |
JP2020024310A (en) | Speech processing system and speech processing method | |
Lee et al. | Space-time voice activity detection | |
JP2020024338A (en) | Sound source direction estimation program, sound source direction estimation method and sound source direction estimation device |