JP2022038498A - Selection program, selection method and selection device - Google Patents

Selection program, selection method and selection device Download PDF

Info

Publication number
JP2022038498A
JP2022038498A JP2020143044A JP2020143044A JP2022038498A JP 2022038498 A JP2022038498 A JP 2022038498A JP 2020143044 A JP2020143044 A JP 2020143044A JP 2020143044 A JP2020143044 A JP 2020143044A JP 2022038498 A JP2022038498 A JP 2022038498A
Authority
JP
Japan
Prior art keywords
utterance
information
unit
voice
speakers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020143044A
Other languages
Japanese (ja)
Inventor
ユカ 田中
Yuka Tanaka
敏裕 小高
Toshihiro Odaka
拓也 古田
Takuya Furuta
智裕 大嶽
Tomohiro Otake
幹篤 ▲角▼岡
Motoshi Sumioka
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2020143044A priority Critical patent/JP2022038498A/en
Publication of JP2022038498A publication Critical patent/JP2022038498A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

To select participants with high facilitator ability as facilitators.SOLUTION: A selection device acquires voice information including voices of a plurality of speakers. The selection device detects utterance information in which an utterance section in which an utterance included in the voice information is made and a speaker who made the utterance in the utterance section are associated with each other. The selection device performs voice recognition on the voice information and extracts words included in the voice information. The selection device evaluates impressions of the plurality of speakers before and after the utterance information including specific words included in the voice information. The selection device selects a facilitator based on the evaluation of the impressions of the plurality of speakers.SELECTED DRAWING: Figure 1

Description

本発明は、選定装置等に関する。 The present invention relates to a selection device and the like.

近年、会議や交流会等のイベントにおける交流を支援するシステムが知られている。このようなシステムでは、共通の趣味の参加者をグルーピングすることや、ファシリテーターを選定することなどにより、交流を支援する。 In recent years, a system that supports exchanges at events such as conferences and exchange meetings has been known. Such a system supports exchanges by grouping participants with common hobbies and selecting facilitators.

例えば、立候補または推薦による幹事候補者の中からイベントの幹事を選定する技術がある。この技術を用いることで、幹事が決まっていない状態でもイベントの開催に向けた準備を進めることができる。 For example, there is a technique for selecting an event secretary from candidates for secretary by candidacy or recommendation. By using this technology, it is possible to prepare for the event even if the secretary has not been decided.

特開2018-124750号公報Japanese Unexamined Patent Publication No. 2018-124750 特開2019-8130号公報Japanese Unexamined Patent Publication No. 2019-8130 特開2019-61129号公報Japanese Unexamined Patent Publication No. 2019-61129 国際公開第2017/168663号International Publication No. 2017/168663

しかしながら、上述した技術では、ファシリテート力が高い参加者をファシリテーターに選定することができない場合がある。 However, with the above-mentioned technique, it may not be possible to select a participant with high facilitator ability as a facilitator.

例えば、初対面の人が多数含まれるイベントなどにおいて、グルーピングした参加者に交流を実施させる場合、グループの交流が成功するかはファシリテーターの選び方によるところが大きい。選出されたファシリテーターはアジェンダに従ってその場を仕切るが、不慣れな人がすすめると交流の場は盛り上がらない。上述した技術では、イベントへの参加回数等から交流意欲はわかるものの、選ばれた人が話を聞きだす能力に長けているか判断できないので、交流が盛り上がるようなファシリテーターを選出できない場合がある。 For example, in an event that includes a large number of people who meet for the first time, when the grouped participants are allowed to interact with each other, the success of the group exchange depends largely on how the facilitator is selected. The elected facilitators will partition the venue according to the agenda, but if an inexperienced person recommends it, the venue for interaction will not be lively. With the above-mentioned technology, although the willingness to interact can be understood from the number of times of participation in the event, it is not possible to judge whether the selected person is good at listening to the story, so it may not be possible to select a facilitator that excites the interaction.

1つの側面では、本発明は、ファシリテート力が高い参加者をファシリテーターに選定する選定プログラム、選定方法および選定装置を提供することを目的とする。 In one aspect, it is an object of the present invention to provide a selection program, a selection method, and a selection device for selecting a participant having a high facilitator ability as a facilitator.

第1の案では、コンピュータに次の処理を実行させる。コンピュータは、複数の発話者の音声が含まれる音声情報を取得する。コンピュータは、音声情報に含まれる発話が行われた発話区間と該発話区間における発話を行った発話者とを対応付けた発話情報を検出する。コンピュータは、音声情報に対して音声認識を行い、音声情報に含まれる単語を抽出する。コンピュータは、音声情報に含まれる特定の単語を含む発話情報の前後で、複数の発話者の印象を評価する。コンピュータは、複数の発話者の印象の評価に基づき、ファシリテーターを選定する。 In the first plan, the computer is made to perform the following processing. The computer acquires voice information including the voices of a plurality of speakers. The computer detects the utterance information in which the utterance section in which the utterance is made and the speaker who made the utterance in the utterance section are associated with each other. The computer performs voice recognition on the voice information and extracts words included in the voice information. The computer evaluates the impressions of a plurality of speakers before and after the utterance information including a specific word contained in the voice information. The computer selects a facilitator based on the evaluation of the impressions of multiple speakers.

一実施形態によれば、ファシリテート力が高い参加者をファシリテーターに選定することができる。 According to one embodiment, participants with high facilitator ability can be selected as facilitators.

図1は、本実施例1に係る選定装置の処理の一例を説明するための図である。FIG. 1 is a diagram for explaining an example of processing of the selection apparatus according to the first embodiment. 図2は、本実施例1に係るシステムの一例を示す図である。FIG. 2 is a diagram showing an example of the system according to the first embodiment. 図3は、本実施例1に係る選定装置の構成を示す機能ブロック図である。FIG. 3 is a functional block diagram showing the configuration of the selection device according to the first embodiment. 図4は、発話情報のデータ構造の一例を示す図である。FIG. 4 is a diagram showing an example of a data structure of utterance information. 図5は、発話印象評価情報のデータ構造の一例を示す図である。FIG. 5 is a diagram showing an example of a data structure of utterance impression evaluation information. 図6は、オウム返し発生情報のデータ構造の一例を示す図である。FIG. 6 is a diagram showing an example of a data structure of parrot return generation information. 図7は、ファシリテート力評価情報のデータ構造の一例を示す図である。FIG. 7 is a diagram showing an example of a data structure of facilitating force evaluation information. 図8は、参加者レーティング情報のデータ構造の一例を示す図である。FIG. 8 is a diagram showing an example of a data structure of participant rating information. 図9は、本実施例1に係る選定装置の処理手順を示すフローチャートである。FIG. 9 is a flowchart showing a processing procedure of the selection apparatus according to the first embodiment. 図10は、発話情報を検出する処理手順を示すサブルーチンである。FIG. 10 is a subroutine showing a processing procedure for detecting utterance information. 図11は、オウム返しを特定する処理手順を示すサブルーチンである。FIG. 11 is a subroutine showing a processing procedure for specifying the parrot return. 図12は、本実施例2に係る選定装置の構成を示す機能ブロック図である。FIG. 12 is a functional block diagram showing the configuration of the selection device according to the second embodiment. 図13は、本実施例2に係る選定装置の処理手順を示すフローチャートである。FIG. 13 is a flowchart showing a processing procedure of the selection apparatus according to the second embodiment. 図14は、選定装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。FIG. 14 is a diagram showing an example of a hardware configuration of a computer that realizes the same function as the selection device.

以下に、本願の開示する選定プログラム、選定方法および選定装置の実施例を図面に基づいて説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。 Hereinafter, examples of the selection program, selection method, and selection device disclosed in the present application will be described with reference to the drawings. The present invention is not limited to this embodiment. In addition, each embodiment can be appropriately combined within a consistent range.

図1は、本実施例1に係る選定装置の処理の一例を説明するための図である。本実施例1に係る選定装置は、会議や交流会等の参加者である複数の発話者の音声が含まれる音声情報を取得する。そして、選定装置は、取得した音声情報に含まれる発話が行われた発話区間とこの発話区間における発話を行った発話者とを対応付けた発話情報を検出する。図1に示す発話情報には、発話区間に対応する発話ID、この発話IDに対応する発話者、発話の開始時刻および終了時刻が含まれる。また、選定装置は、音声情報に対して音声認識を行って生成した文字列を発話IDに対応付けて発話内容文字列として記憶する。 FIG. 1 is a diagram for explaining an example of processing of the selection apparatus according to the first embodiment. The selection device according to the first embodiment acquires voice information including voices of a plurality of speakers who are participants in a conference or an exchange meeting. Then, the selection device detects the utterance information in which the utterance section in which the utterance is performed and the utterance speaker in this utterance section, which are included in the acquired voice information, are associated with each other. The utterance information shown in FIG. 1 includes an utterance ID corresponding to the utterance section, a speaker corresponding to the utterance ID, and a start time and end time of the utterance. Further, the selection device associates the character string generated by performing voice recognition with the voice information with the utterance ID and stores it as the utterance content character string.

さらに、選定装置は、この発話内容文字列に含まれる単語を抽出する。そして、選定装置は、時系列順に隣接する発話情報において、抽出した単語が一致し、かつ発話者が異なるオウム返しを特定する。オウム返しとは、発話者が直前の発話者が発した単語をそのまま発することを指す。具体的には、図1の発話情報において、発話ID「h11」に含まれる「コマーシャル」という単語W1と、発話ID「h21」に含まれる「コマーシャル」という単語W2とが抽出され、これらの発話者が異なることによりオウム返しが特定される。 Further, the selection device extracts words included in this utterance content character string. Then, the selection device identifies parrot returns in which the extracted words match and the speakers are different in the adjacent utterance information in chronological order. Echolalia means that the speaker speaks the word spoken by the previous speaker as it is. Specifically, in the utterance information of FIG. 1, the word "commercial" W1 included in the utterance ID "h11" and the word "commercial" W2 included in the utterance ID "h21" are extracted, and these utterances are made. The parrot return is specified by different persons.

また、選定装置は、音声情報に対する参加者の印象を評価する。図1に示す発話印象評価情報には、発話印象評価情報を識別する発話印象ID、この発話印象IDに対応する発話ID、印象評価値に対応する時刻、参加者の印象を評価して数値化した印象評価値が含まれる。 In addition, the selection device evaluates the participants' impressions of the voice information. The utterance impression evaluation information shown in FIG. 1 includes an utterance impression ID that identifies the utterance impression evaluation information, a utterance ID corresponding to this utterance impression ID, a time corresponding to the impression evaluation value, and an evaluation and quantification of the participant's impression. The impression evaluation value that was made is included.

続いて、選定装置は、オウム返しにより、印象がよくなったか否かを判定する。具体的には、図1に示す時間軸において、オウム返しが発生した発話ID「h21」の直後の発話区間に対応する発話ID「h12」の印象評価値V1が上昇しているか否かを判定する。 Subsequently, the selection device determines whether or not the impression is improved by returning the parrot. Specifically, on the time axis shown in FIG. 1, it is determined whether or not the impression evaluation value V1 of the utterance ID “h12” corresponding to the utterance section immediately after the utterance ID “h21” in which the parrot is returned has increased. do.

その後、選定装置は、オウム返しにより印象評価値を上昇させた参加者に対してポイントを加算することにより参加者をレーティングし、このレーティング結果を用いてファシリテーターを選定する。 After that, the selection device rates the participants by adding points to the participants whose impression evaluation value is increased by returning the parrot, and selects the facilitator using the rating result.

上記のように、本実施例1に係る選定装置は、オウム返しにより参加者の印象をよくした参加者をファシリテーターとして選定する。これによって、ファシリテート力が高い参加者をファシリテーターに選定することができる。 As described above, the selection device according to the first embodiment selects the participants who have improved the impression of the participants by returning the parrots as facilitators. As a result, participants with high facilitator ability can be selected as facilitators.

次に、本実施例1にかかるシステムの構成について説明する。図2は、本実施例1に係るシステムの一例を示す図である。図2に示すように、このシステムは、マイク端末10と、選定装置100とを有する。たとえば、マイク端末10と、選定装置100とは、無線によって相互に接続される。なお、マイク端末10と、選定装置100とを有線で接続してもよい。 Next, the configuration of the system according to the first embodiment will be described. FIG. 2 is a diagram showing an example of the system according to the first embodiment. As shown in FIG. 2, this system has a microphone terminal 10 and a selection device 100. For example, the microphone terminal 10 and the selection device 100 are wirelessly connected to each other. The microphone terminal 10 and the selection device 100 may be connected by wire.

マイク端末10は、音声を収録する装置である。マイク端末10は、音声情報を選定装置100に送信する。音声情報には、会議や交流会等の参加者である発話者A~Eの音声の情報が含まれる。マイク端末10は、複数のマイクを備えていてもよい。マイク端末10は、複数のマイクを備えている場合、各マイクで集音した音声情報を、選定装置100に送信する。 The microphone terminal 10 is a device for recording voice. The microphone terminal 10 transmits voice information to the selection device 100. The voice information includes voice information of speakers A to E who are participants in a conference or an exchange meeting. The microphone terminal 10 may include a plurality of microphones. When the microphone terminal 10 includes a plurality of microphones, the voice information collected by each microphone is transmitted to the selection device 100.

選定装置100は、マイク端末10から音声情報を取得し、発話者A~Eのうち、ファシリテート力が高いと判定した参加者をファシリテーターに選定する。 The selection device 100 acquires voice information from the microphone terminal 10, and selects, among the speakers A to E, the participants who are determined to have high facilitating ability as facilitators.

図3は、本実施例1に係る選定装置の構成を示す機能ブロック図である。図3に示すように、この選定装置100は、通信部110と、入力部120と、表示部130と、記憶部140と、制御部150とを有する。 FIG. 3 is a functional block diagram showing the configuration of the selection device according to the first embodiment. As shown in FIG. 3, the selection device 100 includes a communication unit 110, an input unit 120, a display unit 130, a storage unit 140, and a control unit 150.

通信部110は、無線によって、マイク端末10とデータ通信を実行する処理部である。通信部110は、通信装置の一例である。通信部110は、マイク端末10から音声情報を受信し、受信した音声情報を、制御部150に出力する。なお、選定装置100は、有線によって、マイク端末10に接続してもよい。選定装置100は、通信部110によってネットワークに接続し、外部装置(図示略)とデータを送受信してもよい。 The communication unit 110 is a processing unit that wirelessly executes data communication with the microphone terminal 10. The communication unit 110 is an example of a communication device. The communication unit 110 receives voice information from the microphone terminal 10 and outputs the received voice information to the control unit 150. The selection device 100 may be connected to the microphone terminal 10 by wire. The selection device 100 may be connected to a network by the communication unit 110 to transmit / receive data to / from an external device (not shown).

入力部120は、選定装置100に各種の情報を入力するための入力装置である。入力部120は、キーボードやマウス、タッチパネル等に対応する。 The input unit 120 is an input device for inputting various information to the selection device 100. The input unit 120 corresponds to a keyboard, a mouse, a touch panel, and the like.

表示部130は、制御部150から出力される情報を表示する表示装置である。表示部130は、液晶ディスプレイやタッチパネル等に対応する。 The display unit 130 is a display device that displays information output from the control unit 150. The display unit 130 corresponds to a liquid crystal display, a touch panel, or the like.

記憶部140は、音声バッファ140aと、学習音響特徴情報140bと、発話情報140cと、発話印象評価情報140dと、オウム返し発生情報140eと、ファシリテート力評価情報140fと、参加者レーティング情報140gとを有する。記憶部140は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子や、HDD(Hard Disk Drive)などの記憶装置に対応する。 The storage unit 140 includes a voice buffer 140a, learning acoustic feature information 140b, utterance information 140c, utterance impression evaluation information 140d, parrot return generation information 140e, facilitating ability evaluation information 140f, and participant rating information 140g. Have. The storage unit 140 corresponds to a semiconductor memory element such as a RAM (Random Access Memory) and a flash memory (Flash Memory), and a storage device such as an HDD (Hard Disk Drive).

音声バッファ140aは、マイク端末10から送信される音声情報を格納するバッファである。音声情報では、音声信号と時刻とが対応付けられる。 The voice buffer 140a is a buffer for storing voice information transmitted from the microphone terminal 10. In the voice information, the voice signal and the time are associated with each other.

学習音響特徴情報140bは、予め学習される発話者A~Eそれぞれの音声の音響特徴の情報である。音響特徴には、ピッチ周波数、フレームパワー、フォルマント周波数、音声到来方向が含まれる。たとえば、学習音響特徴情報140bは、ピッチ周波数、フレームパワー、フォルマント周波数、音声到来方向の値をそれぞれ要素とするベクトルである。 The learning acoustic feature information 140b is information on the acoustic features of the voices of the speakers A to E that are learned in advance. Acoustic features include pitch frequency, frame power, formant frequency, and voice arrival direction. For example, the learning acoustic feature information 140b is a vector having values of pitch frequency, frame power, formant frequency, and voice arrival direction as elements.

発話情報140cは、参加者の音声情報に含まれる発話が行われた発話区間とこの発話区間における発話を行った発話者とを対応付けた情報である。図4は、発話情報のデータ構造の一例を示す図である。図4に示す発話情報140cには、発話区間に対応する発話ID、この発話IDに対応する発話者、発話の開始時刻および終了時刻が含まれる。発話情報には、音声情報に対して音声認識を行って生成した発話内容文字列が含まれる。 The utterance information 140c is information in which the utterance section in which the utterance is made and the utterance speaker in this utterance section, which are included in the voice information of the participants, are associated with each other. FIG. 4 is a diagram showing an example of a data structure of utterance information. The utterance information 140c shown in FIG. 4 includes an utterance ID corresponding to the utterance section, a speaker corresponding to the utterance ID, and a start time and end time of the utterance. The utterance information includes a utterance content character string generated by performing voice recognition on the voice information.

発話印象評価情報140dは、参加者の印象を評価した情報である。図5は、発話印象評価情報のデータ構造の一例を示す図である。図5に示す発話印象評価情報140dには、各発話印象評価情報を識別する発話印象ID、この発話印象IDに対応する発話区間(発話ID)、印象評価値に対応する時刻、参加者の印象を評価して数値化した印象評価値が含まれる。 The utterance impression evaluation information 140d is information that evaluates the impression of the participants. FIG. 5 is a diagram showing an example of a data structure of utterance impression evaluation information. The utterance impression evaluation information 140d shown in FIG. 5 includes an utterance impression ID that identifies each utterance impression evaluation information, a utterance section (speech ID) corresponding to this utterance impression ID, a time corresponding to the impression evaluation value, and a participant's impression. The impression evaluation value that is evaluated and quantified is included.

オウム返し発生情報140eは、時系列順に隣接する発話情報において、抽出した単語が一致し、かつ発話者が異なるオウム返しの発生を示す情報である。図6は、オウム返し発生情報のデータ構造の一例を示す図である。図6に示すオウム返し発生情報140eには、各オウム返し発生情報を識別するオウム返しID、このオウム返し発生IDに対応する発話区間(発話ID)、この発話IDに対応する発話者が含まれる。 The parrot return generation information 140e is information indicating the occurrence of parrot return in which the extracted words match and the speakers are different in the adjacent utterance information in chronological order. FIG. 6 is a diagram showing an example of a data structure of parrot return generation information. The parrot return generation information 140e shown in FIG. 6 includes an parrot return ID that identifies each parrot return generation information, an utterance section (utterance ID) corresponding to this parrot return generation ID, and a speaker corresponding to this utterance ID. ..

ファシリテート力評価情報140fは、参加者のファシリテート力を評価した情報である。図7は、ファシリテート力評価情報のデータ構造の一例を示す図である。図7に示すファシリテート力評価情報140fは、各発話者、各発話者に対する評価情報、各発話者に対する評価値が含まれる。評価情報は、オウム返しが発生する度に生成され、オウム返しにより印象がよくなった場合に1、印象が変化しない場合に0、印象が悪くなった場合に-1の値がそれぞれ付与される。評価値は、評価情報の平均値であり、評価情報の合計をオウム返しの発生回数で除算することにより算出される。 The facilitating ability evaluation information 140f is information for evaluating the facilitating ability of the participants. FIG. 7 is a diagram showing an example of a data structure of facilitating force evaluation information. The facilitating power evaluation information 140f shown in FIG. 7 includes an evaluation information for each speaker, each speaker, and an evaluation value for each speaker. The evaluation information is generated every time the parrot return occurs, and a value of 1 is given when the impression is improved by the parrot return, 0 is given when the impression does not change, and -1 is given when the impression is bad. .. The evaluation value is the average value of the evaluation information, and is calculated by dividing the total of the evaluation information by the number of occurrences of parrot return.

参加者レーティング情報140gは、参加者のレーティング(格付け)を行った情報である。図8は、参加者レーティング情報のデータ構造の一例を示す図である。図8に示す参加者レーティング情報140gには、各発話者、各発話者が評価値の最高値を獲得した履歴を表す参加情報、各発話者に対するレーティングが含まれる。参加情報は、例えば発話者Eについて、三回目に参加したイベント(E3)において、評価値0.7で最高値を獲得したことを表す。レーティングは、参加情報において最高値を記録した回数に応じて1ずつ加算される。 Participant rating information 140g is information obtained by rating participants. FIG. 8 is a diagram showing an example of a data structure of participant rating information. The participant rating information 140g shown in FIG. 8 includes each speaker, participation information representing the history in which each speaker has acquired the highest evaluation value, and a rating for each speaker. The participation information indicates that, for example, the speaker E has obtained the highest evaluation value of 0.7 in the event (E3) in which the speaker E participated for the third time. The rating is added by 1 according to the number of times the highest value is recorded in the participation information.

制御部150は、取得部150aと、発話情報検出部150bと、音声認識部150cと、発話印象評価部150dと、特定部150eと、判定部150fと、選定部150gとを有する。制御部150は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などのハードワイヤードロジック等によって実現される。 The control unit 150 includes an acquisition unit 150a, an utterance information detection unit 150b, a voice recognition unit 150c, an utterance impression evaluation unit 150d, a specific unit 150e, a determination unit 150f, and a selection unit 150g. The control unit 150 is realized by hard-wired logic such as a CPU (Central Processing Unit), an MPU (Micro Processing Unit), an ASIC (Application Specific Integrated Circuit), and an FPGA (Field Programmable Gate Array).

取得部150aは、通信部110を介して、マイク端末10から音声情報を取得する処理部である。取得部150aは、音声情報を順次、音声バッファ140aに格納する。 The acquisition unit 150a is a processing unit that acquires voice information from the microphone terminal 10 via the communication unit 110. The acquisition unit 150a sequentially stores the voice information in the voice buffer 140a.

発話情報検出部150bは、音声バッファ140aから音声情報を取得し、音声情報から図4に示す発話情報140cを検出する処理部である。発話情報検出部150bは、発話区間検出処理、音響解析処理、類似性評価処理を行う。 The utterance information detection unit 150b is a processing unit that acquires voice information from the voice buffer 140a and detects the utterance information 140c shown in FIG. 4 from the voice information. The utterance information detection unit 150b performs utterance section detection processing, acoustic analysis processing, and similarity evaluation processing.

まず、発話情報検出部150bが実行する「発話区間検出処理」の一例について説明する。発話情報検出部150bは、音声情報のパワーを特定し、パワーが閾値未満となる無音区間に挟まれた区間を、発話区間として検出する。発話情報検出部150bは、国際公開第2009/145192号に開示された技術を用いて、発話区間を検出してもよい。 First, an example of the "utterance section detection process" executed by the utterance information detection unit 150b will be described. The utterance information detection unit 150b identifies the power of the voice information, and detects a section sandwiched between silent sections whose power is less than the threshold value as the utterance section. The utterance information detection unit 150b may detect the utterance section by using the technique disclosed in International Publication No. 2009/145192.

発話情報検出部150bは、発話区間によって区切られる音声情報を、固定長のフレームに分割する。発話情報検出部150bは、各フレームのフレームを識別するフレーム番号を設定する。発話情報検出部150bは、各フレームに対して、後述する音響解析処理、類似性評価処理を実行する。 The utterance information detection unit 150b divides the voice information divided by the utterance section into fixed-length frames. The utterance information detection unit 150b sets a frame number for identifying the frame of each frame. The utterance information detection unit 150b executes acoustic analysis processing and similarity evaluation processing, which will be described later, for each frame.

続いて、発話情報検出部150bが実行する「音響解析処理」の一例について説明する。たとえば、発話情報検出部150bは、音声情報に含まれる発話区間の各フレームを基にして、音響特徴を算出する。発話情報検出部150bは、音響特徴として、ピッチ周波数、フレームパワー、フォルマント周波数、音声到来方向をそれぞれ算出する。 Subsequently, an example of the "acoustic analysis process" executed by the utterance information detection unit 150b will be described. For example, the utterance information detection unit 150b calculates the acoustic characteristics based on each frame of the utterance section included in the voice information. The utterance information detection unit 150b calculates the pitch frequency, the frame power, the formant frequency, and the voice arrival direction as acoustic features.

発話情報検出部150bが、音響特徴として「ピッチ周波数」を算出する処理の一例について説明する。発話情報検出部150bは、RAPT(A Robust Algorithm for Pitch Tracking)の推定手法を用いて、フレームに含まれる音声信号のピッチ周波数p(n)を算出する。「n」はフレーム番号を示す。発話情報検出部150bは、「D.Talkin,"A Robust Algorithm for Pitch Tracking (RAPT),"in Speech Coding & Synthesis,W.B. Kleijn and K. K. Pailwal (Eds.),Elsevier,pp.495-518,1995」に記載された技術を用いて、ピッチ周波数を算出してもよい。 An example of a process in which the utterance information detection unit 150b calculates the “pitch frequency” as an acoustic feature will be described. The utterance information detection unit 150b calculates the pitch frequency p (n) of the audio signal included in the frame by using the estimation method of RAPT (A Robust Algorithm for Pitch Tracking). "N" indicates a frame number. The speech information detection unit 150b is "D.Talkin," A Robust Algorithm for Pitch Tracking (RAPT), "in Speech Coding & Synthesis, WB Kleijn and KK Pailwal (Eds.), Elsevier, pp.495-518, 1995". The pitch frequency may be calculated using the technique described in.

発話情報検出部150bが、音響特徴として「フレームパワー」を算出する処理の一例について説明する。たとえば、発話情報検出部150bは、式(1)に基づいて、所定長のフレームにおけるパワーS(n)を算出する。式(1)において、「n」はフレーム番号を示し、「M」は1フレームの時間長(たとえば、20ms)を示し、「t」は時間を示す。「C(t)」は、時間tにおける音声信号を示す。なお、発話情報検出部150bは、所定の平滑化係数を用いて、時間平滑化したパワーを、フレームパワーとして算出してもよい。 An example of a process in which the utterance information detection unit 150b calculates "frame power" as an acoustic feature will be described. For example, the utterance information detection unit 150b calculates the power S (n) in a frame having a predetermined length based on the equation (1). In the formula (1), "n" indicates a frame number, "M" indicates a time length of one frame (for example, 20 ms), and "t" indicates a time. “C (t)” indicates an audio signal at time t. The utterance information detection unit 150b may calculate the time-smoothed power as the frame power using a predetermined smoothing coefficient.

Figure 2022038498000002
Figure 2022038498000002

発話情報検出部150bが、音響特徴として「フォルマント周波数」を算出する処理の一例について説明する。発話情報検出部150bは、フレームに含まれる音声信号C(t)に対して線形予測(Linear Prediction Coding)分析を行い、複数のピークを抽出することで、複数のフォルマント周波数を算出する。たとえば、発話情報検出部150bは、周波数の低い順に、第1フォルマント周波数:F1、第2フォルマント周波数:F2、第3フォルマント周波数:F3を算出する。発話情報検出部150bは、特開昭62-54297号公報に開示された技術を用いて、フォルマント周波数を算出してもよい。 An example of a process in which the utterance information detection unit 150b calculates the “formant frequency” as an acoustic feature will be described. The utterance information detection unit 150b performs linear prediction (Linear Prediction Coding) analysis on the voice signal C (t) included in the frame, and calculates a plurality of formant frequencies by extracting a plurality of peaks. For example, the utterance information detection unit 150b calculates the first formant frequency: F1, the second formant frequency: F2, and the third formant frequency: F3 in ascending order of frequency. The utterance information detection unit 150b may calculate the formant frequency by using the technique disclosed in Japanese Patent Application Laid-Open No. 62-54297.

発話情報検出部150bが、音響特徴として「音声到来方向」を算出する処理の一例について説明する。発話情報検出部150bは、2つのマイクに収録された音声情報の位相差を基にして、音声到来方向を算出する。 An example of a process in which the utterance information detection unit 150b calculates the “voice arrival direction” as an acoustic feature will be described. The utterance information detection unit 150b calculates the voice arrival direction based on the phase difference of the voice information recorded in the two microphones.

この場合、発話情報検出部150bは、マイク端末10の複数のマイクによって収録された各音声情報から、発話区間をそれぞれ検出し、各発話区間の同一時間のフレームの音声情報を比較して、位相差を算出する。発話情報検出部150bは、特開2008-175733号公報に開示された技術を用いて、音声到来方向を算出してもよい。 In this case, the utterance information detection unit 150b detects the utterance section from each voice information recorded by the plurality of microphones of the microphone terminal 10, compares the voice information of the frames of the same time in each utterance section, and ranks. Calculate the phase difference. The utterance information detection unit 150b may calculate the voice arrival direction by using the technique disclosed in Japanese Patent Application Laid-Open No. 2008-175733.

発話情報検出部150bは、上記の音響解析処理を実行することで、音声情報の発話区間に含まれる各フレームの音響特徴をそれぞれ算出する。発話情報検出部150bは、音響特徴として、ピッチ周波数、フレームパワー、フォルマント周波数、音声到来方向のうち、少なくとも一つを、音響特徴として用いてもよいし、複数の組み合わせを音響特徴として用いてもよい。以下の説明において、音声情報の発話区間に含まれる各フレームの音響特徴を「評価対象音響特徴」と表記する。 The utterance information detection unit 150b calculates the acoustic characteristics of each frame included in the utterance section of the voice information by executing the above acoustic analysis process. The utterance information detection unit 150b may use at least one of the pitch frequency, the frame power, the formant frequency, and the voice arrival direction as the acoustic feature, or may use a plurality of combinations as the acoustic feature. good. In the following description, the acoustic feature of each frame included in the utterance section of the voice information is referred to as "evaluation target acoustic feature".

続いて、発話情報検出部150bが実行する「類似性評価処理」の一例について説明する。発話情報検出部150bは、発話区間の各フレームの評価対象音響特徴と、学習音響特徴情報140bとの類似度を算出する。 Subsequently, an example of the "similarity evaluation process" executed by the utterance information detection unit 150b will be described. The utterance information detection unit 150b calculates the degree of similarity between the evaluation target acoustic feature of each frame of the utterance section and the learning acoustic feature information 140b.

たとえば、発話情報検出部150bは、ピアソンの積率相関係数を類似度として算出してもよいし、ユークリッド距離を用いて、類似度を算出してもよい。 For example, the utterance information detection unit 150b may calculate the Pearson product-moment correlation coefficient as the similarity, or may calculate the similarity using the Euclidean distance.

発話情報検出部150bが、ピアソンの積率相関係数を類似度として算出する場合について説明する。ピアソンの積率相関係数corは、式(2)によって算出される。式(2)において、「X」は、学習音響特徴情報140bに含まれる発話者A~Eそれぞれの音響特徴のピッチ周波数、フレームパワー、フォルマント周波数、音声到来方向の値をそれぞれ要素とするベクトルである。「Y」は、評価対象音響特徴のピッチ周波数、フレームパワー、フォルマント周波数、音声到来方向の値をそれぞれ要素とするベクトルである。「i」は、ベクトルの要素を示す番号である。発話情報検出部150bは、ピアソンの積率相関係数corが、閾値Thc以上となる評価対象音響特徴のフレームを、発話者A~Eのいずれかの音声を含むフレームとして特定する。たとえば、閾値Thcを「0.7」とする。閾値Thcを適宜変更してもよい。 A case where the utterance information detection unit 150b calculates the Pearson product-moment correlation coefficient as the degree of similarity will be described. Pearson's product-moment correlation coefficient cor is calculated by Eq. (2). In the equation (2), "X" is a vector whose elements are the pitch frequency, frame power, formant frequency, and voice arrival direction of each of the acoustic features of the speakers A to E included in the learning acoustic feature information 140b. be. “Y” is a vector whose elements are the pitch frequency, frame power, formant frequency, and voice arrival direction of the acoustic feature to be evaluated. “I” is a number indicating an element of the vector. The utterance information detection unit 150b specifies a frame of the evaluation target acoustic feature having a Pearson product-moment correlation coefficient cor of the threshold value Thc or more as a frame including any of the voices of the speakers A to E. For example, the threshold Thc is set to "0.7". The threshold Thc may be changed as appropriate.

Figure 2022038498000003
Figure 2022038498000003

発話情報検出部150bが、ユークリッド距離を用いて、類似度を算出する場合について説明する。ユークリッド距離dは、式(3)によって算出され、類似度Rは、式(4)によって算出される。式(3)において、a~aは、学習音響特徴情報140bに含まれる発話者A~Eそれぞれの音響特徴のピッチ周波数、フレームパワー、フォルマント周波数、音声到来方向の値に対応する。b~bは、評価対象音響特徴のピッチ周波数、フレームパワー、フォルマント周波数、音声到来方向の値に対応する。発話情報検出部150bは、類似度Rが閾値Thr以上となる評価対象音響特徴のフレームを、発話者A~Eのいずれかの音声を含むフレームとして特定する。たとえば、閾値Thrを「0.7」とする。閾値Thrを適宜変更してもよい。 A case where the utterance information detection unit 150b calculates the similarity using the Euclidean distance will be described. The Euclidean distance d is calculated by the equation (3), and the similarity R is calculated by the equation (4). In the equation ( 3 ), a1 to ai correspond to the pitch frequency, frame power, formant frequency, and voice arrival direction value of each of the acoustic features of the speakers A to E included in the learning acoustic feature information 140b. b 1 to bi correspond to the pitch frequency, frame power, formant frequency, and voice arrival direction value of the acoustic feature to be evaluated. The utterance information detection unit 150b specifies a frame of the evaluation target acoustic feature whose similarity R is equal to or higher than the threshold value Thr as a frame including any of the voices of the speakers A to E. For example, the threshold Thr is set to "0.7". The threshold Thr may be changed as appropriate.

Figure 2022038498000004
Figure 2022038498000004

R=1/(1+d)・・・(4) R = 1 / (1 + d) ... (4)

発話情報検出部150bは、類似度が閾値以上となる評価対象音響特徴のフレームを、発話者A~Eのいずれかの音声を含むフレームとして特定する。換言すると、発話情報検出部150bは、音声情報からフレームごとに発話者A~Eを特定する。 The utterance information detection unit 150b specifies a frame of the evaluation target acoustic feature whose similarity is equal to or higher than the threshold value as a frame including any of the voices of the speakers A to E. In other words, the utterance information detection unit 150b identifies the utterances A to E for each frame from the voice information.

発話情報検出部150bは、上記処理を繰り返し実行し、全ての発話区間について発話者を特定する。発話情報検出部150bは、発話情報に各発話区間の開始時刻および終了時刻を含めて、発話情報140cとして記憶部140に記憶させる。 The utterance information detection unit 150b repeatedly executes the above process to identify the speaker for all utterance sections. The utterance information detection unit 150b includes the start time and end time of each utterance section in the utterance information, and stores the utterance information 140c in the storage unit 140.

音声認識部150cは、音声情報を取得し、音声情報に対して音声認識を行い図4に示す発話内容文字列を生成する処理部である。音声認識部150cは、音声認識により生成した文字列を各発話区間と対応付けて、発話内容文字列として発話情報140cに含めて記憶部140に記憶させる。また、音声認識部150cは、生成した文字列から単語を抽出する処理部である。音声認識部150cは、発話内容文字列に含まれる単語を抽出する。 The voice recognition unit 150c is a processing unit that acquires voice information, performs voice recognition on the voice information, and generates an utterance content character string shown in FIG. The voice recognition unit 150c associates the character string generated by voice recognition with each utterance section, includes it in the utterance information 140c as an utterance content character string, and stores it in the storage unit 140. Further, the voice recognition unit 150c is a processing unit that extracts a word from the generated character string. The voice recognition unit 150c extracts words included in the utterance content character string.

音声認識部150cは、どのような技術を用いて、音声情報を文字列に変換してもよい。たとえば、音声認識部150cは、特開平4-255900号公報に開示された技術を用いて、音声情報を文字列に変換する。 The voice recognition unit 150c may use any technique to convert the voice information into a character string. For example, the voice recognition unit 150c converts voice information into a character string by using the technique disclosed in Japanese Patent Application Laid-Open No. 4-255900.

発話印象評価部150dは、音声情報を取得し、音声情報における音声信号のピッチ周波数の上下幅に基づいて、音声情報に対する参加者の印象を評価する処理部である。発話印象評価部150dは、「発話印象評価処理」を行う。 The utterance impression evaluation unit 150d is a processing unit that acquires voice information and evaluates the participant's impression of the voice information based on the vertical width of the pitch frequency of the voice signal in the voice information. The utterance impression evaluation unit 150d performs the "utterance impression evaluation process".

発話印象評価部150dが実行する「発話印象評価処理」の一例について説明する。発話印象評価部150dは、各発話区間の音声信号を取得し、フレームごとのピッチ周波数の上下幅を算出する。そして、発話印象評価部150dは、印象が普通である場合を基準値0として、音声信号のピッチ周波数の上下幅が大きいほど印象がよいと判定して正の絶対値が大きい印象評価値を付与し、音声信号のピッチ周波数の上下幅が小さいほど印象が悪いと判定して負の絶対値が大きい印象評価値を付与する。そして、発話印象評価部150dは、印象評価値を時刻と対応付けて発話印象評価情報140dとして記憶部140に記憶させる。また、発話印象評価部150dは、参加者の脈拍等の生体情報を用いて参加者の印象を評価してもよい。なお、発話印象評価部150dは、発話者A~Eの印象の平均値を印象評価値としてもよい。 An example of the "utterance impression evaluation process" executed by the utterance impression evaluation unit 150d will be described. The utterance impression evaluation unit 150d acquires the audio signal of each utterance section and calculates the vertical width of the pitch frequency for each frame. Then, the speech impression evaluation unit 150d determines that the larger the vertical width of the pitch frequency of the audio signal is, the better the impression is, with the case where the impression is normal as the reference value 0, and gives an impression evaluation value having a large positive absolute value. However, it is determined that the smaller the vertical width of the pitch frequency of the audio signal is, the worse the impression is, and the impression evaluation value having a large negative absolute value is given. Then, the utterance impression evaluation unit 150d stores the impression evaluation value in the storage unit 140 as the utterance impression evaluation information 140d in association with the time. In addition, the utterance impression evaluation unit 150d may evaluate the participant's impression using biological information such as the participant's pulse. The utterance impression evaluation unit 150d may use the average value of the impressions of the speakers A to E as the impression evaluation value.

特定部150eは、発話情報140cを取得し、発話内容文字列からオウム返しを特定する処理部である。特定部150eは、オウム返し特定処理を実行する。 The specific unit 150e is a processing unit that acquires the utterance information 140c and specifies the parrot return from the utterance content character string. The specific unit 150e executes the parrot return specific process.

特定部150eが実行する「オウム返し特定処理」の一例について説明する。特定部150eは、発話情報140cを取得し、時系列順に隣接する発話情報において、発話内容文字列に含まれる単語が一致し、かつ発話者が異なる発話情報をオウム返しとして特定する。そして、特定部150eは、特定したオウム返しをオウム返し発生情報140eとして記憶部140に記憶させる。なお、時系列順に隣接する発話情報とは、時系列で前後に隣り合う発話情報を指すが、1つ以上の発話情報を介在して隣り合う発話情報であってもよい。すなわち、ある発話情報に対して、直後に同じ単語を発話した場合をオウム返しと特定してもよいが、ある発話情報に対して、他者の発話を挟んで同じ単語を発話した場合をオウム返しに含めてもよい。 An example of the "echolalia specific process" executed by the specific unit 150e will be described. The specific unit 150e acquires the utterance information 140c, and identifies the utterance information in which the words included in the utterance content character string match and the utterance speakers are different in the adjacent utterance information in chronological order as the parrot return. Then, the specific unit 150e stores the specified parrot return as the parrot return generation information 140e in the storage unit 140. The utterance information adjacent to each other in chronological order refers to utterance information adjacent to each other in chronological order, but may be adjacent utterance information via one or more utterance information. That is, the case where the same word is spoken immediately after a certain utterance information may be specified as Echolalia, but the case where the same word is spoken with another person's utterance in between the utterance information may be specified as Echolalia. It may be included in the return.

判定部150fは、発話印象評価情報140dおよびオウム返し発生情報140eを取得し、オウム返しにより、印象がよくなったか否かを判定する処理部である。判定部150fは、判定処理を実行する。 The determination unit 150f is a processing unit that acquires the utterance impression evaluation information 140d and the parrot return generation information 140e, and determines whether or not the impression is improved by the parrot return. The determination unit 150f executes the determination process.

判定部150fが実行する「判定処理」の一例について説明する。判定部150fは、取得したオウム返し発生情報140eから選択した1つのオウム返しが発生した発話区間を特定し、取得した発話印象評価情報140dにおいて選択したオウム返しの直後の発話者が異なる発話区間において、印象評価値が上昇しているか否かを判定する。そして、判定部150fは、印象評価値が上昇していれば印象がよくなったと判定し、印象評価値が変化しなければ印象が変化しなかったと判定し、印象評価値が下降していれば印象が悪くなったと判定する。判定部150fは、評価情報を平均することにより評価値を算出し、判定の結果を図7に示す評価情報および評価値として記憶部140に記憶させる。 An example of the "determination process" executed by the determination unit 150f will be described. The determination unit 150f identifies an utterance section in which one parrot return occurs selected from the acquired parrot return generation information 140e, and in an utterance section in which the speaker immediately after the parrot return selected in the acquired speech impression evaluation information 140d is different. , Judge whether the impression evaluation value is increasing. Then, the determination unit 150f determines that the impression has improved if the impression evaluation value has increased, determines that the impression has not changed if the impression evaluation value has not changed, and determines that the impression has not changed if the impression evaluation value has decreased. It is judged that the impression has deteriorated. The determination unit 150f calculates the evaluation value by averaging the evaluation information, and stores the determination result in the storage unit 140 as the evaluation information and the evaluation value shown in FIG. 7.

選定部150gは、ファシリテート力評価情報140fを取得し、判定部150fの判定の結果に基づいて、ファシリテーターを選定する処理部である。選定部150gは、選定処理を実行する。 The selection unit 150g is a processing unit that acquires facilitator force evaluation information 140f and selects a facilitator based on the judgment result of the determination unit 150f. The selection unit 150g executes the selection process.

選定部150gが実行する「選定処理」の一例について説明する。選定部150gは、取得したファシリテート力評価情報140fに基づいて、評価値が最も高い発話者のレーティングを1上げるよう参加者レーティング情報140gを更新して記憶部140に記憶させる。そして、選定部150gは、ファシリテーターとしてレーティングが最も高い発話者を選定する。 An example of the "selection process" executed by the selection unit 150g will be described. Based on the acquired facilitating ability evaluation information 140f, the selection unit 150g updates the participant rating information 140g so as to raise the rating of the speaker with the highest evaluation value by 1, and stores it in the storage unit 140. Then, the selection unit 150g selects the speaker with the highest rating as a facilitator.

次に、本実施例1に係る選定装置100の処理手順の一例について説明する。図9は、本実施例1に係る選定装置の処理手順を示すフローチャートである。図9に示すように、選定装置100は、事前準備として交流会等の参加者である発話者A~Eの音声データを取得し、取得した音響データを解析して各発話者の音響特徴を算出する(ステップS101)。この事前準備には、過去に行われた交流会等の音声データを用いてもよいし、発話者A~Eを選定装置100に登録する際に取得した音声データを用いてもよいし、交流会等の冒頭における自己紹介や雑談の際に取得した音声データを用いてもよい。 Next, an example of the processing procedure of the selection device 100 according to the first embodiment will be described. FIG. 9 is a flowchart showing a processing procedure of the selection apparatus according to the first embodiment. As shown in FIG. 9, the selection device 100 acquires the voice data of the speakers A to E who are participants of the exchange meeting or the like as a preliminary preparation, analyzes the acquired acoustic data, and determines the acoustic characteristics of each speaker. Calculate (step S101). For this advance preparation, voice data of an exchange meeting or the like held in the past may be used, or voice data acquired when the speakers A to E are registered in the selection device 100 may be used, or exchange may be performed. The voice data acquired at the time of self-introduction or chat at the beginning of a meeting or the like may be used.

続いて、選定装置100の取得部150aは、複数の発話者A~Eの音声を含む音声情報を取得し、音声バッファ140aに格納する(ステップS102)。 Subsequently, the acquisition unit 150a of the selection device 100 acquires voice information including the voices of the plurality of speakers A to E and stores the voice information in the voice buffer 140a (step S102).

その後、選定装置100の発話情報検出部150bは、音声情報から発話情報140cを検出する(ステップS103)。図10は、発話情報を検出する処理手順を示すサブルーチンである。図10に示すように、発話情報検出部150bは、取得した音声情報から発話区間を検出する(ステップS1301)。続いて、発話情報検出部150bは、各発話区間に含まれるフレームごとに、音響特徴を算出する(ステップS1302)。さらに、発話情報検出部150bは、算出した評価対象音響特徴とステップS101において算出した学習音響特徴との類似度を算出し、発話者を特定する(ステップS1303)。そして、発話情報検出部150bは、発話区間と発話者とを対応付けた発話情報140cを記憶部140に記憶させる(ステップS1304)。その後、発話情報検出部150bは、全ての音声情報から発話区間を検出したか否かを判定する(ステップS1305)。発話情報検出部150bが、全ての音声情報から発話区間を検出していないと判定した場合(ステップS1305:No)、ステップS1301に戻り処理を繰り返す。一方、発話情報検出部150bが、全ての音声情報から発話区間を検出したと判定した場合(ステップS1305:Yes)。このサブルーチンを終了する。 After that, the utterance information detection unit 150b of the selection device 100 detects the utterance information 140c from the voice information (step S103). FIG. 10 is a subroutine showing a processing procedure for detecting utterance information. As shown in FIG. 10, the utterance information detection unit 150b detects the utterance section from the acquired voice information (step S1301). Subsequently, the utterance information detection unit 150b calculates the acoustic characteristics for each frame included in each utterance section (step S1302). Further, the utterance information detection unit 150b calculates the similarity between the calculated evaluation target acoustic feature and the learning acoustic feature calculated in step S101, and identifies the speaker (step S1303). Then, the utterance information detection unit 150b stores the utterance information 140c in which the utterance section and the speaker are associated with each other in the storage unit 140 (step S1304). After that, the utterance information detection unit 150b determines whether or not the utterance section is detected from all the voice information (step S1305). When the utterance information detection unit 150b determines that the utterance section has not been detected from all the voice information (step S1305: No), the process returns to step S1301 and the process is repeated. On the other hand, when it is determined that the utterance information detection unit 150b has detected the utterance section from all the voice information (step S1305: Yes). Exit this subroutine.

図9に戻り、選定装置100の音声認識部150cは、音声情報に対して音声認識を行い、単語を抽出する(ステップS104)。 Returning to FIG. 9, the voice recognition unit 150c of the selection device 100 performs voice recognition on the voice information and extracts a word (step S104).

また、選定装置100の発話印象評価部150dは、音声情報に対する参加者の印象を評価する(ステップS105)。 Further, the utterance impression evaluation unit 150d of the selection device 100 evaluates the participant's impression of the voice information (step S105).

続いて、選定装置100の特定部150eは、オウム返し特定する(ステップS106)。図11は、オウム返しを特定する処理手順を示すサブルーチンである。図11に示すように、特定部150eは、時系列で最初の発話情報の発話者を最終発話者に設定する(ステップS1601)。続いて、特定部150eは、時系列で次の発話情報の発話者が最終発話者と一致するか否かを判定する(ステップS1602)。 Subsequently, the specifying unit 150e of the selection device 100 specifies the parrot return (step S106). FIG. 11 is a subroutine showing a processing procedure for specifying the parrot return. As shown in FIG. 11, the specific unit 150e sets the speaker of the first utterance information in the time series as the last speaker (step S1601). Subsequently, the specific unit 150e determines whether or not the speaker of the next utterance information matches the final speaker in chronological order (step S1602).

特定部150eが、時系列で次の発話情報の発話者が最終発話者と一致すると判定した場合(ステップS1602:Yes)、ステップS1601に戻る。一方、特定部150eが、時系列で次の発話情報の発話者が最終発話者と一致しないと判定した場合(ステップS1602:No)、特定部150eは、時系列で次の発話情報の発話者を最終発話者に設定する(ステップS1603)。 When the specific unit 150e determines that the speaker of the next utterance information matches the final speaker in chronological order (step S1602: Yes), the process returns to step S1601. On the other hand, when the specific unit 150e determines that the speaker of the next utterance information does not match the final speaker in the time series (step S1602: No), the specific unit 150e is the speaker of the next utterance information in the time series. Is set as the last speaker (step S1603).

その後、特定部150eは、最終発話者が設定されている発話情報と直前の発話情報とにおいて、単語が一致するか否かを判定する(ステップS1604)。特定部150eが、単語が一致すると判定した場合(ステップS1604:Yes)、特定部150eは、オウム返しの発生を特定し、オウム返し発生情報140eを記憶部140に記憶させる(ステップS1605)。一方、特定部150eが、単語が一致しないと判定した場合(ステップS1604:No)、ステップS1606に進む。 After that, the specific unit 150e determines whether or not the words match in the utterance information set by the final speaker and the immediately preceding utterance information (step S1604). When the specific unit 150e determines that the words match (step S1604: Yes), the specific unit 150e identifies the occurrence of parrot return and stores the parrot return generation information 140e in the storage unit 140 (step S1605). On the other hand, when the specific unit 150e determines that the words do not match (step S1604: No), the process proceeds to step S1606.

ステップS1606において、特定部150eは、最終話者の発話区間が時系列で最後であるか否かを判定する。特定部150eが、最終話者の発話区間が時系列で最後ではないと判定した場合(ステップS1606:No)、ステップS1602に戻り処理を繰り返す。一方、特定部150eが、最終話者の発話区間が時系列で最後であると判定した場合(ステップS1606:Yes)、このサブルーチンを終了する。 In step S1606, the specific unit 150e determines whether or not the utterance section of the last speaker is the last in the time series. When the specific unit 150e determines that the utterance section of the last speaker is not the last in the time series (step S1606: No), the process returns to step S1602 and the process is repeated. On the other hand, when the specific unit 150e determines that the utterance section of the last speaker is the last in the time series (step S1606: Yes), this subroutine is terminated.

図9に戻り、選定装置100の判定部150fは、オウム返しにより発話者A~Eの印象がよくなったか否かを判定する(ステップS107)。 Returning to FIG. 9, the determination unit 150f of the selection device 100 determines whether or not the impression of the speakers A to E is improved by returning the parrot (step S107).

続いて、選定装置100の選定部150gは、判定部150fの判定結果に基づいて、参加者のレーティングを行い、参加者レーティング情報140gを記憶部140に記憶させる(ステップS108)。そして、選定部150gは、参加者レーティング情報140gに基づいて、最もレーティングの高い発話者をファシリテーターに選定し(ステップS109)、一連の処理が終了する。 Subsequently, the selection unit 150g of the selection device 100 evaluates the participants based on the determination result of the determination unit 150f, and stores the participant rating information 140g in the storage unit 140 (step S108). Then, the selection unit 150g selects the speaker with the highest rating as the facilitator based on the participant rating information 140g (step S109), and a series of processes is completed.

次に、本実施例1に係る選定装置100の効果について説明する。選定装置100は、オウム返しを特定し、オウム返しにより参加者の印象をよくした参加者をファシリテーターに選定する。ここで、ファシリテート力が高いとは、他者の話しを聞く能力が高いことが重要であり、他者の話しを聞く能力が高い人は会話の中でオウム返しを多用すると考えられている。そこで、オウム返しにより参加者の印象をよくする参加者をファシリテーターに選定することにより、ファシリテート力が高い参加者をファシリテーターに選定することができ、交流化等を盛り上げることができる。 Next, the effect of the selection device 100 according to the first embodiment will be described. The selection device 100 identifies the parrot return and selects the participant who has improved the impression of the participant by the parrot return as the facilitator. Here, it is important that high facilitation ability means high ability to listen to others, and it is considered that people with high ability to listen to others often use Echolalia in conversation. .. Therefore, by selecting participants who improve the impression of participants by returning parrots as facilitators, participants with high facilitating ability can be selected as facilitators, and it is possible to excite exchanges and the like.

選定装置100は、オウム返しを特定するだけでなく、印象がよくなったか否かを判定してファシリテーターを選定する。これによって、オウム返しのみを特定する場合よりも精度よく、ファシリテート力が高い参加者をファシリテーターに選定することができる。 The selection device 100 not only identifies the parrot return, but also determines whether or not the impression has improved and selects the facilitator. This makes it possible to select participants with high facilitating ability as facilitators with higher accuracy than when specifying only parrot return.

次に、本実施例2に係る検出装置について説明する。本実施例2に係るシステムは、実施例1の図3で説明したシステムと同様にして、マイク端末10に無線によって接続されているものとする。本実施例2においても、マイク端末10は、発話者A~Eの音声を収録して音声情報を出力する。 Next, the detection device according to the second embodiment will be described. It is assumed that the system according to the second embodiment is wirelessly connected to the microphone terminal 10 in the same manner as the system described with reference to FIG. 3 of the first embodiment. Also in the second embodiment, the microphone terminal 10 records the voices of the speakers A to E and outputs the voice information.

本実施例2に係る選定装置は、マイク端末10から音声情報を取得し、発話者A~Eのうち、ファシリテート力が高いと判定した参加者をファシリテーターに選定する。 The selection device according to the second embodiment acquires voice information from the microphone terminal 10, and selects the participants A to E who are determined to have high facilitating ability as facilitators.

図12は、本実施例2に係る選定装置の構成を示す機能ブロック図である。図12に示すように、この選定装置200は、通信部210と、入力部220と、表示部230と、記憶部240と、制御部250とを有する。 FIG. 12 is a functional block diagram showing the configuration of the selection device according to the second embodiment. As shown in FIG. 12, the selection device 200 includes a communication unit 210, an input unit 220, a display unit 230, a storage unit 240, and a control unit 250.

通信部210は、無線によって、マイク端末10とデータ通信を実行する処理部である。通信部210は、通信装置の一例である。通信部210は、マイク端末10から音声情報を受信し、受信した音声情報を、制御部250に出力する。なお、選定装置200は、有線によって、マイク端末10に接続してもよい。選定装置200は、通信部210によってネットワークに接続し、外部装置(図示略)とデータを送受信してもよい。 The communication unit 210 is a processing unit that wirelessly executes data communication with the microphone terminal 10. The communication unit 210 is an example of a communication device. The communication unit 210 receives voice information from the microphone terminal 10 and outputs the received voice information to the control unit 250. The selection device 200 may be connected to the microphone terminal 10 by wire. The selection device 200 may be connected to the network by the communication unit 210 to transmit / receive data to / from an external device (not shown).

入力部220は、選定装置200に各種の情報を入力するための入力装置である。入力部220は、キーボードやマウス、タッチパネル等に対応する。 The input unit 220 is an input device for inputting various information to the selection device 200. The input unit 220 corresponds to a keyboard, a mouse, a touch panel, and the like.

表示部230は、制御部250から出力される情報を表示する表示装置である。表示部230は、液晶ディスプレイやタッチパネル等に対応する。 The display unit 230 is a display device that displays information output from the control unit 250. The display unit 230 corresponds to a liquid crystal display, a touch panel, or the like.

記憶部240は、音声バッファ240aと、学習音響特徴情報240bと、発話情報240cと、発話印象評価情報240dと、オウム返し発生情報240eと、ファシリテート力評価情報240fと、参加者レーティング情報240gと、誉め言葉特定情報240hとを有する。記憶部240は、RAM、フラッシュメモリなどの半導体メモリ素子や、HDDなどの記憶装置に対応する。 The storage unit 240 includes a voice buffer 240a, learning acoustic feature information 240b, utterance information 240c, utterance impression evaluation information 240d, parrot return generation information 240e, facilitating power evaluation information 240f, and participant rating information 240g. , Complimentary word specific information 240h. The storage unit 240 corresponds to a semiconductor memory element such as a RAM or a flash memory, or a storage device such as an HDD.

音声バッファ240aは、マイク端末10から送信される音声情報を格納するバッファである。音声情報では、音声信号と時刻とが対応付けられる。 The voice buffer 240a is a buffer for storing voice information transmitted from the microphone terminal 10. In the voice information, the voice signal and the time are associated with each other.

学習音響特徴情報240bは、予め学習される発話者A~Eそれぞれの音声の音響特徴の情報である。音響特徴には、ピッチ周波数、フレームパワー、フォルマント周波数、音声到来方向が含まれる。たとえば、学習音響特徴情報240bは、ピッチ周波数、フレームパワー、フォルマント周波数、音声到来方向の値をそれぞれ要素とするベクトルである。 The learning acoustic feature information 240b is information on the acoustic features of the voices of the speakers A to E that are learned in advance. Acoustic features include pitch frequency, frame power, formant frequency, and voice arrival direction. For example, the learning acoustic feature information 240b is a vector having values of pitch frequency, frame power, formant frequency, and voice arrival direction as elements.

発話情報240cは、参加者の音声情報に含まれる発話が行われた発話区間とこの発話区間における発話を行った発話者とを対応付けた情報である。 The utterance information 240c is information in which the utterance section in which the utterance is made and the utterance speaker in this utterance section, which are included in the voice information of the participants, are associated with each other.

発話印象評価情報240dは、音声情報に対する参加者の印象を評価した情報である。 The utterance impression evaluation information 240d is information that evaluates the participant's impression of the voice information.

オウム返し発生情報240eは、抽出した単語が一致し、かつ発話者が異なるオウム返しの発生を示す情報である。 The parrot return generation information 240e is information indicating the occurrence of parrot return in which the extracted words match and the speakers are different.

ファシリテート力評価情報240fは、参加者のファシリテート力を評価した情報である。 The facilitating ability evaluation information 240f is information for evaluating the facilitating ability of the participants.

参加者レーティング情報240gは、参加者のレーティング(格付け)を行った情報である。 Participant rating information 240g is information obtained by rating participants.

誉め言葉特定情報240hは、予め登録した誉め言葉を特定したことを表す情報である。誉め言葉特定情報240hは、特定された誉め言葉と、誉め言葉が発話された時刻とが対応付けられて記憶された情報である。 The praise word specific information 240h is information indicating that the praise word registered in advance has been specified. The compliment word specific information 240h is information stored in association with the specified compliment word and the time when the compliment word is spoken.

制御部250は、取得部250aと、発話情報検出部250bと、音声認識部250cと、発話印象評価部250dと、特定部250eと、判定部250fと、選定部250gと、誉め言葉特定部250hとを有する。制御部250は、CPUやMPU、ASICやFPGAなどのハードワイヤードロジック等によって実現される。 The control unit 250 includes an acquisition unit 250a, an utterance information detection unit 250b, a voice recognition unit 250c, an utterance impression evaluation unit 250d, a specific unit 250e, a determination unit 250f, a selection unit 250g, and a compliment specific unit 250h. And have. The control unit 250 is realized by a hard-wired logic such as a CPU, an MPU, an ASIC, or an FPGA.

取得部250aは、通信部210を介して、マイク端末10から音声情報を取得する処理部である。取得部250aは、音声情報を順次、音声バッファ240aに格納する。 The acquisition unit 250a is a processing unit that acquires voice information from the microphone terminal 10 via the communication unit 210. The acquisition unit 250a sequentially stores the voice information in the voice buffer 240a.

発話情報検出部250bは、音声バッファ240aから音声情報を取得し、音声情報から図4に示す発話情報240cを検出する処理部である。発話情報検出部250bは、発話区間検出処理、音響解析処理、類似性評価処理を行う。 The utterance information detection unit 250b is a processing unit that acquires voice information from the voice buffer 240a and detects the utterance information 240c shown in FIG. 4 from the voice information. The utterance information detection unit 250b performs utterance section detection processing, acoustic analysis processing, and similarity evaluation processing.

発話情報検出部250bが実行する発話区間検出処理、音響解析処理、類似性評価処理は、実施例1で説明した発話印象評価部150dと同様である。 The utterance section detection process, the acoustic analysis process, and the similarity evaluation process executed by the utterance information detection unit 250b are the same as those of the utterance impression evaluation unit 150d described in the first embodiment.

音声認識部250cは、音声情報を取得し、音声情報に対して音声認識を行い図4に示す発話内容文字列を生成する処理部である。音声認識部250cは、音声認識により生成した文字列を各発話区間と対応付けて、発話内容文字列として発話情報240cに含めて記憶部240に記憶させる。また、音声認識部250cは、生成した文字列から単語を抽出する処理部である。音声認識部250cは、発話内容文字列に含まれる単語を抽出する。 The voice recognition unit 250c is a processing unit that acquires voice information, performs voice recognition on the voice information, and generates an utterance content character string shown in FIG. The voice recognition unit 250c associates the character string generated by voice recognition with each utterance section, includes it in the utterance information 240c as an utterance content character string, and stores it in the storage unit 240. Further, the voice recognition unit 250c is a processing unit that extracts a word from the generated character string. The voice recognition unit 250c extracts words included in the utterance content character string.

発話印象評価部250dは、音声情報を取得し、音声情報における音声信号のピッチ周波数の上下幅に基づいて、音声情報に対する参加者の印象を評価する処理部である。発話印象評価部250dは、「発話印象評価処理」を行う。 The utterance impression evaluation unit 250d is a processing unit that acquires voice information and evaluates the participant's impression of the voice information based on the vertical width of the pitch frequency of the voice signal in the voice information. The utterance impression evaluation unit 250d performs the "utterance impression evaluation process".

発話印象評価部250dが実行する発話印象評価処理は、実施例1で説明した発話印象評価部150dと同様である。 The utterance impression evaluation process executed by the utterance impression evaluation unit 250d is the same as that of the utterance impression evaluation unit 150d described in the first embodiment.

特定部250eは、発話情報240cを取得し、発話内容文字列からオウム返しを特定する処理部である。特定部250eは、オウム返し特定処理を実行する。 The specific unit 250e is a processing unit that acquires the utterance information 240c and specifies the parrot return from the utterance content character string. The specific unit 250e executes the parrot return specific process.

特定部250eが実行するオウム返し特定処理は、実施例1で説明した特定部150eと同様である。 The parrot return specifying process executed by the specific unit 250e is the same as that of the specific unit 150e described in the first embodiment.

判定部250fは、発話印象評価情報240d、オウム返し発生情報240e、および誉め言葉特定情報を取得し、オウム返しにより、印象がよくなったか否かを判定する処理部である。判定部250fは、判定処理を実行する。 The determination unit 250f is a processing unit that acquires the utterance impression evaluation information 240d, the parrot return generation information 240e, and the praise word specific information, and determines whether or not the impression is improved by the parrot return. The determination unit 250f executes the determination process.

判定部250fが実行する「判定処理」の一例について説明する。判定部250fは、取得したオウム返し発生情報240eから選択した1つのオウム返しが発生した発話区間を特定し、取得した発話印象評価情報240dにおいて選択したオウム返しの直後の発話者が異なる発話区間において、印象評価値が上昇しているまたは誉め言葉が特定されている場合に印象がよくなったと判定する。また、判定部250fは、取得したオウム返し発生情報240eから選択した1つのオウム返しが発生した発話区間を特定し、取得した発話印象評価情報240dにおいて選択したオウム返しの直後の発話者が異なる発話区間において、印象評価値が上昇し、かつ誉め言葉が特定されている場合に印象がよくなったと判定してもよい。 An example of the "determination process" executed by the determination unit 250f will be described. The determination unit 250f identifies an utterance section in which one parrot return occurs selected from the acquired parrot return generation information 240e, and in an utterance section in which the speaker immediately after the parrot return selected in the acquired speech impression evaluation information 240d is different. , It is judged that the impression is improved when the impression evaluation value is increased or the compliment is specified. Further, the determination unit 250f identifies the utterance section in which one parrot return occurs selected from the acquired parrot return generation information 240e, and the speaker immediately after the parrot return selected in the acquired speech impression evaluation information 240d is a different utterance. It may be determined that the impression is improved when the impression evaluation value is increased and the compliment is specified in the section.

選定部250gは、ファシリテート力評価情報240fを取得し、判定部250fの判定結果に基づいて、ファシリテーターを選定する処理部である。選定部250gは、選定処理を実行する。 The selection unit 250g is a processing unit that acquires facilitator force evaluation information 240f and selects a facilitator based on the determination result of the determination unit 250f. The selection unit 250g executes the selection process.

選定部250gが実行する選定処理は、実施例1で説明した選定部150gと同様である。 The selection process executed by the selection unit 250g is the same as that of the selection unit 150g described in the first embodiment.

誉め言葉特定部250hは、発話情報240cを取得し、単語から他者への誉め言葉を特定する処理部である。誉め言葉特定部250hは、誉め言葉特定処理を実行する。 The praise word specifying unit 250h is a processing unit that acquires utterance information 240c and identifies praise words from words to others. The compliment word specifying unit 250h executes the compliment word specifying process.

誉め言葉特定部250hが実行する「誉め言葉特定処理」の一例について説明する。誉め言葉特定部250hは、発話情報240cを取得し、発話内容文字列に含まれる単語から、予め登録された誉め言葉に一致す単語を特定する。誉め言葉は、例えば「すごい」等の単語である。そして、誉め言葉特定部250hは、特定した誉め言葉と、誉め言葉が発話された時刻とを対応付けて誉め言葉特定情報240hとして記憶部240に記憶させる。 An example of the "praise word identification process" executed by the compliment word identification unit 250h will be described. The praise word specifying unit 250h acquires the utterance information 240c and identifies a word matching the pre-registered praise word from the words included in the utterance content character string. Complimentary words are words such as "wow". Then, the praise word specifying unit 250h stores the specified praise word and the time when the praise word is uttered in the storage unit 240 as the praise word specific information 240h in association with each other.

次に、本実施例2に係る選定装置200の処理手順の一例について説明する。図13は、本実施例2に係る選定装置の処理手順を示すフローチャートである。図13に示すように、選定装置200は、事前準備として交流会等の参加者である発話者A~Eの音声データを取得し、取得した音響データを解析して各発話者の音響特徴を算出する(ステップS201)。 Next, an example of the processing procedure of the selection device 200 according to the second embodiment will be described. FIG. 13 is a flowchart showing a processing procedure of the selection apparatus according to the second embodiment. As shown in FIG. 13, the selection device 200 acquires the voice data of the speakers A to E who are participants of the exchange meeting or the like as a preliminary preparation, analyzes the acquired acoustic data, and determines the acoustic characteristics of each speaker. Calculate (step S201).

続いて、選定装置200の取得部250aは、複数の発話者の音声を含む音声情報を取得し、音声バッファ240aに格納する(ステップS202)。 Subsequently, the acquisition unit 250a of the selection device 200 acquires voice information including the voices of a plurality of speakers and stores the voice information in the voice buffer 240a (step S202).

その後、選定装置200の発話情報検出部250bは、音声情報から発話情報240cを検出する(ステップS203)。 After that, the utterance information detection unit 250b of the selection device 200 detects the utterance information 240c from the voice information (step S203).

選定装置200の音声認識部250cは、音声情報に対して音声認識を行い、単語を抽出する(ステップS204)。 The voice recognition unit 250c of the selection device 200 performs voice recognition on the voice information and extracts a word (step S204).

また、選定装置200の発話印象評価部250dは、音声情報に対する参加者の印象を評価する(ステップS205)。 Further, the utterance impression evaluation unit 250d of the selection device 200 evaluates the participant's impression of the voice information (step S205).

さらに、選定装置200の誉め言葉特定部250hは、発話内容文字列に含まれる単語から誉め言葉を特定する(ステップS206)。 Further, the praise word specifying unit 250h of the selection device 200 identifies the praise word from the words included in the utterance content character string (step S206).

続いて、選定装置200の特定部250eは、オウム返し特定する(ステップS207)。 Subsequently, the specifying unit 250e of the selection device 200 identifies the parrot return (step S207).

選定装置200の判定部250fは、オウム返しにより発話者A~Eの印象がよくなったか否かを判定する(ステップS208)。 The determination unit 250f of the selection device 200 determines whether or not the impression of the speakers A to E is improved by returning the parrot (step S208).

続いて、選定装置200の選定部250gは、判定部250fの判定の結果に基づいて、参加者のレーティングを行い、参加者レーティング情報240gを記憶部240に記憶させる(ステップS209)。そして、選定部250gは、参加者レーティング情報240gに基づいて、最もレーティングの高い発話者をファシリテーターに選定し(ステップS210)、一連の処理が終了する。 Subsequently, the selection unit 250g of the selection device 200 evaluates the participants based on the determination result of the determination unit 250f, and stores the participant rating information 240g in the storage unit 240 (step S209). Then, the selection unit 250g selects the speaker with the highest rating as the facilitator based on the participant rating information 240g (step S210), and a series of processes is completed.

次に、本実施例2に係る選定装置200の効果について説明する。選定装置200は、オウム返しを特定し、オウム返しにより参加者の印象をよくしたか、またはオウム返しとともに誉め言葉を発したかを判定し、ファシリテーターに選定する。これによって、オウム返しだけでなく、誉め言葉を用いて交流の場を盛り上げることができる参加者をファシリテーターに選定することができ、交流化等を盛り上げることができる。 Next, the effect of the selection device 200 according to the second embodiment will be described. The selection device 200 identifies the parrot return, determines whether the participant's impression is improved by the parrot return, or whether the compliment is given together with the parrot return, and is selected as the facilitator. As a result, it is possible to select participants who can liven up the place of exchange by using praise words as well as returning the parrot as facilitators, and it is possible to liven up the exchange.

上記実施例で用いた単語、発話例、発話人数、シチュエーション等は、あくまで一例であり、任意に変更することができる。例えば、参加者の印象変化を評価する例として、オウム返しを例示したが、これに限定されるものではなく、予め定めておいた特定の単語(例えば褒め言葉、キーワードなど)が発話されたタイミングで評価することもできる。 The words, utterance examples, number of utterances, situations, etc. used in the above embodiment are merely examples and can be arbitrarily changed. For example, as an example of evaluating a change in the impression of a participant, Echolalia is exemplified, but the timing is not limited to this, and a predetermined specific word (for example, a compliment, a keyword, etc.) is spoken. It can also be evaluated with.

上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。 Information including processing procedures, control procedures, specific names, various data and parameters shown in the above documents and drawings can be arbitrarily changed unless otherwise specified.

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。 Further, each component of each of the illustrated devices is a functional concept, and does not necessarily have to be physically configured as shown in the figure. That is, the specific form of distribution or integration of each device is not limited to the one shown in the figure. That is, all or a part thereof can be functionally or physically distributed / integrated in any unit according to various loads, usage conditions, and the like.

さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。 Further, each processing function performed by each device may be realized by a CPU and a program analyzed and executed by the CPU, or may be realized as hardware by wired logic.

次に、上記実施例に示した選定装置100(200)と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図14は、選定装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。 Next, an example of a computer hardware configuration that realizes the same functions as the selection device 100 (200) shown in the above embodiment will be described. FIG. 14 is a diagram showing an example of a hardware configuration of a computer that realizes the same function as the selection device.

図14に示すように、コンピュータ300は、各種演算処理を実行するCPU301と、ユーザからのデータの入力を受け付ける入力装置302と、ディスプレイ303とを有する。また、コンピュータ300は、記憶媒体からプログラム等を読み取る読み取り装置304と、有線または無線ネットワークを介して、マイク、カメラ、振動センサ等からデータを取得するインタフェース装置305とを有する。コンピュータ300は、各種情報を一時記憶するRAM306と、ハードディスク装置307とを有する。そして、各装置301~307は、バス308に接続される。 As shown in FIG. 14, the computer 300 has a CPU 301 for executing various arithmetic processes, an input device 302 for receiving data input from a user, and a display 303. Further, the computer 300 has a reading device 304 that reads a program or the like from a storage medium, and an interface device 305 that acquires data from a microphone, a camera, a vibration sensor, or the like via a wired or wireless network. The computer 300 has a RAM 306 that temporarily stores various information and a hard disk device 307. Then, each of the devices 301 to 307 is connected to the bus 308.

ハードディスク装置307は、取得プログラム307a、発話情報検出プログラム307b、音声認識プログラム307c、発話印象評価プログラム307d、特定プログラム307e、判定プログラム307f、選定プログラム307gを有する。CPU301は、取得プログラム307a、発話情報検出プログラム307b、音声認識プログラム307c、発話印象評価プログラム307d、特定プログラム307e、判定プログラム307f、選定プログラム307g(選定装置200では、さらに誉め言葉特定プログラム)を読み出してRAM306に展開する。 The hard disk device 307 includes an acquisition program 307a, an utterance information detection program 307b, a voice recognition program 307c, an utterance impression evaluation program 307d, a specific program 307e, a determination program 307f, and a selection program 307g. The CPU 301 reads out the acquisition program 307a, the utterance information detection program 307b, the voice recognition program 307c, the utterance impression evaluation program 307d, the specific program 307e, the determination program 307f, and the selection program 307g (further compliment specification program in the selection device 200). Expand to RAM 306.

取得プログラム307aは、取得プロセス306aとして機能する。発話情報検出プログラム307bは、発話情報検出プロセス306bとして機能する。音声認識プログラム307cは、音声認識プロセス306cとして機能する。発話印象評価プログラム307dは、発話印象評価プロセス306dとして機能する。特定プログラム307eは、特定プロセス306eとして機能する。判定プログラム307fは、判定プロセス306fとして機能する。選定プログラム307gは、選定プロセス306gとして機能する。選定装置200では、誉め言葉特定プログラムは、誉め言葉特定プロセスとして機能する。 The acquisition program 307a functions as the acquisition process 306a. The utterance information detection program 307b functions as the utterance information detection process 306b. The speech recognition program 307c functions as a speech recognition process 306c. The utterance impression evaluation program 307d functions as the utterance impression evaluation process 306d. The specific program 307e functions as the specific process 306e. The determination program 307f functions as the determination process 306f. The selection program 307g functions as the selection process 306g. In the selection device 200, the compliment identification program functions as a compliment identification process.

取得プロセス306aの処理は、取得部150a,250aの処理に対応する。発話情報検出プロセス306bの処理は、発話情報検出部150b,250bの処理に対応する。音声認識プロセス306cの処理は、音声認識部150c,250cの処理に対応する。発話印象評価プロセス306dの処理は、発話印象評価部150d,250dの処理に対応する。特定プロセス306eの処理は、特定部150e,250eの処理に対応する。判定プロセス306fの処理は、判定部150f,250fの処理に対応する。選定プロセス306gの処理は、選定部150g,250gの処理に対応する。選定装置200では、誉め言葉特定プロセスの処理は、誉め言葉特定部250hの処理に対応する。 The processing of the acquisition process 306a corresponds to the processing of the acquisition units 150a and 250a. The processing of the utterance information detection process 306b corresponds to the processing of the utterance information detection units 150b and 250b. The processing of the voice recognition process 306c corresponds to the processing of the voice recognition units 150c and 250c. The processing of the utterance impression evaluation process 306d corresponds to the processing of the utterance impression evaluation units 150d and 250d. The processing of the specific process 306e corresponds to the processing of the specific units 150e and 250e. The processing of the determination process 306f corresponds to the processing of the determination units 150f and 250f. The processing of the selection process 306g corresponds to the processing of the selection units 150g and 250g. In the selection device 200, the processing of the compliment specifying process corresponds to the processing of the compliment specifying unit 250h.

なお、各プログラム307a~307gについては、必ずしも最初からハードディスク装置307に記憶させておかなくてもよい。例えば、コンピュータ300に挿入されるフレキシブルディスク(FD)、CD-ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ300が各プログラム307a~307gを読み出して実行するようにしてもよい。 The programs 307a to 307g do not necessarily have to be stored in the hard disk device 307 from the beginning. For example, each program is stored in a "portable physical medium" such as a flexible disk (FD), a CD-ROM, a DVD disk, a magneto-optical disk, or an IC card inserted into a computer 300. Then, the computer 300 may read and execute each program 307a to 307g.

以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。 The following additional notes will be further disclosed with respect to the embodiments including each of the above embodiments.

(付記1)複数の発話者の音声が含まれる音声情報を取得し、前記音声情報に含まれる発話が行われた発話区間と該発話区間における発話を行った発話者とを対応付けた発話情報を検出し、前記音声情報に対して音声認識を行い、前記音声情報に含まれる単語を抽出し、前記音声情報に含まれる特定の単語を含む前記発話情報の前後で、前記複数の発話者の印象を評価し、前記複数の発話者の印象の評価に基づき、ファシリテーターを選定する処理をコンピュータに実行させることを特徴とする選定プログラム。 (Appendix 1) Voice information including the voices of a plurality of speakers is acquired, and the utterance information included in the voice information is associated with the utterance section in which the utterance is made and the utterance in the utterance section. Is detected, voice recognition is performed on the voice information, words included in the voice information are extracted, and before and after the utterance information including a specific word included in the voice information, of the plurality of speakers. A selection program characterized by evaluating an impression and causing a computer to execute a process of selecting a facilitator based on the evaluation of the impressions of the plurality of speakers.

(付記2)時系列順に隣接する前記発話情報において、前記単語が一致し、かつ前記発話者が異なるオウム返しを特定し、前記オウム返しにより、前記印象がよくなったか否かを判定し、前記判定の結果に基づいて、前記ファシリテーターを選定する処理をコンピュータに実行させることを特徴とする付記1に記載の選定プログラム。 (Appendix 2) In the utterance information adjacent to each other in chronological order, the parrot return in which the words match and the speaker is different is specified, and it is determined whether or not the parrot return improves the impression. The selection program according to Appendix 1, wherein a computer is made to execute a process of selecting the facilitator based on the result of the determination.

(付記3)前記評価する処理は、前記複数の発話者の生体情報に基づいて前記複数の発話者の印象を評価する処理を含むことを特徴とする付記1または2に記載の選定プログラム。 (Appendix 3) The selection program according to Appendix 1 or 2, wherein the evaluation process includes a process of evaluating the impression of the plurality of speakers based on the biological information of the plurality of speakers.

(付記4)前記評価する処理は、前記音声情報に含まれる音声信号のピッチ周波数の上下幅に基づいて前記複数の発話者の印象を評価する処理を含むことを特徴とする付記1から3のいずれか一つに記載の選定プログラム。 (Supplementary Note 4) The process of the evaluation includes the process of evaluating the impression of the plurality of speakers based on the vertical width of the pitch frequency of the voice signal included in the voice information. The selection program described in any one.

(付記5)前記単語から他者への誉め言葉を特定し、前記判定する処理は、前記誉め言葉を用いて、前記オウム返しにより、前記印象がよくなったか否かを判定する処理を含むことを特徴とする付記2に記載の選定プログラム。 (Appendix 5) The process of identifying a compliment to another person from the word and determining the determination includes a process of determining whether or not the impression is improved by the parrot return using the compliment. The selection program described in Appendix 2, which is characterized by the above.

(付記6)複数の発話者の音声が含まれる音声情報を取得し、前記音声情報に含まれる発話が行われた発話区間と該発話区間における発話を行った発話者とを対応付けた発話情報を検出し、前記音声情報に対して音声認識を行い、前記音声情報に含まれる単語を抽出し、前記音声情報に含まれる特定の単語を含む前記発話情報の前後で、前記複数の発話者の印象を評価し、前記複数の発話者の印象の評価に基づき、ファシリテーターを選定する処理をコンピュータが実行することを特徴とする選定方法。 (Appendix 6) Voice information including the voices of a plurality of speakers is acquired, and the utterance information included in the voice information is associated with the utterance section in which the utterance is made and the utterance in the utterance section. Is detected, voice recognition is performed on the voice information, words included in the voice information are extracted, and before and after the utterance information including a specific word included in the voice information, of the plurality of speakers. A selection method characterized in that a computer executes a process of evaluating an impression and selecting a facilitator based on the evaluation of the impressions of the plurality of speakers.

(付記7)複数の発話者の音声が含まれる音声情報を取得する取得部と、前記音声情報に含まれる発話が行われた発話区間と該発話区間における発話を行った発話者とを対応付けた発話情報を検出する発話情報検出部と、前記音声情報に対して音声認識を行い、前記音声情報に含まれる単語を抽出する音声認識部と、前記音声情報に含まれる特定の単語を含む前記発話情報の前後で、前記複数の発話者の印象を評価する発話印象評価部と、前記複数の発話者の印象の評価に基づき、ファシリテーターを選定する選定部と、を有することを特徴とする選定装置。 (Appendix 7) Correspondence between the acquisition unit that acquires voice information including the voices of a plurality of speakers, the utterance section in which the utterance included in the voice information is performed, and the speaker who utters in the utterance section. The utterance information detection unit that detects the utterance information, the voice recognition unit that performs voice recognition on the voice information and extracts the words included in the voice information, and the voice recognition unit including the specific words included in the voice information. Selection characterized by having an utterance impression evaluation unit that evaluates the impressions of the plurality of speakers before and after the utterance information, and a selection unit that selects a facilitator based on the evaluation of the impressions of the plurality of speakers. Device.

100,200 検出装置
110,210 通信部
120,220 入力部
130,230 表示部
140,240 記憶部
140a,240a 音声バッファ
140b,240b 学習音響特徴情報
140c,240c 発話情報
140d,240d 発話印象評価情報
140e,240e オウム返し特定情報
140f,240f ファシリテート力評価情報
140g,240g 参加者レーティング情報
240h 誉め言葉特定情報
150,250 制御部
150a,250a 取得部
150b,250b 発話情報検出部
150c,250c 音声認識部
150d,250d 発話印象評価部
150e,250e 特定部
150f,250f 判定部
150g,250g 選定部
250h 誉め言葉特定部
100, 200 Detection device 110, 210 Communication unit 120, 220 Input unit 130, 230 Display unit 140, 240 Storage unit 140a, 240a Voice buffer 140b, 240b Learning acoustic feature information 140c, 240c Speech information 140d, 240d Speech impression evaluation information 140e , 240e Parrot return specific information 140f, 240f Facilitate power evaluation information 140g, 240g Participant rating information 240h Complimentary word specific information 150, 250 Control unit 150a, 250a Acquisition unit 150b, 250b Speech information detection unit 150c, 250c Voice recognition unit 150d , 250d Speech impression evaluation unit 150e, 250e Specific unit 150f, 250f Judgment unit 150g, 250g Selection unit 250h Complimentary word identification unit

Claims (7)

複数の発話者の音声が含まれる音声情報を取得し、
前記音声情報に含まれる発話が行われた発話区間と該発話区間における発話を行った発話者とを対応付けた発話情報を検出し、
前記音声情報に対して音声認識を行い、前記音声情報に含まれる単語を抽出し、
前記音声情報に含まれる特定の単語を含む前記発話情報の前後で、前記複数の発話者の印象を評価し、
前記複数の発話者の印象の評価に基づき、ファシリテーターを選定する
処理をコンピュータに実行させることを特徴とする選定プログラム。
Acquires voice information that includes the voices of multiple speakers,
The utterance information in which the utterance section in which the utterance was made and the speaker who made the utterance in the utterance section are associated with each other is detected.
Voice recognition is performed on the voice information, words included in the voice information are extracted, and the words are extracted.
Impressions of the plurality of speakers are evaluated before and after the utterance information including a specific word included in the voice information.
A selection program characterized by having a computer execute a process of selecting a facilitator based on the evaluation of the impressions of the plurality of speakers.
時系列順に隣接する前記発話情報において、前記単語が一致し、かつ前記発話者が異なるオウム返しを特定し、
前記オウム返しにより、前記印象がよくなったか否かを判定し、
前記判定の結果に基づいて、前記ファシリテーターを選定する
処理をコンピュータに実行させることを特徴とする請求項1に記載の選定プログラム。
In the utterance information adjacent to each other in chronological order, the word is matched and the speaker identifies a different parrot return.
It is determined whether or not the impression is improved by the parrot return, and it is determined.
The selection program according to claim 1, wherein a computer executes a process of selecting the facilitator based on the result of the determination.
前記評価する処理は、前記複数の発話者の生体情報に基づいて前記複数の発話者の印象を評価する処理を含むことを特徴とする請求項1または2に記載の選定プログラム。 The selection program according to claim 1 or 2, wherein the evaluation process includes a process of evaluating the impression of the plurality of speakers based on the biological information of the plurality of speakers. 前記評価する処理は、前記音声情報に含まれる音声信号のピッチ周波数の上下幅に基づいて前記複数の発話者の印象を評価する処理を含むことを特徴とする請求項1から3のいずれか一つに記載の選定プログラム。 One of claims 1 to 3, wherein the evaluation process includes a process of evaluating the impression of the plurality of speakers based on the vertical width of the pitch frequency of the voice signal included in the voice information. The selection program described in one. 前記単語から他者への誉め言葉を特定し、
前記判定する処理は、前記誉め言葉を用いて、前記オウム返しにより、前記印象がよくなったか否かを判定する処理を含むことを特徴とする請求項2に記載の選定プログラム。
Identify words of praise to others from the above words,
The selection program according to claim 2, wherein the determination process includes a process of determining whether or not the impression is improved by the parrot return using the compliment.
複数の発話者の音声が含まれる音声情報を取得し、
前記音声情報に含まれる発話が行われた発話区間と該発話区間における発話を行った発話者とを対応付けた発話情報を検出し、
前記音声情報に対して音声認識を行い、前記音声情報に含まれる単語を抽出し、
前記音声情報に含まれる特定の単語を含む前記発話情報の前後で、前記複数の発話者の印象を評価し、
前記複数の発話者の印象の評価に基づき、ファシリテーターを選定する
処理をコンピュータが実行することを特徴とする選定方法。
Acquires voice information that includes the voices of multiple speakers,
The utterance information in which the utterance section in which the utterance was made and the speaker who made the utterance in the utterance section are associated with each other is detected.
Voice recognition is performed on the voice information, words included in the voice information are extracted, and the words are extracted.
Impressions of the plurality of speakers are evaluated before and after the utterance information including a specific word included in the voice information.
A selection method characterized in that a computer executes a process of selecting a facilitator based on the evaluation of the impressions of the plurality of speakers.
複数の発話者の音声が含まれる音声情報を取得する取得部と、
前記音声情報に含まれる発話が行われた発話区間と該発話区間における発話を行った発話者とを対応付けた発話情報を検出する発話情報検出部と、
前記音声情報に対して音声認識を行い、前記音声情報に含まれる単語を抽出する音声認識部と、
前記音声情報に含まれる特定の単語を含む前記発話情報の前後で、前記複数の発話者の印象を評価する発話印象評価部と、
前記複数の発話者の印象の評価に基づき、ファシリテーターを選定する選定部と、
を有することを特徴とする選定装置。
An acquisition unit that acquires voice information that includes the voices of multiple speakers, and
An utterance information detection unit that detects utterance information in which the utterance section in which the utterance is performed included in the voice information and the utterance speaker in the utterance section are associated with each other.
A voice recognition unit that performs voice recognition on the voice information and extracts words included in the voice information.
An utterance impression evaluation unit that evaluates the impressions of the plurality of speakers before and after the utterance information including a specific word included in the voice information.
A selection unit that selects facilitators based on the evaluation of the impressions of multiple speakers,
A selection device characterized by having.
JP2020143044A 2020-08-26 2020-08-26 Selection program, selection method and selection device Pending JP2022038498A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020143044A JP2022038498A (en) 2020-08-26 2020-08-26 Selection program, selection method and selection device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020143044A JP2022038498A (en) 2020-08-26 2020-08-26 Selection program, selection method and selection device

Publications (1)

Publication Number Publication Date
JP2022038498A true JP2022038498A (en) 2022-03-10

Family

ID=80498960

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020143044A Pending JP2022038498A (en) 2020-08-26 2020-08-26 Selection program, selection method and selection device

Country Status (1)

Country Link
JP (1) JP2022038498A (en)

Similar Documents

Publication Publication Date Title
JP6350148B2 (en) SPEAKER INDEXING DEVICE, SPEAKER INDEXING METHOD, AND SPEAKER INDEXING COMPUTER PROGRAM
US7716048B2 (en) Method and apparatus for segmentation of audio interactions
Friedland et al. The ICSI RT-09 speaker diarization system
JP5644772B2 (en) Audio data analysis apparatus, audio data analysis method, and audio data analysis program
JP5024154B2 (en) Association apparatus, association method, and computer program
US20140337024A1 (en) Method and system for speech command detection, and information processing system
JP2020034683A (en) Voice recognition device, voice recognition program and voice recognition method
JP7160778B2 (en) Evaluation system, evaluation method, and computer program.
US20180075395A1 (en) Conversation member optimization apparatus, conversation member optimization method, and program
JP5704071B2 (en) Audio data analysis apparatus, audio data analysis method, and audio data analysis program
CN109065026B (en) Recording control method and device
Poorjam et al. A parametric approach for classification of distortions in pathological voices
US11107476B2 (en) Speaker estimation method and speaker estimation device
JP6784255B2 (en) Speech processor, audio processor, audio processing method, and program
KR101023211B1 (en) Microphone array based speech recognition system and target speech extraction method of the system
JP2022038498A (en) Selection program, selection method and selection device
CN111951809A (en) Multi-person voiceprint identification method and system
JP2013235050A (en) Information processing apparatus and method, and program
WO2020195924A1 (en) Signal processing device, method, and program
Ji et al. Text-independent speaker identification using soft channel selection in home robot environments
JP4864783B2 (en) Pattern matching device, pattern matching program, and pattern matching method
WO2020196743A1 (en) Evaluation system and evaluation method
Xiao et al. Overlapped speech detection using long-term spectro-temporal similarity in stereo recording
US6934364B1 (en) Handset identifier using support vector machines
JP5099218B2 (en) Problem solving time estimation processing program, processing apparatus, and processing method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230511

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240305