JP2022038498A - Selection program, selection method and selection device - Google Patents
Selection program, selection method and selection device Download PDFInfo
- Publication number
- JP2022038498A JP2022038498A JP2020143044A JP2020143044A JP2022038498A JP 2022038498 A JP2022038498 A JP 2022038498A JP 2020143044 A JP2020143044 A JP 2020143044A JP 2020143044 A JP2020143044 A JP 2020143044A JP 2022038498 A JP2022038498 A JP 2022038498A
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- information
- unit
- voice
- speakers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010187 selection method Methods 0.000 title claims description 5
- 238000011156 evaluation Methods 0.000 claims abstract description 97
- 239000000284 extract Substances 0.000 claims abstract description 11
- 238000000034 method Methods 0.000 claims description 83
- 241000287531 Psittacidae Species 0.000 claims description 64
- 238000001514 detection method Methods 0.000 claims description 64
- 238000012854 evaluation process Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 description 60
- 238000010586 diagram Methods 0.000 description 20
- 238000004891 communication Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 12
- 208000002161 echolalia Diseases 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 5
- 238000002360 preparation method Methods 0.000 description 3
- 241000287530 Psittaciformes Species 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、選定装置等に関する。 The present invention relates to a selection device and the like.
近年、会議や交流会等のイベントにおける交流を支援するシステムが知られている。このようなシステムでは、共通の趣味の参加者をグルーピングすることや、ファシリテーターを選定することなどにより、交流を支援する。 In recent years, a system that supports exchanges at events such as conferences and exchange meetings has been known. Such a system supports exchanges by grouping participants with common hobbies and selecting facilitators.
例えば、立候補または推薦による幹事候補者の中からイベントの幹事を選定する技術がある。この技術を用いることで、幹事が決まっていない状態でもイベントの開催に向けた準備を進めることができる。 For example, there is a technique for selecting an event secretary from candidates for secretary by candidacy or recommendation. By using this technology, it is possible to prepare for the event even if the secretary has not been decided.
しかしながら、上述した技術では、ファシリテート力が高い参加者をファシリテーターに選定することができない場合がある。 However, with the above-mentioned technique, it may not be possible to select a participant with high facilitator ability as a facilitator.
例えば、初対面の人が多数含まれるイベントなどにおいて、グルーピングした参加者に交流を実施させる場合、グループの交流が成功するかはファシリテーターの選び方によるところが大きい。選出されたファシリテーターはアジェンダに従ってその場を仕切るが、不慣れな人がすすめると交流の場は盛り上がらない。上述した技術では、イベントへの参加回数等から交流意欲はわかるものの、選ばれた人が話を聞きだす能力に長けているか判断できないので、交流が盛り上がるようなファシリテーターを選出できない場合がある。 For example, in an event that includes a large number of people who meet for the first time, when the grouped participants are allowed to interact with each other, the success of the group exchange depends largely on how the facilitator is selected. The elected facilitators will partition the venue according to the agenda, but if an inexperienced person recommends it, the venue for interaction will not be lively. With the above-mentioned technology, although the willingness to interact can be understood from the number of times of participation in the event, it is not possible to judge whether the selected person is good at listening to the story, so it may not be possible to select a facilitator that excites the interaction.
1つの側面では、本発明は、ファシリテート力が高い参加者をファシリテーターに選定する選定プログラム、選定方法および選定装置を提供することを目的とする。 In one aspect, it is an object of the present invention to provide a selection program, a selection method, and a selection device for selecting a participant having a high facilitator ability as a facilitator.
第1の案では、コンピュータに次の処理を実行させる。コンピュータは、複数の発話者の音声が含まれる音声情報を取得する。コンピュータは、音声情報に含まれる発話が行われた発話区間と該発話区間における発話を行った発話者とを対応付けた発話情報を検出する。コンピュータは、音声情報に対して音声認識を行い、音声情報に含まれる単語を抽出する。コンピュータは、音声情報に含まれる特定の単語を含む発話情報の前後で、複数の発話者の印象を評価する。コンピュータは、複数の発話者の印象の評価に基づき、ファシリテーターを選定する。 In the first plan, the computer is made to perform the following processing. The computer acquires voice information including the voices of a plurality of speakers. The computer detects the utterance information in which the utterance section in which the utterance is made and the speaker who made the utterance in the utterance section are associated with each other. The computer performs voice recognition on the voice information and extracts words included in the voice information. The computer evaluates the impressions of a plurality of speakers before and after the utterance information including a specific word contained in the voice information. The computer selects a facilitator based on the evaluation of the impressions of multiple speakers.
一実施形態によれば、ファシリテート力が高い参加者をファシリテーターに選定することができる。 According to one embodiment, participants with high facilitator ability can be selected as facilitators.
以下に、本願の開示する選定プログラム、選定方法および選定装置の実施例を図面に基づいて説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。 Hereinafter, examples of the selection program, selection method, and selection device disclosed in the present application will be described with reference to the drawings. The present invention is not limited to this embodiment. In addition, each embodiment can be appropriately combined within a consistent range.
図1は、本実施例1に係る選定装置の処理の一例を説明するための図である。本実施例1に係る選定装置は、会議や交流会等の参加者である複数の発話者の音声が含まれる音声情報を取得する。そして、選定装置は、取得した音声情報に含まれる発話が行われた発話区間とこの発話区間における発話を行った発話者とを対応付けた発話情報を検出する。図1に示す発話情報には、発話区間に対応する発話ID、この発話IDに対応する発話者、発話の開始時刻および終了時刻が含まれる。また、選定装置は、音声情報に対して音声認識を行って生成した文字列を発話IDに対応付けて発話内容文字列として記憶する。 FIG. 1 is a diagram for explaining an example of processing of the selection apparatus according to the first embodiment. The selection device according to the first embodiment acquires voice information including voices of a plurality of speakers who are participants in a conference or an exchange meeting. Then, the selection device detects the utterance information in which the utterance section in which the utterance is performed and the utterance speaker in this utterance section, which are included in the acquired voice information, are associated with each other. The utterance information shown in FIG. 1 includes an utterance ID corresponding to the utterance section, a speaker corresponding to the utterance ID, and a start time and end time of the utterance. Further, the selection device associates the character string generated by performing voice recognition with the voice information with the utterance ID and stores it as the utterance content character string.
さらに、選定装置は、この発話内容文字列に含まれる単語を抽出する。そして、選定装置は、時系列順に隣接する発話情報において、抽出した単語が一致し、かつ発話者が異なるオウム返しを特定する。オウム返しとは、発話者が直前の発話者が発した単語をそのまま発することを指す。具体的には、図1の発話情報において、発話ID「h11」に含まれる「コマーシャル」という単語W1と、発話ID「h21」に含まれる「コマーシャル」という単語W2とが抽出され、これらの発話者が異なることによりオウム返しが特定される。 Further, the selection device extracts words included in this utterance content character string. Then, the selection device identifies parrot returns in which the extracted words match and the speakers are different in the adjacent utterance information in chronological order. Echolalia means that the speaker speaks the word spoken by the previous speaker as it is. Specifically, in the utterance information of FIG. 1, the word "commercial" W1 included in the utterance ID "h11" and the word "commercial" W2 included in the utterance ID "h21" are extracted, and these utterances are made. The parrot return is specified by different persons.
また、選定装置は、音声情報に対する参加者の印象を評価する。図1に示す発話印象評価情報には、発話印象評価情報を識別する発話印象ID、この発話印象IDに対応する発話ID、印象評価値に対応する時刻、参加者の印象を評価して数値化した印象評価値が含まれる。 In addition, the selection device evaluates the participants' impressions of the voice information. The utterance impression evaluation information shown in FIG. 1 includes an utterance impression ID that identifies the utterance impression evaluation information, a utterance ID corresponding to this utterance impression ID, a time corresponding to the impression evaluation value, and an evaluation and quantification of the participant's impression. The impression evaluation value that was made is included.
続いて、選定装置は、オウム返しにより、印象がよくなったか否かを判定する。具体的には、図1に示す時間軸において、オウム返しが発生した発話ID「h21」の直後の発話区間に対応する発話ID「h12」の印象評価値V1が上昇しているか否かを判定する。 Subsequently, the selection device determines whether or not the impression is improved by returning the parrot. Specifically, on the time axis shown in FIG. 1, it is determined whether or not the impression evaluation value V1 of the utterance ID “h12” corresponding to the utterance section immediately after the utterance ID “h21” in which the parrot is returned has increased. do.
その後、選定装置は、オウム返しにより印象評価値を上昇させた参加者に対してポイントを加算することにより参加者をレーティングし、このレーティング結果を用いてファシリテーターを選定する。 After that, the selection device rates the participants by adding points to the participants whose impression evaluation value is increased by returning the parrot, and selects the facilitator using the rating result.
上記のように、本実施例1に係る選定装置は、オウム返しにより参加者の印象をよくした参加者をファシリテーターとして選定する。これによって、ファシリテート力が高い参加者をファシリテーターに選定することができる。 As described above, the selection device according to the first embodiment selects the participants who have improved the impression of the participants by returning the parrots as facilitators. As a result, participants with high facilitator ability can be selected as facilitators.
次に、本実施例1にかかるシステムの構成について説明する。図2は、本実施例1に係るシステムの一例を示す図である。図2に示すように、このシステムは、マイク端末10と、選定装置100とを有する。たとえば、マイク端末10と、選定装置100とは、無線によって相互に接続される。なお、マイク端末10と、選定装置100とを有線で接続してもよい。
Next, the configuration of the system according to the first embodiment will be described. FIG. 2 is a diagram showing an example of the system according to the first embodiment. As shown in FIG. 2, this system has a
マイク端末10は、音声を収録する装置である。マイク端末10は、音声情報を選定装置100に送信する。音声情報には、会議や交流会等の参加者である発話者A~Eの音声の情報が含まれる。マイク端末10は、複数のマイクを備えていてもよい。マイク端末10は、複数のマイクを備えている場合、各マイクで集音した音声情報を、選定装置100に送信する。
The
選定装置100は、マイク端末10から音声情報を取得し、発話者A~Eのうち、ファシリテート力が高いと判定した参加者をファシリテーターに選定する。
The
図3は、本実施例1に係る選定装置の構成を示す機能ブロック図である。図3に示すように、この選定装置100は、通信部110と、入力部120と、表示部130と、記憶部140と、制御部150とを有する。
FIG. 3 is a functional block diagram showing the configuration of the selection device according to the first embodiment. As shown in FIG. 3, the
通信部110は、無線によって、マイク端末10とデータ通信を実行する処理部である。通信部110は、通信装置の一例である。通信部110は、マイク端末10から音声情報を受信し、受信した音声情報を、制御部150に出力する。なお、選定装置100は、有線によって、マイク端末10に接続してもよい。選定装置100は、通信部110によってネットワークに接続し、外部装置(図示略)とデータを送受信してもよい。
The communication unit 110 is a processing unit that wirelessly executes data communication with the
入力部120は、選定装置100に各種の情報を入力するための入力装置である。入力部120は、キーボードやマウス、タッチパネル等に対応する。
The
表示部130は、制御部150から出力される情報を表示する表示装置である。表示部130は、液晶ディスプレイやタッチパネル等に対応する。
The
記憶部140は、音声バッファ140aと、学習音響特徴情報140bと、発話情報140cと、発話印象評価情報140dと、オウム返し発生情報140eと、ファシリテート力評価情報140fと、参加者レーティング情報140gとを有する。記憶部140は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子や、HDD(Hard Disk Drive)などの記憶装置に対応する。
The storage unit 140 includes a voice buffer 140a, learning
音声バッファ140aは、マイク端末10から送信される音声情報を格納するバッファである。音声情報では、音声信号と時刻とが対応付けられる。
The voice buffer 140a is a buffer for storing voice information transmitted from the
学習音響特徴情報140bは、予め学習される発話者A~Eそれぞれの音声の音響特徴の情報である。音響特徴には、ピッチ周波数、フレームパワー、フォルマント周波数、音声到来方向が含まれる。たとえば、学習音響特徴情報140bは、ピッチ周波数、フレームパワー、フォルマント周波数、音声到来方向の値をそれぞれ要素とするベクトルである。
The learning
発話情報140cは、参加者の音声情報に含まれる発話が行われた発話区間とこの発話区間における発話を行った発話者とを対応付けた情報である。図4は、発話情報のデータ構造の一例を示す図である。図4に示す発話情報140cには、発話区間に対応する発話ID、この発話IDに対応する発話者、発話の開始時刻および終了時刻が含まれる。発話情報には、音声情報に対して音声認識を行って生成した発話内容文字列が含まれる。
The
発話印象評価情報140dは、参加者の印象を評価した情報である。図5は、発話印象評価情報のデータ構造の一例を示す図である。図5に示す発話印象評価情報140dには、各発話印象評価情報を識別する発話印象ID、この発話印象IDに対応する発話区間(発話ID)、印象評価値に対応する時刻、参加者の印象を評価して数値化した印象評価値が含まれる。
The utterance
オウム返し発生情報140eは、時系列順に隣接する発話情報において、抽出した単語が一致し、かつ発話者が異なるオウム返しの発生を示す情報である。図6は、オウム返し発生情報のデータ構造の一例を示す図である。図6に示すオウム返し発生情報140eには、各オウム返し発生情報を識別するオウム返しID、このオウム返し発生IDに対応する発話区間(発話ID)、この発話IDに対応する発話者が含まれる。
The parrot
ファシリテート力評価情報140fは、参加者のファシリテート力を評価した情報である。図7は、ファシリテート力評価情報のデータ構造の一例を示す図である。図7に示すファシリテート力評価情報140fは、各発話者、各発話者に対する評価情報、各発話者に対する評価値が含まれる。評価情報は、オウム返しが発生する度に生成され、オウム返しにより印象がよくなった場合に1、印象が変化しない場合に0、印象が悪くなった場合に-1の値がそれぞれ付与される。評価値は、評価情報の平均値であり、評価情報の合計をオウム返しの発生回数で除算することにより算出される。
The facilitating
参加者レーティング情報140gは、参加者のレーティング(格付け)を行った情報である。図8は、参加者レーティング情報のデータ構造の一例を示す図である。図8に示す参加者レーティング情報140gには、各発話者、各発話者が評価値の最高値を獲得した履歴を表す参加情報、各発話者に対するレーティングが含まれる。参加情報は、例えば発話者Eについて、三回目に参加したイベント(E3)において、評価値0.7で最高値を獲得したことを表す。レーティングは、参加情報において最高値を記録した回数に応じて1ずつ加算される。 Participant rating information 140g is information obtained by rating participants. FIG. 8 is a diagram showing an example of a data structure of participant rating information. The participant rating information 140g shown in FIG. 8 includes each speaker, participation information representing the history in which each speaker has acquired the highest evaluation value, and a rating for each speaker. The participation information indicates that, for example, the speaker E has obtained the highest evaluation value of 0.7 in the event (E3) in which the speaker E participated for the third time. The rating is added by 1 according to the number of times the highest value is recorded in the participation information.
制御部150は、取得部150aと、発話情報検出部150bと、音声認識部150cと、発話印象評価部150dと、特定部150eと、判定部150fと、選定部150gとを有する。制御部150は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などのハードワイヤードロジック等によって実現される。
The control unit 150 includes an acquisition unit 150a, an utterance information detection unit 150b, a
取得部150aは、通信部110を介して、マイク端末10から音声情報を取得する処理部である。取得部150aは、音声情報を順次、音声バッファ140aに格納する。
The acquisition unit 150a is a processing unit that acquires voice information from the
発話情報検出部150bは、音声バッファ140aから音声情報を取得し、音声情報から図4に示す発話情報140cを検出する処理部である。発話情報検出部150bは、発話区間検出処理、音響解析処理、類似性評価処理を行う。
The utterance information detection unit 150b is a processing unit that acquires voice information from the voice buffer 140a and detects the
まず、発話情報検出部150bが実行する「発話区間検出処理」の一例について説明する。発話情報検出部150bは、音声情報のパワーを特定し、パワーが閾値未満となる無音区間に挟まれた区間を、発話区間として検出する。発話情報検出部150bは、国際公開第2009/145192号に開示された技術を用いて、発話区間を検出してもよい。 First, an example of the "utterance section detection process" executed by the utterance information detection unit 150b will be described. The utterance information detection unit 150b identifies the power of the voice information, and detects a section sandwiched between silent sections whose power is less than the threshold value as the utterance section. The utterance information detection unit 150b may detect the utterance section by using the technique disclosed in International Publication No. 2009/145192.
発話情報検出部150bは、発話区間によって区切られる音声情報を、固定長のフレームに分割する。発話情報検出部150bは、各フレームのフレームを識別するフレーム番号を設定する。発話情報検出部150bは、各フレームに対して、後述する音響解析処理、類似性評価処理を実行する。 The utterance information detection unit 150b divides the voice information divided by the utterance section into fixed-length frames. The utterance information detection unit 150b sets a frame number for identifying the frame of each frame. The utterance information detection unit 150b executes acoustic analysis processing and similarity evaluation processing, which will be described later, for each frame.
続いて、発話情報検出部150bが実行する「音響解析処理」の一例について説明する。たとえば、発話情報検出部150bは、音声情報に含まれる発話区間の各フレームを基にして、音響特徴を算出する。発話情報検出部150bは、音響特徴として、ピッチ周波数、フレームパワー、フォルマント周波数、音声到来方向をそれぞれ算出する。 Subsequently, an example of the "acoustic analysis process" executed by the utterance information detection unit 150b will be described. For example, the utterance information detection unit 150b calculates the acoustic characteristics based on each frame of the utterance section included in the voice information. The utterance information detection unit 150b calculates the pitch frequency, the frame power, the formant frequency, and the voice arrival direction as acoustic features.
発話情報検出部150bが、音響特徴として「ピッチ周波数」を算出する処理の一例について説明する。発話情報検出部150bは、RAPT(A Robust Algorithm for Pitch Tracking)の推定手法を用いて、フレームに含まれる音声信号のピッチ周波数p(n)を算出する。「n」はフレーム番号を示す。発話情報検出部150bは、「D.Talkin,"A Robust Algorithm for Pitch Tracking (RAPT),"in Speech Coding & Synthesis,W.B. Kleijn and K. K. Pailwal (Eds.),Elsevier,pp.495-518,1995」に記載された技術を用いて、ピッチ周波数を算出してもよい。 An example of a process in which the utterance information detection unit 150b calculates the “pitch frequency” as an acoustic feature will be described. The utterance information detection unit 150b calculates the pitch frequency p (n) of the audio signal included in the frame by using the estimation method of RAPT (A Robust Algorithm for Pitch Tracking). "N" indicates a frame number. The speech information detection unit 150b is "D.Talkin," A Robust Algorithm for Pitch Tracking (RAPT), "in Speech Coding & Synthesis, WB Kleijn and KK Pailwal (Eds.), Elsevier, pp.495-518, 1995". The pitch frequency may be calculated using the technique described in.
発話情報検出部150bが、音響特徴として「フレームパワー」を算出する処理の一例について説明する。たとえば、発話情報検出部150bは、式(1)に基づいて、所定長のフレームにおけるパワーS(n)を算出する。式(1)において、「n」はフレーム番号を示し、「M」は1フレームの時間長(たとえば、20ms)を示し、「t」は時間を示す。「C(t)」は、時間tにおける音声信号を示す。なお、発話情報検出部150bは、所定の平滑化係数を用いて、時間平滑化したパワーを、フレームパワーとして算出してもよい。 An example of a process in which the utterance information detection unit 150b calculates "frame power" as an acoustic feature will be described. For example, the utterance information detection unit 150b calculates the power S (n) in a frame having a predetermined length based on the equation (1). In the formula (1), "n" indicates a frame number, "M" indicates a time length of one frame (for example, 20 ms), and "t" indicates a time. “C (t)” indicates an audio signal at time t. The utterance information detection unit 150b may calculate the time-smoothed power as the frame power using a predetermined smoothing coefficient.
発話情報検出部150bが、音響特徴として「フォルマント周波数」を算出する処理の一例について説明する。発話情報検出部150bは、フレームに含まれる音声信号C(t)に対して線形予測(Linear Prediction Coding)分析を行い、複数のピークを抽出することで、複数のフォルマント周波数を算出する。たとえば、発話情報検出部150bは、周波数の低い順に、第1フォルマント周波数:F1、第2フォルマント周波数:F2、第3フォルマント周波数:F3を算出する。発話情報検出部150bは、特開昭62-54297号公報に開示された技術を用いて、フォルマント周波数を算出してもよい。 An example of a process in which the utterance information detection unit 150b calculates the “formant frequency” as an acoustic feature will be described. The utterance information detection unit 150b performs linear prediction (Linear Prediction Coding) analysis on the voice signal C (t) included in the frame, and calculates a plurality of formant frequencies by extracting a plurality of peaks. For example, the utterance information detection unit 150b calculates the first formant frequency: F1, the second formant frequency: F2, and the third formant frequency: F3 in ascending order of frequency. The utterance information detection unit 150b may calculate the formant frequency by using the technique disclosed in Japanese Patent Application Laid-Open No. 62-54297.
発話情報検出部150bが、音響特徴として「音声到来方向」を算出する処理の一例について説明する。発話情報検出部150bは、2つのマイクに収録された音声情報の位相差を基にして、音声到来方向を算出する。 An example of a process in which the utterance information detection unit 150b calculates the “voice arrival direction” as an acoustic feature will be described. The utterance information detection unit 150b calculates the voice arrival direction based on the phase difference of the voice information recorded in the two microphones.
この場合、発話情報検出部150bは、マイク端末10の複数のマイクによって収録された各音声情報から、発話区間をそれぞれ検出し、各発話区間の同一時間のフレームの音声情報を比較して、位相差を算出する。発話情報検出部150bは、特開2008-175733号公報に開示された技術を用いて、音声到来方向を算出してもよい。
In this case, the utterance information detection unit 150b detects the utterance section from each voice information recorded by the plurality of microphones of the
発話情報検出部150bは、上記の音響解析処理を実行することで、音声情報の発話区間に含まれる各フレームの音響特徴をそれぞれ算出する。発話情報検出部150bは、音響特徴として、ピッチ周波数、フレームパワー、フォルマント周波数、音声到来方向のうち、少なくとも一つを、音響特徴として用いてもよいし、複数の組み合わせを音響特徴として用いてもよい。以下の説明において、音声情報の発話区間に含まれる各フレームの音響特徴を「評価対象音響特徴」と表記する。 The utterance information detection unit 150b calculates the acoustic characteristics of each frame included in the utterance section of the voice information by executing the above acoustic analysis process. The utterance information detection unit 150b may use at least one of the pitch frequency, the frame power, the formant frequency, and the voice arrival direction as the acoustic feature, or may use a plurality of combinations as the acoustic feature. good. In the following description, the acoustic feature of each frame included in the utterance section of the voice information is referred to as "evaluation target acoustic feature".
続いて、発話情報検出部150bが実行する「類似性評価処理」の一例について説明する。発話情報検出部150bは、発話区間の各フレームの評価対象音響特徴と、学習音響特徴情報140bとの類似度を算出する。
Subsequently, an example of the "similarity evaluation process" executed by the utterance information detection unit 150b will be described. The utterance information detection unit 150b calculates the degree of similarity between the evaluation target acoustic feature of each frame of the utterance section and the learning
たとえば、発話情報検出部150bは、ピアソンの積率相関係数を類似度として算出してもよいし、ユークリッド距離を用いて、類似度を算出してもよい。 For example, the utterance information detection unit 150b may calculate the Pearson product-moment correlation coefficient as the similarity, or may calculate the similarity using the Euclidean distance.
発話情報検出部150bが、ピアソンの積率相関係数を類似度として算出する場合について説明する。ピアソンの積率相関係数corは、式(2)によって算出される。式(2)において、「X」は、学習音響特徴情報140bに含まれる発話者A~Eそれぞれの音響特徴のピッチ周波数、フレームパワー、フォルマント周波数、音声到来方向の値をそれぞれ要素とするベクトルである。「Y」は、評価対象音響特徴のピッチ周波数、フレームパワー、フォルマント周波数、音声到来方向の値をそれぞれ要素とするベクトルである。「i」は、ベクトルの要素を示す番号である。発話情報検出部150bは、ピアソンの積率相関係数corが、閾値Thc以上となる評価対象音響特徴のフレームを、発話者A~Eのいずれかの音声を含むフレームとして特定する。たとえば、閾値Thcを「0.7」とする。閾値Thcを適宜変更してもよい。
A case where the utterance information detection unit 150b calculates the Pearson product-moment correlation coefficient as the degree of similarity will be described. Pearson's product-moment correlation coefficient cor is calculated by Eq. (2). In the equation (2), "X" is a vector whose elements are the pitch frequency, frame power, formant frequency, and voice arrival direction of each of the acoustic features of the speakers A to E included in the learning
発話情報検出部150bが、ユークリッド距離を用いて、類似度を算出する場合について説明する。ユークリッド距離dは、式(3)によって算出され、類似度Rは、式(4)によって算出される。式(3)において、a1~aiは、学習音響特徴情報140bに含まれる発話者A~Eそれぞれの音響特徴のピッチ周波数、フレームパワー、フォルマント周波数、音声到来方向の値に対応する。b1~biは、評価対象音響特徴のピッチ周波数、フレームパワー、フォルマント周波数、音声到来方向の値に対応する。発話情報検出部150bは、類似度Rが閾値Thr以上となる評価対象音響特徴のフレームを、発話者A~Eのいずれかの音声を含むフレームとして特定する。たとえば、閾値Thrを「0.7」とする。閾値Thrを適宜変更してもよい。
A case where the utterance information detection unit 150b calculates the similarity using the Euclidean distance will be described. The Euclidean distance d is calculated by the equation (3), and the similarity R is calculated by the equation (4). In the equation ( 3 ), a1 to ai correspond to the pitch frequency, frame power, formant frequency, and voice arrival direction value of each of the acoustic features of the speakers A to E included in the learning
R=1/(1+d)・・・(4) R = 1 / (1 + d) ... (4)
発話情報検出部150bは、類似度が閾値以上となる評価対象音響特徴のフレームを、発話者A~Eのいずれかの音声を含むフレームとして特定する。換言すると、発話情報検出部150bは、音声情報からフレームごとに発話者A~Eを特定する。 The utterance information detection unit 150b specifies a frame of the evaluation target acoustic feature whose similarity is equal to or higher than the threshold value as a frame including any of the voices of the speakers A to E. In other words, the utterance information detection unit 150b identifies the utterances A to E for each frame from the voice information.
発話情報検出部150bは、上記処理を繰り返し実行し、全ての発話区間について発話者を特定する。発話情報検出部150bは、発話情報に各発話区間の開始時刻および終了時刻を含めて、発話情報140cとして記憶部140に記憶させる。
The utterance information detection unit 150b repeatedly executes the above process to identify the speaker for all utterance sections. The utterance information detection unit 150b includes the start time and end time of each utterance section in the utterance information, and stores the
音声認識部150cは、音声情報を取得し、音声情報に対して音声認識を行い図4に示す発話内容文字列を生成する処理部である。音声認識部150cは、音声認識により生成した文字列を各発話区間と対応付けて、発話内容文字列として発話情報140cに含めて記憶部140に記憶させる。また、音声認識部150cは、生成した文字列から単語を抽出する処理部である。音声認識部150cは、発話内容文字列に含まれる単語を抽出する。
The
音声認識部150cは、どのような技術を用いて、音声情報を文字列に変換してもよい。たとえば、音声認識部150cは、特開平4-255900号公報に開示された技術を用いて、音声情報を文字列に変換する。
The
発話印象評価部150dは、音声情報を取得し、音声情報における音声信号のピッチ周波数の上下幅に基づいて、音声情報に対する参加者の印象を評価する処理部である。発話印象評価部150dは、「発話印象評価処理」を行う。
The utterance
発話印象評価部150dが実行する「発話印象評価処理」の一例について説明する。発話印象評価部150dは、各発話区間の音声信号を取得し、フレームごとのピッチ周波数の上下幅を算出する。そして、発話印象評価部150dは、印象が普通である場合を基準値0として、音声信号のピッチ周波数の上下幅が大きいほど印象がよいと判定して正の絶対値が大きい印象評価値を付与し、音声信号のピッチ周波数の上下幅が小さいほど印象が悪いと判定して負の絶対値が大きい印象評価値を付与する。そして、発話印象評価部150dは、印象評価値を時刻と対応付けて発話印象評価情報140dとして記憶部140に記憶させる。また、発話印象評価部150dは、参加者の脈拍等の生体情報を用いて参加者の印象を評価してもよい。なお、発話印象評価部150dは、発話者A~Eの印象の平均値を印象評価値としてもよい。
An example of the "utterance impression evaluation process" executed by the utterance
特定部150eは、発話情報140cを取得し、発話内容文字列からオウム返しを特定する処理部である。特定部150eは、オウム返し特定処理を実行する。
The
特定部150eが実行する「オウム返し特定処理」の一例について説明する。特定部150eは、発話情報140cを取得し、時系列順に隣接する発話情報において、発話内容文字列に含まれる単語が一致し、かつ発話者が異なる発話情報をオウム返しとして特定する。そして、特定部150eは、特定したオウム返しをオウム返し発生情報140eとして記憶部140に記憶させる。なお、時系列順に隣接する発話情報とは、時系列で前後に隣り合う発話情報を指すが、1つ以上の発話情報を介在して隣り合う発話情報であってもよい。すなわち、ある発話情報に対して、直後に同じ単語を発話した場合をオウム返しと特定してもよいが、ある発話情報に対して、他者の発話を挟んで同じ単語を発話した場合をオウム返しに含めてもよい。
An example of the "echolalia specific process" executed by the
判定部150fは、発話印象評価情報140dおよびオウム返し発生情報140eを取得し、オウム返しにより、印象がよくなったか否かを判定する処理部である。判定部150fは、判定処理を実行する。
The
判定部150fが実行する「判定処理」の一例について説明する。判定部150fは、取得したオウム返し発生情報140eから選択した1つのオウム返しが発生した発話区間を特定し、取得した発話印象評価情報140dにおいて選択したオウム返しの直後の発話者が異なる発話区間において、印象評価値が上昇しているか否かを判定する。そして、判定部150fは、印象評価値が上昇していれば印象がよくなったと判定し、印象評価値が変化しなければ印象が変化しなかったと判定し、印象評価値が下降していれば印象が悪くなったと判定する。判定部150fは、評価情報を平均することにより評価値を算出し、判定の結果を図7に示す評価情報および評価値として記憶部140に記憶させる。
An example of the "determination process" executed by the
選定部150gは、ファシリテート力評価情報140fを取得し、判定部150fの判定の結果に基づいて、ファシリテーターを選定する処理部である。選定部150gは、選定処理を実行する。
The selection unit 150g is a processing unit that acquires facilitator
選定部150gが実行する「選定処理」の一例について説明する。選定部150gは、取得したファシリテート力評価情報140fに基づいて、評価値が最も高い発話者のレーティングを1上げるよう参加者レーティング情報140gを更新して記憶部140に記憶させる。そして、選定部150gは、ファシリテーターとしてレーティングが最も高い発話者を選定する。
An example of the "selection process" executed by the selection unit 150g will be described. Based on the acquired facilitating
次に、本実施例1に係る選定装置100の処理手順の一例について説明する。図9は、本実施例1に係る選定装置の処理手順を示すフローチャートである。図9に示すように、選定装置100は、事前準備として交流会等の参加者である発話者A~Eの音声データを取得し、取得した音響データを解析して各発話者の音響特徴を算出する(ステップS101)。この事前準備には、過去に行われた交流会等の音声データを用いてもよいし、発話者A~Eを選定装置100に登録する際に取得した音声データを用いてもよいし、交流会等の冒頭における自己紹介や雑談の際に取得した音声データを用いてもよい。
Next, an example of the processing procedure of the
続いて、選定装置100の取得部150aは、複数の発話者A~Eの音声を含む音声情報を取得し、音声バッファ140aに格納する(ステップS102)。
Subsequently, the acquisition unit 150a of the
その後、選定装置100の発話情報検出部150bは、音声情報から発話情報140cを検出する(ステップS103)。図10は、発話情報を検出する処理手順を示すサブルーチンである。図10に示すように、発話情報検出部150bは、取得した音声情報から発話区間を検出する(ステップS1301)。続いて、発話情報検出部150bは、各発話区間に含まれるフレームごとに、音響特徴を算出する(ステップS1302)。さらに、発話情報検出部150bは、算出した評価対象音響特徴とステップS101において算出した学習音響特徴との類似度を算出し、発話者を特定する(ステップS1303)。そして、発話情報検出部150bは、発話区間と発話者とを対応付けた発話情報140cを記憶部140に記憶させる(ステップS1304)。その後、発話情報検出部150bは、全ての音声情報から発話区間を検出したか否かを判定する(ステップS1305)。発話情報検出部150bが、全ての音声情報から発話区間を検出していないと判定した場合(ステップS1305:No)、ステップS1301に戻り処理を繰り返す。一方、発話情報検出部150bが、全ての音声情報から発話区間を検出したと判定した場合(ステップS1305:Yes)。このサブルーチンを終了する。
After that, the utterance information detection unit 150b of the
図9に戻り、選定装置100の音声認識部150cは、音声情報に対して音声認識を行い、単語を抽出する(ステップS104)。
Returning to FIG. 9, the
また、選定装置100の発話印象評価部150dは、音声情報に対する参加者の印象を評価する(ステップS105)。
Further, the utterance
続いて、選定装置100の特定部150eは、オウム返し特定する(ステップS106)。図11は、オウム返しを特定する処理手順を示すサブルーチンである。図11に示すように、特定部150eは、時系列で最初の発話情報の発話者を最終発話者に設定する(ステップS1601)。続いて、特定部150eは、時系列で次の発話情報の発話者が最終発話者と一致するか否かを判定する(ステップS1602)。
Subsequently, the specifying
特定部150eが、時系列で次の発話情報の発話者が最終発話者と一致すると判定した場合(ステップS1602:Yes)、ステップS1601に戻る。一方、特定部150eが、時系列で次の発話情報の発話者が最終発話者と一致しないと判定した場合(ステップS1602:No)、特定部150eは、時系列で次の発話情報の発話者を最終発話者に設定する(ステップS1603)。
When the
その後、特定部150eは、最終発話者が設定されている発話情報と直前の発話情報とにおいて、単語が一致するか否かを判定する(ステップS1604)。特定部150eが、単語が一致すると判定した場合(ステップS1604:Yes)、特定部150eは、オウム返しの発生を特定し、オウム返し発生情報140eを記憶部140に記憶させる(ステップS1605)。一方、特定部150eが、単語が一致しないと判定した場合(ステップS1604:No)、ステップS1606に進む。
After that, the
ステップS1606において、特定部150eは、最終話者の発話区間が時系列で最後であるか否かを判定する。特定部150eが、最終話者の発話区間が時系列で最後ではないと判定した場合(ステップS1606:No)、ステップS1602に戻り処理を繰り返す。一方、特定部150eが、最終話者の発話区間が時系列で最後であると判定した場合(ステップS1606:Yes)、このサブルーチンを終了する。
In step S1606, the
図9に戻り、選定装置100の判定部150fは、オウム返しにより発話者A~Eの印象がよくなったか否かを判定する(ステップS107)。
Returning to FIG. 9, the
続いて、選定装置100の選定部150gは、判定部150fの判定結果に基づいて、参加者のレーティングを行い、参加者レーティング情報140gを記憶部140に記憶させる(ステップS108)。そして、選定部150gは、参加者レーティング情報140gに基づいて、最もレーティングの高い発話者をファシリテーターに選定し(ステップS109)、一連の処理が終了する。
Subsequently, the selection unit 150g of the
次に、本実施例1に係る選定装置100の効果について説明する。選定装置100は、オウム返しを特定し、オウム返しにより参加者の印象をよくした参加者をファシリテーターに選定する。ここで、ファシリテート力が高いとは、他者の話しを聞く能力が高いことが重要であり、他者の話しを聞く能力が高い人は会話の中でオウム返しを多用すると考えられている。そこで、オウム返しにより参加者の印象をよくする参加者をファシリテーターに選定することにより、ファシリテート力が高い参加者をファシリテーターに選定することができ、交流化等を盛り上げることができる。
Next, the effect of the
選定装置100は、オウム返しを特定するだけでなく、印象がよくなったか否かを判定してファシリテーターを選定する。これによって、オウム返しのみを特定する場合よりも精度よく、ファシリテート力が高い参加者をファシリテーターに選定することができる。
The
次に、本実施例2に係る検出装置について説明する。本実施例2に係るシステムは、実施例1の図3で説明したシステムと同様にして、マイク端末10に無線によって接続されているものとする。本実施例2においても、マイク端末10は、発話者A~Eの音声を収録して音声情報を出力する。
Next, the detection device according to the second embodiment will be described. It is assumed that the system according to the second embodiment is wirelessly connected to the
本実施例2に係る選定装置は、マイク端末10から音声情報を取得し、発話者A~Eのうち、ファシリテート力が高いと判定した参加者をファシリテーターに選定する。
The selection device according to the second embodiment acquires voice information from the
図12は、本実施例2に係る選定装置の構成を示す機能ブロック図である。図12に示すように、この選定装置200は、通信部210と、入力部220と、表示部230と、記憶部240と、制御部250とを有する。
FIG. 12 is a functional block diagram showing the configuration of the selection device according to the second embodiment. As shown in FIG. 12, the
通信部210は、無線によって、マイク端末10とデータ通信を実行する処理部である。通信部210は、通信装置の一例である。通信部210は、マイク端末10から音声情報を受信し、受信した音声情報を、制御部250に出力する。なお、選定装置200は、有線によって、マイク端末10に接続してもよい。選定装置200は、通信部210によってネットワークに接続し、外部装置(図示略)とデータを送受信してもよい。
The communication unit 210 is a processing unit that wirelessly executes data communication with the
入力部220は、選定装置200に各種の情報を入力するための入力装置である。入力部220は、キーボードやマウス、タッチパネル等に対応する。
The
表示部230は、制御部250から出力される情報を表示する表示装置である。表示部230は、液晶ディスプレイやタッチパネル等に対応する。
The
記憶部240は、音声バッファ240aと、学習音響特徴情報240bと、発話情報240cと、発話印象評価情報240dと、オウム返し発生情報240eと、ファシリテート力評価情報240fと、参加者レーティング情報240gと、誉め言葉特定情報240hとを有する。記憶部240は、RAM、フラッシュメモリなどの半導体メモリ素子や、HDDなどの記憶装置に対応する。
The
音声バッファ240aは、マイク端末10から送信される音声情報を格納するバッファである。音声情報では、音声信号と時刻とが対応付けられる。
The voice buffer 240a is a buffer for storing voice information transmitted from the
学習音響特徴情報240bは、予め学習される発話者A~Eそれぞれの音声の音響特徴の情報である。音響特徴には、ピッチ周波数、フレームパワー、フォルマント周波数、音声到来方向が含まれる。たとえば、学習音響特徴情報240bは、ピッチ周波数、フレームパワー、フォルマント周波数、音声到来方向の値をそれぞれ要素とするベクトルである。
The learning
発話情報240cは、参加者の音声情報に含まれる発話が行われた発話区間とこの発話区間における発話を行った発話者とを対応付けた情報である。
The
発話印象評価情報240dは、音声情報に対する参加者の印象を評価した情報である。
The utterance
オウム返し発生情報240eは、抽出した単語が一致し、かつ発話者が異なるオウム返しの発生を示す情報である。
The parrot
ファシリテート力評価情報240fは、参加者のファシリテート力を評価した情報である。
The facilitating
参加者レーティング情報240gは、参加者のレーティング(格付け)を行った情報である。 Participant rating information 240g is information obtained by rating participants.
誉め言葉特定情報240hは、予め登録した誉め言葉を特定したことを表す情報である。誉め言葉特定情報240hは、特定された誉め言葉と、誉め言葉が発話された時刻とが対応付けられて記憶された情報である。
The praise word
制御部250は、取得部250aと、発話情報検出部250bと、音声認識部250cと、発話印象評価部250dと、特定部250eと、判定部250fと、選定部250gと、誉め言葉特定部250hとを有する。制御部250は、CPUやMPU、ASICやFPGAなどのハードワイヤードロジック等によって実現される。
The
取得部250aは、通信部210を介して、マイク端末10から音声情報を取得する処理部である。取得部250aは、音声情報を順次、音声バッファ240aに格納する。
The
発話情報検出部250bは、音声バッファ240aから音声情報を取得し、音声情報から図4に示す発話情報240cを検出する処理部である。発話情報検出部250bは、発話区間検出処理、音響解析処理、類似性評価処理を行う。
The utterance
発話情報検出部250bが実行する発話区間検出処理、音響解析処理、類似性評価処理は、実施例1で説明した発話印象評価部150dと同様である。
The utterance section detection process, the acoustic analysis process, and the similarity evaluation process executed by the utterance
音声認識部250cは、音声情報を取得し、音声情報に対して音声認識を行い図4に示す発話内容文字列を生成する処理部である。音声認識部250cは、音声認識により生成した文字列を各発話区間と対応付けて、発話内容文字列として発話情報240cに含めて記憶部240に記憶させる。また、音声認識部250cは、生成した文字列から単語を抽出する処理部である。音声認識部250cは、発話内容文字列に含まれる単語を抽出する。
The voice recognition unit 250c is a processing unit that acquires voice information, performs voice recognition on the voice information, and generates an utterance content character string shown in FIG. The voice recognition unit 250c associates the character string generated by voice recognition with each utterance section, includes it in the
発話印象評価部250dは、音声情報を取得し、音声情報における音声信号のピッチ周波数の上下幅に基づいて、音声情報に対する参加者の印象を評価する処理部である。発話印象評価部250dは、「発話印象評価処理」を行う。 The utterance impression evaluation unit 250d is a processing unit that acquires voice information and evaluates the participant's impression of the voice information based on the vertical width of the pitch frequency of the voice signal in the voice information. The utterance impression evaluation unit 250d performs the "utterance impression evaluation process".
発話印象評価部250dが実行する発話印象評価処理は、実施例1で説明した発話印象評価部150dと同様である。
The utterance impression evaluation process executed by the utterance impression evaluation unit 250d is the same as that of the utterance
特定部250eは、発話情報240cを取得し、発話内容文字列からオウム返しを特定する処理部である。特定部250eは、オウム返し特定処理を実行する。
The
特定部250eが実行するオウム返し特定処理は、実施例1で説明した特定部150eと同様である。
The parrot return specifying process executed by the
判定部250fは、発話印象評価情報240d、オウム返し発生情報240e、および誉め言葉特定情報を取得し、オウム返しにより、印象がよくなったか否かを判定する処理部である。判定部250fは、判定処理を実行する。
The
判定部250fが実行する「判定処理」の一例について説明する。判定部250fは、取得したオウム返し発生情報240eから選択した1つのオウム返しが発生した発話区間を特定し、取得した発話印象評価情報240dにおいて選択したオウム返しの直後の発話者が異なる発話区間において、印象評価値が上昇しているまたは誉め言葉が特定されている場合に印象がよくなったと判定する。また、判定部250fは、取得したオウム返し発生情報240eから選択した1つのオウム返しが発生した発話区間を特定し、取得した発話印象評価情報240dにおいて選択したオウム返しの直後の発話者が異なる発話区間において、印象評価値が上昇し、かつ誉め言葉が特定されている場合に印象がよくなったと判定してもよい。
An example of the "determination process" executed by the
選定部250gは、ファシリテート力評価情報240fを取得し、判定部250fの判定結果に基づいて、ファシリテーターを選定する処理部である。選定部250gは、選定処理を実行する。
The
選定部250gが実行する選定処理は、実施例1で説明した選定部150gと同様である。
The selection process executed by the
誉め言葉特定部250hは、発話情報240cを取得し、単語から他者への誉め言葉を特定する処理部である。誉め言葉特定部250hは、誉め言葉特定処理を実行する。
The praise
誉め言葉特定部250hが実行する「誉め言葉特定処理」の一例について説明する。誉め言葉特定部250hは、発話情報240cを取得し、発話内容文字列に含まれる単語から、予め登録された誉め言葉に一致す単語を特定する。誉め言葉は、例えば「すごい」等の単語である。そして、誉め言葉特定部250hは、特定した誉め言葉と、誉め言葉が発話された時刻とを対応付けて誉め言葉特定情報240hとして記憶部240に記憶させる。
An example of the "praise word identification process" executed by the compliment
次に、本実施例2に係る選定装置200の処理手順の一例について説明する。図13は、本実施例2に係る選定装置の処理手順を示すフローチャートである。図13に示すように、選定装置200は、事前準備として交流会等の参加者である発話者A~Eの音声データを取得し、取得した音響データを解析して各発話者の音響特徴を算出する(ステップS201)。
Next, an example of the processing procedure of the
続いて、選定装置200の取得部250aは、複数の発話者の音声を含む音声情報を取得し、音声バッファ240aに格納する(ステップS202)。
Subsequently, the
その後、選定装置200の発話情報検出部250bは、音声情報から発話情報240cを検出する(ステップS203)。
After that, the utterance
選定装置200の音声認識部250cは、音声情報に対して音声認識を行い、単語を抽出する(ステップS204)。
The voice recognition unit 250c of the
また、選定装置200の発話印象評価部250dは、音声情報に対する参加者の印象を評価する(ステップS205)。
Further, the utterance impression evaluation unit 250d of the
さらに、選定装置200の誉め言葉特定部250hは、発話内容文字列に含まれる単語から誉め言葉を特定する(ステップS206)。
Further, the praise
続いて、選定装置200の特定部250eは、オウム返し特定する(ステップS207)。
Subsequently, the specifying
選定装置200の判定部250fは、オウム返しにより発話者A~Eの印象がよくなったか否かを判定する(ステップS208)。
The
続いて、選定装置200の選定部250gは、判定部250fの判定の結果に基づいて、参加者のレーティングを行い、参加者レーティング情報240gを記憶部240に記憶させる(ステップS209)。そして、選定部250gは、参加者レーティング情報240gに基づいて、最もレーティングの高い発話者をファシリテーターに選定し(ステップS210)、一連の処理が終了する。
Subsequently, the
次に、本実施例2に係る選定装置200の効果について説明する。選定装置200は、オウム返しを特定し、オウム返しにより参加者の印象をよくしたか、またはオウム返しとともに誉め言葉を発したかを判定し、ファシリテーターに選定する。これによって、オウム返しだけでなく、誉め言葉を用いて交流の場を盛り上げることができる参加者をファシリテーターに選定することができ、交流化等を盛り上げることができる。
Next, the effect of the
上記実施例で用いた単語、発話例、発話人数、シチュエーション等は、あくまで一例であり、任意に変更することができる。例えば、参加者の印象変化を評価する例として、オウム返しを例示したが、これに限定されるものではなく、予め定めておいた特定の単語(例えば褒め言葉、キーワードなど)が発話されたタイミングで評価することもできる。 The words, utterance examples, number of utterances, situations, etc. used in the above embodiment are merely examples and can be arbitrarily changed. For example, as an example of evaluating a change in the impression of a participant, Echolalia is exemplified, but the timing is not limited to this, and a predetermined specific word (for example, a compliment, a keyword, etc.) is spoken. It can also be evaluated with.
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。 Information including processing procedures, control procedures, specific names, various data and parameters shown in the above documents and drawings can be arbitrarily changed unless otherwise specified.
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。 Further, each component of each of the illustrated devices is a functional concept, and does not necessarily have to be physically configured as shown in the figure. That is, the specific form of distribution or integration of each device is not limited to the one shown in the figure. That is, all or a part thereof can be functionally or physically distributed / integrated in any unit according to various loads, usage conditions, and the like.
さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。 Further, each processing function performed by each device may be realized by a CPU and a program analyzed and executed by the CPU, or may be realized as hardware by wired logic.
次に、上記実施例に示した選定装置100(200)と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図14は、選定装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。 Next, an example of a computer hardware configuration that realizes the same functions as the selection device 100 (200) shown in the above embodiment will be described. FIG. 14 is a diagram showing an example of a hardware configuration of a computer that realizes the same function as the selection device.
図14に示すように、コンピュータ300は、各種演算処理を実行するCPU301と、ユーザからのデータの入力を受け付ける入力装置302と、ディスプレイ303とを有する。また、コンピュータ300は、記憶媒体からプログラム等を読み取る読み取り装置304と、有線または無線ネットワークを介して、マイク、カメラ、振動センサ等からデータを取得するインタフェース装置305とを有する。コンピュータ300は、各種情報を一時記憶するRAM306と、ハードディスク装置307とを有する。そして、各装置301~307は、バス308に接続される。
As shown in FIG. 14, the
ハードディスク装置307は、取得プログラム307a、発話情報検出プログラム307b、音声認識プログラム307c、発話印象評価プログラム307d、特定プログラム307e、判定プログラム307f、選定プログラム307gを有する。CPU301は、取得プログラム307a、発話情報検出プログラム307b、音声認識プログラム307c、発話印象評価プログラム307d、特定プログラム307e、判定プログラム307f、選定プログラム307g(選定装置200では、さらに誉め言葉特定プログラム)を読み出してRAM306に展開する。
The
取得プログラム307aは、取得プロセス306aとして機能する。発話情報検出プログラム307bは、発話情報検出プロセス306bとして機能する。音声認識プログラム307cは、音声認識プロセス306cとして機能する。発話印象評価プログラム307dは、発話印象評価プロセス306dとして機能する。特定プログラム307eは、特定プロセス306eとして機能する。判定プログラム307fは、判定プロセス306fとして機能する。選定プログラム307gは、選定プロセス306gとして機能する。選定装置200では、誉め言葉特定プログラムは、誉め言葉特定プロセスとして機能する。
The
取得プロセス306aの処理は、取得部150a,250aの処理に対応する。発話情報検出プロセス306bの処理は、発話情報検出部150b,250bの処理に対応する。音声認識プロセス306cの処理は、音声認識部150c,250cの処理に対応する。発話印象評価プロセス306dの処理は、発話印象評価部150d,250dの処理に対応する。特定プロセス306eの処理は、特定部150e,250eの処理に対応する。判定プロセス306fの処理は、判定部150f,250fの処理に対応する。選定プロセス306gの処理は、選定部150g,250gの処理に対応する。選定装置200では、誉め言葉特定プロセスの処理は、誉め言葉特定部250hの処理に対応する。
The processing of the
なお、各プログラム307a~307gについては、必ずしも最初からハードディスク装置307に記憶させておかなくてもよい。例えば、コンピュータ300に挿入されるフレキシブルディスク(FD)、CD-ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ300が各プログラム307a~307gを読み出して実行するようにしてもよい。
The
以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。 The following additional notes will be further disclosed with respect to the embodiments including each of the above embodiments.
(付記1)複数の発話者の音声が含まれる音声情報を取得し、前記音声情報に含まれる発話が行われた発話区間と該発話区間における発話を行った発話者とを対応付けた発話情報を検出し、前記音声情報に対して音声認識を行い、前記音声情報に含まれる単語を抽出し、前記音声情報に含まれる特定の単語を含む前記発話情報の前後で、前記複数の発話者の印象を評価し、前記複数の発話者の印象の評価に基づき、ファシリテーターを選定する処理をコンピュータに実行させることを特徴とする選定プログラム。 (Appendix 1) Voice information including the voices of a plurality of speakers is acquired, and the utterance information included in the voice information is associated with the utterance section in which the utterance is made and the utterance in the utterance section. Is detected, voice recognition is performed on the voice information, words included in the voice information are extracted, and before and after the utterance information including a specific word included in the voice information, of the plurality of speakers. A selection program characterized by evaluating an impression and causing a computer to execute a process of selecting a facilitator based on the evaluation of the impressions of the plurality of speakers.
(付記2)時系列順に隣接する前記発話情報において、前記単語が一致し、かつ前記発話者が異なるオウム返しを特定し、前記オウム返しにより、前記印象がよくなったか否かを判定し、前記判定の結果に基づいて、前記ファシリテーターを選定する処理をコンピュータに実行させることを特徴とする付記1に記載の選定プログラム。
(Appendix 2) In the utterance information adjacent to each other in chronological order, the parrot return in which the words match and the speaker is different is specified, and it is determined whether or not the parrot return improves the impression. The selection program according to
(付記3)前記評価する処理は、前記複数の発話者の生体情報に基づいて前記複数の発話者の印象を評価する処理を含むことを特徴とする付記1または2に記載の選定プログラム。
(Appendix 3) The selection program according to
(付記4)前記評価する処理は、前記音声情報に含まれる音声信号のピッチ周波数の上下幅に基づいて前記複数の発話者の印象を評価する処理を含むことを特徴とする付記1から3のいずれか一つに記載の選定プログラム。 (Supplementary Note 4) The process of the evaluation includes the process of evaluating the impression of the plurality of speakers based on the vertical width of the pitch frequency of the voice signal included in the voice information. The selection program described in any one.
(付記5)前記単語から他者への誉め言葉を特定し、前記判定する処理は、前記誉め言葉を用いて、前記オウム返しにより、前記印象がよくなったか否かを判定する処理を含むことを特徴とする付記2に記載の選定プログラム。 (Appendix 5) The process of identifying a compliment to another person from the word and determining the determination includes a process of determining whether or not the impression is improved by the parrot return using the compliment. The selection program described in Appendix 2, which is characterized by the above.
(付記6)複数の発話者の音声が含まれる音声情報を取得し、前記音声情報に含まれる発話が行われた発話区間と該発話区間における発話を行った発話者とを対応付けた発話情報を検出し、前記音声情報に対して音声認識を行い、前記音声情報に含まれる単語を抽出し、前記音声情報に含まれる特定の単語を含む前記発話情報の前後で、前記複数の発話者の印象を評価し、前記複数の発話者の印象の評価に基づき、ファシリテーターを選定する処理をコンピュータが実行することを特徴とする選定方法。 (Appendix 6) Voice information including the voices of a plurality of speakers is acquired, and the utterance information included in the voice information is associated with the utterance section in which the utterance is made and the utterance in the utterance section. Is detected, voice recognition is performed on the voice information, words included in the voice information are extracted, and before and after the utterance information including a specific word included in the voice information, of the plurality of speakers. A selection method characterized in that a computer executes a process of evaluating an impression and selecting a facilitator based on the evaluation of the impressions of the plurality of speakers.
(付記7)複数の発話者の音声が含まれる音声情報を取得する取得部と、前記音声情報に含まれる発話が行われた発話区間と該発話区間における発話を行った発話者とを対応付けた発話情報を検出する発話情報検出部と、前記音声情報に対して音声認識を行い、前記音声情報に含まれる単語を抽出する音声認識部と、前記音声情報に含まれる特定の単語を含む前記発話情報の前後で、前記複数の発話者の印象を評価する発話印象評価部と、前記複数の発話者の印象の評価に基づき、ファシリテーターを選定する選定部と、を有することを特徴とする選定装置。 (Appendix 7) Correspondence between the acquisition unit that acquires voice information including the voices of a plurality of speakers, the utterance section in which the utterance included in the voice information is performed, and the speaker who utters in the utterance section. The utterance information detection unit that detects the utterance information, the voice recognition unit that performs voice recognition on the voice information and extracts the words included in the voice information, and the voice recognition unit including the specific words included in the voice information. Selection characterized by having an utterance impression evaluation unit that evaluates the impressions of the plurality of speakers before and after the utterance information, and a selection unit that selects a facilitator based on the evaluation of the impressions of the plurality of speakers. Device.
100,200 検出装置
110,210 通信部
120,220 入力部
130,230 表示部
140,240 記憶部
140a,240a 音声バッファ
140b,240b 学習音響特徴情報
140c,240c 発話情報
140d,240d 発話印象評価情報
140e,240e オウム返し特定情報
140f,240f ファシリテート力評価情報
140g,240g 参加者レーティング情報
240h 誉め言葉特定情報
150,250 制御部
150a,250a 取得部
150b,250b 発話情報検出部
150c,250c 音声認識部
150d,250d 発話印象評価部
150e,250e 特定部
150f,250f 判定部
150g,250g 選定部
250h 誉め言葉特定部
100, 200 Detection device 110, 210
Claims (7)
前記音声情報に含まれる発話が行われた発話区間と該発話区間における発話を行った発話者とを対応付けた発話情報を検出し、
前記音声情報に対して音声認識を行い、前記音声情報に含まれる単語を抽出し、
前記音声情報に含まれる特定の単語を含む前記発話情報の前後で、前記複数の発話者の印象を評価し、
前記複数の発話者の印象の評価に基づき、ファシリテーターを選定する
処理をコンピュータに実行させることを特徴とする選定プログラム。 Acquires voice information that includes the voices of multiple speakers,
The utterance information in which the utterance section in which the utterance was made and the speaker who made the utterance in the utterance section are associated with each other is detected.
Voice recognition is performed on the voice information, words included in the voice information are extracted, and the words are extracted.
Impressions of the plurality of speakers are evaluated before and after the utterance information including a specific word included in the voice information.
A selection program characterized by having a computer execute a process of selecting a facilitator based on the evaluation of the impressions of the plurality of speakers.
前記オウム返しにより、前記印象がよくなったか否かを判定し、
前記判定の結果に基づいて、前記ファシリテーターを選定する
処理をコンピュータに実行させることを特徴とする請求項1に記載の選定プログラム。 In the utterance information adjacent to each other in chronological order, the word is matched and the speaker identifies a different parrot return.
It is determined whether or not the impression is improved by the parrot return, and it is determined.
The selection program according to claim 1, wherein a computer executes a process of selecting the facilitator based on the result of the determination.
前記判定する処理は、前記誉め言葉を用いて、前記オウム返しにより、前記印象がよくなったか否かを判定する処理を含むことを特徴とする請求項2に記載の選定プログラム。 Identify words of praise to others from the above words,
The selection program according to claim 2, wherein the determination process includes a process of determining whether or not the impression is improved by the parrot return using the compliment.
前記音声情報に含まれる発話が行われた発話区間と該発話区間における発話を行った発話者とを対応付けた発話情報を検出し、
前記音声情報に対して音声認識を行い、前記音声情報に含まれる単語を抽出し、
前記音声情報に含まれる特定の単語を含む前記発話情報の前後で、前記複数の発話者の印象を評価し、
前記複数の発話者の印象の評価に基づき、ファシリテーターを選定する
処理をコンピュータが実行することを特徴とする選定方法。 Acquires voice information that includes the voices of multiple speakers,
The utterance information in which the utterance section in which the utterance was made and the speaker who made the utterance in the utterance section are associated with each other is detected.
Voice recognition is performed on the voice information, words included in the voice information are extracted, and the words are extracted.
Impressions of the plurality of speakers are evaluated before and after the utterance information including a specific word included in the voice information.
A selection method characterized in that a computer executes a process of selecting a facilitator based on the evaluation of the impressions of the plurality of speakers.
前記音声情報に含まれる発話が行われた発話区間と該発話区間における発話を行った発話者とを対応付けた発話情報を検出する発話情報検出部と、
前記音声情報に対して音声認識を行い、前記音声情報に含まれる単語を抽出する音声認識部と、
前記音声情報に含まれる特定の単語を含む前記発話情報の前後で、前記複数の発話者の印象を評価する発話印象評価部と、
前記複数の発話者の印象の評価に基づき、ファシリテーターを選定する選定部と、
を有することを特徴とする選定装置。 An acquisition unit that acquires voice information that includes the voices of multiple speakers, and
An utterance information detection unit that detects utterance information in which the utterance section in which the utterance is performed included in the voice information and the utterance speaker in the utterance section are associated with each other.
A voice recognition unit that performs voice recognition on the voice information and extracts words included in the voice information.
An utterance impression evaluation unit that evaluates the impressions of the plurality of speakers before and after the utterance information including a specific word included in the voice information.
A selection unit that selects facilitators based on the evaluation of the impressions of multiple speakers,
A selection device characterized by having.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020143044A JP2022038498A (en) | 2020-08-26 | 2020-08-26 | Selection program, selection method and selection device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020143044A JP2022038498A (en) | 2020-08-26 | 2020-08-26 | Selection program, selection method and selection device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022038498A true JP2022038498A (en) | 2022-03-10 |
Family
ID=80498960
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020143044A Pending JP2022038498A (en) | 2020-08-26 | 2020-08-26 | Selection program, selection method and selection device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022038498A (en) |
-
2020
- 2020-08-26 JP JP2020143044A patent/JP2022038498A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6350148B2 (en) | SPEAKER INDEXING DEVICE, SPEAKER INDEXING METHOD, AND SPEAKER INDEXING COMPUTER PROGRAM | |
US7716048B2 (en) | Method and apparatus for segmentation of audio interactions | |
Friedland et al. | The ICSI RT-09 speaker diarization system | |
JP5644772B2 (en) | Audio data analysis apparatus, audio data analysis method, and audio data analysis program | |
JP5024154B2 (en) | Association apparatus, association method, and computer program | |
US20140337024A1 (en) | Method and system for speech command detection, and information processing system | |
JP2020034683A (en) | Voice recognition device, voice recognition program and voice recognition method | |
JP7160778B2 (en) | Evaluation system, evaluation method, and computer program. | |
US20180075395A1 (en) | Conversation member optimization apparatus, conversation member optimization method, and program | |
JP5704071B2 (en) | Audio data analysis apparatus, audio data analysis method, and audio data analysis program | |
CN109065026B (en) | Recording control method and device | |
Poorjam et al. | A parametric approach for classification of distortions in pathological voices | |
US11107476B2 (en) | Speaker estimation method and speaker estimation device | |
JP6784255B2 (en) | Speech processor, audio processor, audio processing method, and program | |
KR101023211B1 (en) | Microphone array based speech recognition system and target speech extraction method of the system | |
JP2022038498A (en) | Selection program, selection method and selection device | |
CN111951809A (en) | Multi-person voiceprint identification method and system | |
JP2013235050A (en) | Information processing apparatus and method, and program | |
WO2020195924A1 (en) | Signal processing device, method, and program | |
Ji et al. | Text-independent speaker identification using soft channel selection in home robot environments | |
JP4864783B2 (en) | Pattern matching device, pattern matching program, and pattern matching method | |
WO2020196743A1 (en) | Evaluation system and evaluation method | |
Xiao et al. | Overlapped speech detection using long-term spectro-temporal similarity in stereo recording | |
US6934364B1 (en) | Handset identifier using support vector machines | |
JP5099218B2 (en) | Problem solving time estimation processing program, processing apparatus, and processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230511 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240305 |