JP2023002380A - Program, device and method for associating person speech sound to user comments - Google Patents

Program, device and method for associating person speech sound to user comments Download PDF

Info

Publication number
JP2023002380A
JP2023002380A JP2021103588A JP2021103588A JP2023002380A JP 2023002380 A JP2023002380 A JP 2023002380A JP 2021103588 A JP2021103588 A JP 2021103588A JP 2021103588 A JP2021103588 A JP 2021103588A JP 2023002380 A JP2023002380 A JP 2023002380A
Authority
JP
Japan
Prior art keywords
comment
person
user
dialogue
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021103588A
Other languages
Japanese (ja)
Inventor
俊一 田原
Shunichi Tawara
元 服部
Hajime Hattori
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2021103588A priority Critical patent/JP2023002380A/en
Publication of JP2023002380A publication Critical patent/JP2023002380A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

To provide a program, device and method for automatically generating a spoken dialogue scenario for a dialogue agent that can associate a person speech sound with user comments and that incorporates the person speech sound.SOLUTION: A dialog analyzer 1 comprises: a content acquisition unit 11 for acquiring contents including a person speech sound and a plurality of user comments; a speech analysis unit 12 for converting the person speech sound into a person comment; a corresponding comment selection unit 13 for calculating similarities between the person comment and the user comments posted for a predetermined time before the person comment was uttered and selecting a user comment whose similarity is higher than a predetermined threshold value; a subsequent person comment selection unit 14 that selects a person comment that was subsequently uttered following the person comment for the selected user comment; and a dialogue relationship determination unit 15 that determines the selected user comment and the selected person comment is in a dialogue relation.SELECTED DRAWING: Figure 3

Description

本発明は、ユーザと対話する対話エージェントの技術に関する。 TECHNICAL FIELD The present invention relates to technology of a dialog agent that interacts with a user.

スマートフォンやタブレット端末を用いて、ユーザと自然に対話する「対話エージェント」の技術が普及している。この技術によれば、予め登録された「対話シナリオ」に沿って、ユーザとの間で音声によって対話を進行させる。例えば対話エージェントに、プロファイル(年齢、性別、出身地等の属性)や性格を持たせることによって、ユーザに対して人間らしい親近感を持たせることができる。ユーザは、その状況や趣味趣向に応じて所望のキャラクタ性を持つ対話エージェントを選択し、対話を楽しむことができる。 The technology of "dialogue agents" that interact naturally with users using smartphones and tablet terminals is widespread. According to this technique, a dialogue with a user is progressed by voice according to a pre-registered "dialogue scenario". For example, by giving a dialogue agent a profile (attributes such as age, gender, hometown, etc.) and personality, it is possible to give the user a sense of closeness to the user. The user can select a dialogue agent having a desired character according to the situation and tastes and enjoy the dialogue.

従来、例えばtwitter(登録商標)のようなSNS(Social Networking Service)上で交換される投稿文を用いて、対話シナリオを生成する技術がある(例えば非特許文献1参照)。この技術によれば、ユーザの発話内容と類似度の高い投稿文を検索し、その投稿文に対する返答文を、対話エージェントの応答として用いる。 2. Description of the Related Art Conventionally, there is a technique for generating a dialogue scenario using posted messages exchanged on a SNS (Social Networking Service) such as twitter (registered trademark) (see Non-Patent Document 1, for example). According to this technology, a posted message having a high degree of similarity to the user's utterance content is retrieved, and a reply to the posted message is used as the response of the dialogue agent.

また、深層学習に基づく話者(読み上げ調)の音声合成の技術もある(例えば非特許文献2参照)。この技術によれば、対話エージェントからの発話文を、そのキャラクタ特性に応じた声色で再現することができる。 There is also a technology for speech synthesis of a speaker (reading tone) based on deep learning (see Non-Patent Document 2, for example). According to this technology, it is possible to reproduce the utterance sentence from the dialogue agent with a voice tone corresponding to the characteristics of the character.

別所史浩、原田達也、國吉康夫、「リアルタイムクラウドソーシングとTwitter大規模コーパスを利用した対話システム」、情報処理学会研究報告、Vol.2012-NL-206、[online]、[令和3年6月10日検索]、インターネット<URL:https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_uri&item_id=81894&file_id=1&file_no=1>Fumihiro Bessho, Tatsuya Harada, Yasuo Kuniyoshi, "Dialogue system using real-time crowdsourcing and Twitter large-scale corpus", Information Processing Society of Japan Research Report, Vol.2012-NL-206, [online], [June 2021 Search on the 10th], Internet <URL: https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_uri&item_id=81894&file_id=1&file_no=1> 橋本佳、高木信二、「深層学習に基づく統計的音声合成」、日本音響学会誌73巻1号(2017)、pp.55-62、[online]、[令和3年6月10日検索]、インターネット<URL:https://www.jstage.jst.go.jp/article/jasj/73/1/73_55/_pdf/-char/ja>Kei Hashimoto, Shinji Takagi, "Statistical speech synthesis based on deep learning", Journal of the Acoustical Society of Japan, Vol. 73, No. 1 (2017), pp.55-62, [online], [Retrieved on June 10, 2021] , Internet <URL: https://www.jstage.jst.go.jp/article/jasj/73/1/73_55/_pdf/-char/ja> YouTube > DataAPI、[online]、[令和3年6月10日検索]、インターネット<URL:https://developers.google.com/youtube/v3?hl=ja>YouTube > DataAPI, [online], [searched on June 10, 2021], Internet <URL: https://developers.google.com/youtube/v3?hl=ja> Zhang, Aonan, et al. "Fully supervised speaker diarization." ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019.、[online]、[令和3年6月10日検索]、インターネット<URL:https://www.researchgate.net/publication/332791521_Fully_Supervised_Speaker_Diarization>Zhang, Aonan, et al. "Fully supervised speaker diarization." ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019., [online], [June 10, 2021 Search], Internet <URL: https://www.researchgate.net/publication/332791521_Fully_Supervised_Speaker_Diarization>

ここで、対話エージェントを、例えば芸能人のような特定人物を模した特定キャラクタとして実装する場合を想定する。特定キャラクタは、その芸能人の通常の発話内容を模して対話する。ユーザは、その特定キャラクタと対話することによって、如何にもその芸能人と対話しているような感覚を持つことができる。 Here, it is assumed that the dialogue agent is implemented as a specific character imitating a specific person such as an entertainer. The specific character interacts with the entertainer by imitating the contents of the normal utterances of the entertainer. By interacting with the specific character, the user can feel as if he or she is interacting with the entertainer.

しかしながら、特定人物における通常の発話文を音声合成で再現したとしても、イントネーションや話速が異なって、ユーザから見るとその特定キャラクタの発話音声に違和感を持ってしまう。結局、音声応答の特定人物らしさが低下することとなる。
例えば、「毎日食べているものってある?」というユーザの発話に対して、「野菜かな。健康のためにね!」と肯定的に応答する場面があれば、「野菜かな。健康のためにね~」と悲観的に応答する場面もある。このようなイントネーションや話速まで、音声合成によって再現することは極めて難しい。
However, even if a normal utterance of a specific character is reproduced by speech synthesis, the intonation and speech speed will differ, and the user will feel uncomfortable with the utterance of the specific character. As a result, the voice response is less likely to be a specific person.
For example, in response to the user's utterance, "Is there anything you eat every day?" There are times when he responds pessimistically, saying, “Nine~”. It is extremely difficult to reproduce such intonation and speech speed by speech synthesis.

これに対し、本願の発明者らは、対話エージェントが、特定人物の発話を模したテキストではなく、その特定人物の発話音声をそのまま対話シナリオに組み込むことができないか、と考えた。具体的には、特定人物が登場する放送コンテンツから、その特定人物の対話における発話音声を取得することができないか、と考えた。そのためには、放送コンテンツから、人物発話音声とユーザコメントとを対応付けて抽出する技術が必要となる。 In response to this, the inventors of the present application considered whether it would be possible for the dialogue agent to incorporate the uttered voice of a specific person into the dialogue scenario as it is, rather than the text imitating the utterance of the specific person. Specifically, we considered whether it would be possible to acquire the uttered voice of a specific person in a dialogue from broadcast content in which the specific person appears. For this purpose, a technique is required to associate and extract human utterances and user comments from broadcast content.

そこで、本発明は、人物発話音声とユーザコメントとを対応付けるプログラム、装置及び方法を提供することを目的とする。また、人物発話音声を組み込んだ対話エージェントの音声対話シナリオを自動的に生成するプログラム等も提供することを目的とする。 SUMMARY OF THE INVENTION Accordingly, it is an object of the present invention to provide a program, apparatus, and method for associating human utterances with user comments. Another object of the present invention is to provide a program for automatically generating a voice dialogue scenario of a dialogue agent incorporating human utterances.

本発明によれば、ユーザコメントと、当該ユーザコメントに起因した人物発話音声とを対応付けるようにコンピュータを機能させるプログラムであって、
人物発話音声と複数のユーザコメントとを含むコンテンツを取得するコンテンツ取得手段と、
人物発話音声を、人物コメントに変換する音声解析手段と、
人物コメントと、当該人物コメントの発声前の所定時間に投稿されたユーザコメントとの類似度を算出し、類似度が所定閾値以上高くなるユーザコメントを選択する対応コメント選択手段と、
選択されたユーザコメントに対する人物コメントの次に後続的に発話された人物コメントを選択する後続人物コメント選択手段と、
対応コメント選択手段によって選択されたユーザコメントと、後続人物コメント選択手段によって選択された人物コメントとを対話関係として決定する対話関係決定手段と
してコンピュータを機能させることを特徴とする。
According to the present invention, a program that causes a computer to function so as to associate a user comment with a human utterance resulting from the user comment,
content acquisition means for acquiring content including a person's utterance voice and a plurality of user comments;
voice analysis means for converting a person's uttered voice into a person's comment;
Corresponding comment selection means for calculating the degree of similarity between a person's comment and a user comment posted at a predetermined time before the person's comment is uttered, and selecting a user comment whose degree of similarity is higher than a predetermined threshold;
a subsequent human comment selection means for selecting a human comment uttered subsequent to the human comment for the selected user comment;
It is characterized in that the computer functions as dialogue relationship determination means for determining the dialogue relationship between the user comment selected by the corresponding comment selection means and the person's comment selected by the subsequent person comment selection means.

本発明のプログラムにおける他の実施形態によれば、
コンテンツは、放送コンテンツであり、
人物発話音声は、放送中に人物から発話された音声ベースのものであり、
ユーザコメントは、放送中に聴取者から投稿されたテキストベースのものであり、
ユーザコメントと人物コメントとが、対話形式を構成する場合を含む
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the program of the present invention,
the content is broadcast content,
Person-spoken voice is based on speech spoken by a person during the broadcast,
User comments are text-based, posted by listeners during the broadcast,
It is also preferred to have the computer function to include cases where user comments and person comments constitute an interactive form.

本発明のプログラムにおける他の実施形態によれば、
特定人物を模した特定キャラクタの音声対話シナリオに、人物発話音声を組み込む音声対話シナリオ生成手段を更に有し、
対話シナリオ生成手段は、
音声対話シナリオには、想定文が予め登録されており、
対話関係となるユーザコメントに対して、最も類似度が高い想定文を選択し、
対話関係となる後続人物コメントに紐付く後続人物発話音声を抽出し、
選択された想定文に、抽出した後続発話音声を対応付ける
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the program of the present invention,
further comprising voice dialogue scenario generating means for incorporating a person's uttered voice into a voice dialogue scenario of a specific character imitating a specific person;
Dialogue scenario generation means
Supposed sentences are registered in advance in the voice dialogue scenario,
Select the hypothetical sentence with the highest degree of similarity for the user comment that has a dialogue relationship,
Extract the utterance voice of the following person linked to the comment of the following person who has a dialogue relationship,
It is also preferred to have the computer function to associate the selected hypothetical sentence with the extracted subsequent utterance.

本発明のプログラムにおける他の実施形態によれば、
音声対話シナリオに予め登録された想定文には、同意となる1つ以上の単語(タグ)が紐付けられており、
音声対話シナリオ生成手段は、ユーザコメントに含まれる単語と、想定文に紐付けられた単語と比較して、類似度を算出する
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the program of the present invention,
One or more agreeable words (tags) are associated with the hypothetical sentences registered in advance in the voice dialogue scenario,
It is also preferable that the voice dialogue scenario generation means causes a computer to compare words included in the user comment with words associated with the assumed sentence and calculate the degree of similarity.

本発明のプログラムにおける他の実施形態によれば、
対応コメント選択手段によって人物コメントに対するユーザコメントが選択されなかった場合、後続人物コメント選択手段に代えて、
人物コメントに含まれる単語から類義語を検索する類義語検索手段と、
各ユーザコメントに含まれる単語と、人物コメントの類義語とを比較し、最も類似度が高いユーザコメントを選択するユーザコメント選択手段と
して機能させ、
対話関係決定手段は、ユーザコメント選択手段によって選択されたユーザコメントと、当該人物コメントとを対話関係とする
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the program of the present invention,
If the corresponding comment selection means does not select the user comment for the person comment, instead of the subsequent person comment selection means,
a synonym retrieval means for retrieving synonyms from words included in person comments;
Functioning as user comment selection means for comparing words included in each user comment with synonyms of person comments and selecting the user comment with the highest degree of similarity,
It is also preferable that the dialogue relationship determination means causes the computer to function so that the user comment selected by the user comment selection means and the person's comment are in a dialogue relationship.

本発明のプログラムにおける他の実施形態によれば、
ユーザコメント選択手段は、
各ユーザコメントに含まれる名詞及び動詞からなる係り受け語と、人物コメントに含まれる名詞及び動詞からなる係り受け語とを解析し、
各ユーザコメントの係り受け語と、人物コメントの係り受け語とを比較し、最も類似度が高いユーザコメントを選択する
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the program of the present invention,
The user comment selection means is
Analyzing the dependent word consisting of nouns and verbs included in each user comment and the dependent word consisting of nouns and verbs included in the person comment,
It is also preferred to have the computer function to compare the dependent terms of each user comment with the dependent terms of the person comment and select the most similar user comment.

本発明のプログラムにおける他の実施形態によれば、
コンテンツは、複数の人物の発話音声を含み、
音声解析手段は、人物毎に、発話音声を分別して、各発話音声を人物コメントに変換し、
人物毎に、人物コメントに含まれる名詞のキーワードのリストを抽出するキーワードリスト抽出手段と、
人物毎に、キーワードリストに、当該ユーザコメントに含まれているキーワードをカウントするキーワードカウント手段と、
複数の人物の中で、キーワードリストのカウント数が最も多い人物の発話音声を、人物発話音声と決定する特定人物決定手段と
してコンピュータを機能させることも好ましい。
According to another embodiment of the program of the present invention,
The content includes voices spoken by multiple persons,
The speech analysis means classifies the uttered voice for each person, converts each uttered voice into a person's comment,
keyword list extracting means for extracting a list of keywords of nouns included in person comments for each person;
keyword counting means for counting keywords included in the user comment in the keyword list for each person;
It is also preferable to cause the computer to function as specific person determination means for determining, among a plurality of persons, the uttered voice of the person whose count number in the keyword list is the highest as the person's uttered voice.

本発明のプログラムにおける他の実施形態によれば、
特定人物の名前が予め設定されており、
キーワードカウント手段は、特定人物の名前が含まれているユーザコメントのみを抽出し、当該ユーザコメントに含まれているキーワードを、キーワードリストに対してカウントする
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the program of the present invention,
The name of a specific person is preset,
It is also preferred that the keyword counting means causes the computer to extract only user comments containing a specific person's name and count the keywords contained in the user comments against the keyword list.

本発明によれば、ユーザコメントと、当該ユーザコメントに起因した人物発話音声とを対応付ける対話解析装置であって、
人物発話音声と複数のユーザコメントとを含むコンテンツを取得するコンテンツ取得手段と、
人物発話音声を、人物コメントに変換する音声解析手段と、
人物コメントと、当該人物コメントの発声前の所定時間に投稿されたユーザコメントとの類似度を算出し、類似度が所定閾値以上高くなるユーザコメントを選択する対応コメント選択手段と、
選択されたユーザコメントに対する人物コメントの次に後続的に発話された人物コメントを選択する後続人物コメント選択手段と、
対応コメント選択手段によって選択されたユーザコメントと、後続人物コメント選択手段によって選択された人物コメントとを対話関係として決定する対話関係決定手段と
を有することを特徴とする。
According to the present invention, there is provided a dialogue analysis device that associates a user comment with a human utterance resulting from the user comment,
content acquisition means for acquiring content including a person's utterance voice and a plurality of user comments;
voice analysis means for converting a person's uttered voice into a person's comment;
Corresponding comment selection means for calculating the degree of similarity between a person's comment and a user comment posted at a predetermined time before the person's comment is uttered, and selecting a user comment whose degree of similarity is higher than a predetermined threshold;
a subsequent human comment selection means for selecting a human comment uttered subsequent to the human comment for the selected user comment;
It is characterized by comprising a dialogue relationship determination means for determining a dialogue relationship between the user comment selected by the corresponding comment selection means and the person's comment selected by the succeeding person's comment selection means.

本発明によれば、ユーザコメントと、当該ユーザコメントに起因した人物発話音声とを対応付ける装置の対話解析方法であって、
装置は、
人物発話音声と複数のユーザコメントとを含むコンテンツを取得する第1のステップと、
人物発話音声を、人物コメントに変換する第2のステップと、
人物コメントと、当該人物コメントの発声前の所定時間に投稿されたユーザコメントとの類似度を算出し、類似度が所定閾値以上高くなるユーザコメントを選択する第3のステップと、
選択されたユーザコメントに対する人物コメントの次に後続的に発話された人物コメントを選択する第4のステップと、
第3のステップによって選択されたユーザコメントと、第4のステップによって選択された人物コメントとを対話関係とする第5のステップと
を実行することを特徴とする。
According to the present invention, there is provided a dialogue analysis method for a device that associates a user comment with a human utterance resulting from the user comment, comprising:
The device
a first step of obtaining content including a person speaking voice and a plurality of user comments;
a second step of converting the person's speech into a person's comment;
a third step of calculating a degree of similarity between a person's comment and a user comment posted at a predetermined time before the person's comment is uttered, and selecting a user comment whose degree of similarity is higher than a predetermined threshold;
a fourth step of selecting a person comment subsequently spoken after the person comment for the selected user comment;
A fifth step is executed in which the user comment selected in the third step and the person comment selected in the fourth step are associated with each other.

本発明のプログラム、装置及び方法によれば、人物発話音声とユーザコメントとを対応付けることができる。また、人物発話音声を組み込んだ対話エージェントの音声対話シナリオを自動的に生成することができる。 According to the program, device, and method of the present invention, it is possible to associate a person's uttered voice with a user comment. In addition, it is possible to automatically generate a voice dialogue scenario of a dialogue agent incorporating human utterances.

本発明におけるシステム構成図である。1 is a system configuration diagram in the present invention; FIG. 人物コメントとユーザコメントとの対応関係を表す説明図である。FIG. 10 is an explanatory diagram showing a correspondence relationship between a person's comment and a user's comment; 本発明における対話解析装置の機能構成図である。1 is a functional configuration diagram of a dialogue analysis device according to the present invention; FIG. ユーザコメントと、人物コメントと、後続人物コメントとの関係を表す説明図である。FIG. 10 is an explanatory diagram showing the relationship between a user comment, a person's comment, and a subsequent person's comment; 本発明における音声対話シナリオ作成部の説明図である。FIG. 4 is an explanatory diagram of a voice dialogue scenario creation unit in the present invention; 対応関係となる人物コメントが無い場合における対話解析装置の機能構成図である。FIG. 10 is a functional configuration diagram of the dialogue analysis device when there is no person's comment to be a correspondence relationship; 複数の人物が発話する中で、特定人物を決定する対話解析装置の機能構成図である。FIG. 2 is a functional configuration diagram of a dialogue analysis device that determines a specific person among utterances by a plurality of persons; 図6の各機能構成部の処理を表す説明図である。7 is an explanatory diagram showing processing of each functional configuration unit in FIG. 6; FIG.

以下、本発明の実施の形態について、図面を用いて詳細に説明する。 BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

図1は、本発明におけるシステム構成図である。 FIG. 1 is a system configuration diagram in the present invention.

図1によれば、動画共有プラットフォームとしての放送サーバ2が配置されている。放送サーバ2は、例えばYouTube(登録商標)やradiko(登録商標)のような、ビデオ/オーディオオンデマンドサービスに基づく放送コンテンツを配信する。放送コンテンツとしては、ユーザ撮影のような映像やラジオ放送のような音声である。
放送サーバ2は、放送者側の端末3から放送コンテンツを受信し、その放送コンテンツを蓄積すると共に、ユーザ側の複数の端末4へ配信する。放送コンテンツには、放送者となる特定人物自ら発話した人物発話音声が含まれる。
According to FIG. 1, a broadcasting server 2 is arranged as a video sharing platform. The broadcast server 2 delivers broadcast content based on video/audio on-demand services such as YouTube (registered trademark) and radiko (registered trademark). Broadcast content includes video such as that captured by a user and audio such as radio broadcast.
The broadcast server 2 receives broadcast contents from terminals 3 on the broadcaster side, accumulates the broadcast contents, and distributes them to a plurality of terminals 4 on the user side. Broadcast content includes a person's uttered voice uttered by a specific person who is a broadcaster.

放送コンテンツは、映像や音声のコンテンツの再生に同期して、ユーザコメントも逐次表示されていくように、一体的に構成されたものである。
例えばライブストリーミングの放送コンテンツを想定した場合、ユーザは、放送中に、放送者の特定人物(例えば芸能人や有名人)に対して、テキストベースのユーザコメントをリアルタイムに投稿することできる。ユーザコメントとは、聴取者としてのユーザの質問、意見、自己開示のような投稿文である。投稿されたユーザコメントの一覧は、放送者の端末3及びユーザの端末4の両方に、共有的且つ同時に表示される。このとき、放送者の特定人物は、それらユーザコメントを閲覧しながら、その一部を読み上げて、回答することもできる。例えば、ユーザコメントは、ユーザから特定人物に対する質問や感想となり、人物発話音声は、特定人物からそのユーザに対する回答となる場合もある。即ち、ユーザのテキストベースの「ユーザコメント」と、特定人物の発話音声ベースの「人物コメント」とが、対話形式を構成することとなる。
The broadcast content is integrally configured so that user comments are displayed sequentially in synchronization with the reproduction of video and audio content.
For example, assuming live-streaming broadcast content, users can post text-based user comments in real time to specific persons (for example, entertainers and celebrities) of the broadcaster during the broadcast. A user comment is a posted sentence such as a question, an opinion, or a self-disclosure of a user as a listener. A list of posted user comments is shared and simultaneously displayed on both the terminal 3 of the broadcaster and the terminal 4 of the user. At this time, the specific person of the broadcaster can also read a part of the user comments and reply while browsing the user comments. For example, a user comment may be a question or impression from a user to a specific person, and a person's utterance voice may be an answer from a specific person to the user. That is, the user's text-based "user comment" and the specific person's uttered voice-based "personal comment" constitute the interactive format.

図1によれば、放送サーバ2から放送コンテンツを取得し、その対話内容を解析する「対話解析装置1」が備えられている。
対話解析装置1は、放送コンテンツから、人物発話音声とユーザコメントとを対応付ける。また、対話解析装置1は、人物発話音声を組み込んだ対話エージェントの音声対話シナリオを自動的に生成する音声対話シナリオ生成装置としても機能する。その音声対話シナリオに基づく対話エージェントは、その特定人物を模した特定キャラクタ(アバター)から、対話に応じた人物発話音声を再生することができる。
According to FIG. 1, a “dialogue analysis device 1” is provided that acquires broadcast content from a broadcast server 2 and analyzes the content of the dialogue.
The dialogue analysis device 1 associates human utterances with user comments from broadcast content. The dialogue analysis device 1 also functions as a voice dialogue scenario generation device that automatically generates a voice dialogue scenario of a dialogue agent incorporating human utterances. A dialogue agent based on the voice dialogue scenario can reproduce a person's utterance voice corresponding to the dialogue from a specific character (avatar) imitating the specific person.

図2は、人物コメントとユーザコメントとの対応関係を表す説明図である。 FIG. 2 is an explanatory diagram showing the correspondence between personal comments and user comments.

図2(a)によれば、特定人物の発話音声に基づく人物コメントが、時系列に並んだものである。特定人物は、ライブストリーミングの中で、ユーザコメントを閲覧しながら、ユーザコメントと適宜対話しているように発話している。
図2(b)によれば、ライブストリーミングでユーザが投稿したユーザコメントが、時系列に並んだものである。放送者の特定人物は、ユーザコメントの全てに対して発話するわけではない。そのために、特定人物の発話内容が、いずれのユーザコメントに基づくものであるかは不明となっている。
According to FIG. 2(a), personal comments based on uttered voices of a specific person are arranged in chronological order. During the live streaming, the specific person speaks as if he or she is appropriately interacting with the user comments while browsing the user comments.
According to FIG. 2(b), user comments posted by users in live streaming are arranged in chronological order. A specific person of the broadcaster does not speak for all user comments. Therefore, it is unknown which user comment the specific person's utterance is based on.

図2によれば、ユーザコメント「公園によく行くのかな?」に対して、特定人物は、「公園によく行くのかな?」と読み上げた上で、「公園には休日よく行くよ」と発話している。
また、ユーザコメント「好きな食べ物なに?」に対して、特定人物は、「好きな食べ物?」と読み上げた上で、「ハンバーグが好きかな」と発話している。
更に、ユーザコメント「普段、どんなアーティスト聞くの?」に対して、特定人物は、ユーザコメントを読み上げることなく、「KANAを聞くかな」と発話している。
According to FIG. 2, in response to the user comment "Do you often go to parks?", the specific person reads out "Do you often go to parks?" speaking.
Also, in response to the user comment "What is your favorite food?", the specific person reads "What is your favorite food?"
Further, in response to the user comment "What kind of artists do you usually listen to?", the specific person utters "I wonder if KANA will be heard" without reading out the user comment.

図3は、本発明における対話解析装置の機能構成図である。 FIG. 3 is a functional configuration diagram of the dialogue analysis device according to the present invention.

本発明の対話解析装置1は、ユーザコメントと、当該ユーザコメントに起因した人物発話音声とを対応付けるものである。
図2によれば、本発明の対話解析装置1は、コンテンツ取得部11と、音声解析部12と、対応コメント選択部13と、後続人物コメント選択部14と、対話関係決定部15と、音声対話シナリオ作成部16とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、対話解析方法としても理解できる。
The dialogue analysis device 1 of the present invention associates a user comment with a person's uttered voice resulting from the user comment.
According to FIG. 2, the dialogue analysis device 1 of the present invention includes a content acquisition unit 11, a voice analysis unit 12, a corresponding comment selection unit 13, a subsequent person comment selection unit 14, a dialogue relationship determination unit 15, a voice and a dialog scenario creating unit 16 . These functional components are implemented by executing a program that causes a computer installed in the device to function. In addition, the flow of processing of these functional components can also be understood as a dialogue analysis method.

[コンテンツ取得部11]
コンテンツ取得部11は、放送サーバ2から放送コンテンツを取得する。
放送コンテンツには、人物発話音声とユーザコメントとが含まれている。人物発話音声は、放送中に人物から発話された音声ベースのものである。ユーザコメントは、放送中に聴取者から投稿されたテキストベースのものである。ユーザコメントと人物発話音声とのやりとりには、対話形式となる部分を含む。
[Content Acquisition Unit 11]
The content acquisition unit 11 acquires broadcast content from the broadcast server 2 .
Broadcast content includes human utterances and user comments. Person-spoken audio is voice-based that is spoken by a person during the broadcast. User comments are text-based posted by listeners during the broadcast. The interaction between the user comment and the person's utterance voice includes an interactive part.

コンテンツ取得部11は、放送サーバ2へ、特定人物の名前を検索キーとして指定することによって、その特定人物が発話する放送コンテンツを検索して取得することができる。ライブストリーミングの放送コンテンツを取得する技術として、例えばYouTube Data APIがある(例えば非特許文献3参照)。この技術によれば、例えば特定人物名を指定すると、その特定人物による過去のライブストリーミングの放送コンテンツ(.mp4)を取得することができる。 By designating the name of a specific person to the broadcast server 2 as a search key, the content acquisition unit 11 can search and acquire broadcast content spoken by the specific person. As a technology for acquiring live streaming broadcast content, for example, there is YouTube Data API (see Non-Patent Document 3, for example). According to this technology, for example, when a specific person's name is designated, it is possible to acquire past live streaming broadcast contents (.mp4) by that specific person.

コンテンツ取得部11は、放送コンテンツにおける人物発話音声(.mp3)を、音声解析部12及び対話関係決定部15へ出力する。また、コンテンツ取得部11は、ユーザコメントを、人物発話音声と同期して、対応コメント選択部13へ出力する。 The content acquisition unit 11 outputs human speech voice (.mp3) in the broadcast content to the voice analysis unit 12 and the dialogue relationship determination unit 15 . In addition, the content acquisition unit 11 outputs the user comment to the corresponding comment selection unit 13 in synchronization with the person's uttered voice.

[音声解析部12]
音声解析部12は、人物発話音声(.mp3)を、テキストベースの「人物コメント」に変換する。
音声解析としては、具体的には、例えばGoogle(登録商標)のCloud Speech-to-Text(登録商標)や、Microsoft(登録商標)のSpeech to Text(登録商標)のような技術を適用することができる。
変換した人物コメントは、対応コメント選択部13へ出力される。
[Voice Analysis Unit 12]
The voice analysis unit 12 converts the person's utterance voice (.mp3) into a text-based "person's comment".
Specifically, for speech analysis, for example, Google (registered trademark) Cloud Speech-to-Text (registered trademark) and Microsoft (registered trademark) Speech to Text (registered trademark) technology can be applied. can be done.
The converted personal comment is output to the corresponding comment selection unit 13 .

図4は、ユーザコメントと、人物コメントと、後続人物コメントとの関係を表す説明図である。 FIG. 4 is an explanatory diagram showing the relationship between user comments, person comments, and subsequent person comments.

[対応コメント選択部13]
対応コメント選択部13は、人物発話音声から変換された人物コメントと、ユーザコメントとを対応付ける。
ここで、特定人物の「人物発話音声」に対して、その人物発話音声の発声前の所定時間内(例えば1分間)に投稿された複数の「ユーザコメント」のみを対象とする。放送者となる特定人物は、投稿されたユーザコメントの中で最新のコメントに対してリアルタイムに回答をすると考えられる。そのために、所定時間よりも以前に投稿されたユーザコメントは、特定人物の発話内容に影響しないと考える。
[Corresponding comment selection unit 13]
The corresponding comment selection unit 13 associates the person's comment converted from the person's uttered voice with the user's comment.
Here, only a plurality of "user comments" posted within a predetermined time (for example, one minute) before uttering the person's uttered voice to the "person's uttered voice" of a specific person are targeted. A specific person who is a broadcaster is expected to reply in real time to the latest comment among posted user comments. Therefore, it is considered that user comments posted earlier than a predetermined time period do not affect the specific person's utterances.

また、対応コメント選択部13は、人物コメントとユーザコメントとの類似度を算出し、類似度が所定閾値以上高くなるユーザコメントを選択する。 In addition, the corresponding comment selection unit 13 calculates the degree of similarity between the person comment and the user comment, and selects the user comment whose degree of similarity is higher than a predetermined threshold.

類似度の算出には、例えばBERT(登録商標)を用いたものであってもよい。BERT(Bidirectional Encoder Representations from Transformers)とは、Seq2seqベースの事前学習モデルに基づく双方向学習のエンコード表現であり、Google(登録商標)の自然言語処理モデルである。このような分散表現生成アルゴリズム(embedding)を適用し、テキストを高次元ベクトルに置き換える。人物コメントの単語群のベクトルに対して、所定閾値を超えて且つ類似度が最も高いベクトルの単語群を含むユーザコメントを選択することができる。 BERT (registered trademark), for example, may be used to calculate the degree of similarity. BERT (Bidirectional Encoder Representations from Transformers) is an encoded representation of bidirectional learning based on a Seq2seq-based pre-learning model, which is Google's natural language processing model. Applying such a distributed representation generation algorithm (embedding) replaces the text with a high-dimensional vector. It is possible to select a user comment that includes a word group of a vector that exceeds a predetermined threshold and has the highest degree of similarity with respect to the word group vector of the person's comment.

図4によれば、人物コメントに対して類似度が高いユーザコメントが、以下のように選択されている。
人物コメント「公園によく行くのかな?」
-> ユーザコメント「公園によく行くのかな?」
人物コメント「好きな食べ物?」
-> ユーザコメント「好きな食べ物なに?」
ここでは、特定人物は、ユーザコメントを一度読み上げているために、人物コメントと高く類似するユーザコメントが選択されて対応付けられている。
According to FIG. 4, user comments with high similarity to person comments are selected as follows.
Personal comment "Do you often go to the park?"
-> User comment "Do you often go to the park?"
Character comment "What's your favorite food?"
-> User comment "What is your favorite food?"
Here, since the specific person has read out the user comment once, the user comment highly similar to the person comment is selected and associated.

[後続人物コメント選択部14]
後続人物コメント選択部14は、対応コメント選択部13によって選択されたユーザコメントに対する人物コメントの「次に後続的に発話された人物コメント(後続人物コメント)」を選択する。
[Subsequent person comment selection unit 14]
The subsequent person's comment selecting unit 14 selects the "next subsequently uttered person's comment (following person's comment)" for the user comment selected by the corresponding comment selecting unit 13 .

図4によれば、人物コメントに対して、後続人物コメントが、以下のように選択される。
人物コメント「公園によく行くのかな?」
-> 後続人物コメント「公園には休日よく行くよ」
人物コメント「好きな食べ物?」
-> 後続人物コメント「ハンバーグが好きかな」
ここでは、特定人物は、ユーザコメントを一度読み上げた後、自らの回答を発話している。
According to FIG. 4, for a person comment, a successor person comment is selected as follows.
Personal comment "Do you often go to the park?"
-> Subsequent person's comment "I often go to the park on holidays"
Character comment "What's your favorite food?"
-> Subsequent person's comment "Do you like hamburgers?"
Here, the specific person reads out the user's comment once and then speaks his own answer.

[対話関係決定部15]
対話関係決定部15は、対応コメント選択部13によって選択されたユーザコメントと、後続人物コメント選択部14によって選択された人物コメント(後続人物コメント)とを対話関係として決定する。そして、対話関係決定部15は、ユーザコメントと人物コメント(後続人物コメント)とを対応付けて、メモリに登録する。
[Dialogue relationship determination unit 15]
The dialogue relationship determination unit 15 determines the user comment selected by the corresponding comment selection unit 13 and the person comment (subsequent person comment) selected by the subsequent person comment selection unit 14 as a dialogue relationship. Then, the dialogue relationship determining unit 15 associates the user comment with the person's comment (subsequent person's comment) and registers them in the memory.

図4によれば、ユーザコメントに対して、後続人物コメントが、以下のように対応付けられる。
ユーザコメント「公園によく行くのかな?」
-> 人物コメント「公園には休日よく行くよ」
ユーザコメント「好きな食べ物なに?」
-> 人物コメント「ハンバーグが好きかな」
According to FIG. 4, a subsequent person comment is associated with a user comment as follows.
User comment "Do you often go to the park?"
-> Personal comment "I often go to the park on holidays"
User comment "What is your favorite food?"
-> Personal comment "Do you like hamburgers?"

[音声対話シナリオ作成部16]
音声対話シナリオ作成部16は、メモリに登録されたユーザコメントと人物コメントの対話関係を用いて、特定人物を模した特定キャラクタの音声対話シナリオに、人物発話音声を組み込む。これによって、音声対話シナリオを自動的に作成することができる。
[Voice Dialogue Scenario Creation Unit 16]
A voice dialogue scenario creating unit 16 incorporates a person's utterance voice into a voice dialogue scenario of a specific character imitating a specific person, using the dialogue relation between the user comment and the person's comment registered in the memory. This makes it possible to automatically create a voice dialogue scenario.

音声対話シナリオは、対話エージェントがユーザと対話を進行させる一連のシナリオを記述したものである。音声対話シナリオには、ユーザが発話するであろうと想定される「想定文」が予め登録されている。 A voice dialogue scenario describes a series of scenarios in which a dialogue agent interacts with a user. In the voice interaction scenario, "assumed sentences" that are supposed to be spoken by the user are registered in advance.

図5は、本発明における音声対話シナリオ作成部の説明図である。 FIG. 5 is an explanatory diagram of the voice dialogue scenario creation section in the present invention.

音声対話シナリオ作成部16は、以下のステップで処理する。
(S1)対話関係となるユーザコメントに対して、最も類似度が高い想定文を選択する。
The voice dialogue scenario creation unit 16 processes in the following steps.
(S1) Select a hypothetical sentence with the highest degree of similarity to a user comment that has a dialogue relationship.

類似度を算出するために、具体的には、想定文毎に、同意となる1つ以上の単語(タグ)が紐付けられていてもよい。音声対話シナリオ作成部16は、ユーザコメントに含まれる単語と、想定文に紐付けられた単語とを比較して、単語同士のベクトル間類似度を算出するものであってもよい。単語同士のベクトル間類似度が、所定閾値以上であって且つ最も高い単語を持つ想定文を選択する。類似度の算出には、前述したBERTを用いるものであってもよい。 In order to calculate the degree of similarity, specifically, each hypothetical sentence may be associated with one or more agreeing words (tags). The voice dialogue scenario creating unit 16 may compare the words included in the user comment and the words linked to the assumed sentences to calculate the similarity between vectors of the words. A hypothetical sentence having the highest word whose inter-vector similarity between words is greater than or equal to a predetermined threshold value is selected. BERT described above may be used to calculate the degree of similarity.

図5によれば、ユーザコメント毎に、以下のように類似度が高い想定文が選択される。
ユーザコメント 「公園によく行くのかな?」
-> 単語 「公園」 (タグの一致)
-> 想定文 「公園に行きますか?」 (類似度が最も高い想定文)
ユーザコメント 「好きな食べ物なに?」
-> 単語 「食べ物」 (タグの一致)
-> 想定文 「好きな食べ物は何ですか?」 (類似度が最も高い想定文)
According to FIG. 5, hypothetical sentences having a high degree of similarity are selected for each user comment as follows.
User comment "Do you often go to the park?"
-> word "park" (tag match)
-> Hypothetical sentence "Do you want to go to the park?" (Hypothetical sentence with highest similarity)
User comment "What is your favorite food?"
-> word "food" (tag match)
-> Hypothetical sentence "What is your favorite food?" (Hypothetical sentence with the highest degree of similarity)

(S2)対話関係となる人物コメント(後続人物コメント)に紐付く人物発話音声(.mp3)を抽出する。人物発話音声は、コンテンツ取得部11によって取得された放送コンテンツに含まれたものである。 (S2) A person's utterance voice (.mp3) associated with the person's comment (subsequent person's comment) that is in dialogue relationship is extracted. A person's uttered voice is included in the broadcast content acquired by the content acquisition unit 11 .

図5によれば、人物コメントに対する人物発話音声が抽出される。
ユーザコメント 「公園によく行くのかな?」
-> 人物コメント 「公園には休日よく行くよ」
ユーザコメント 「好きな食べ物なに?」
-> 人物コメント 「ハンバーグが好きかな」
According to FIG. 5, a person's utterance voice for a person's comment is extracted.
User comment "Do you often go to the park?"
-> Personal comment "I often go to the park on holidays."
User comment "What is your favorite food?"
-> Personal comment "Do you like hamburgers?"

(S3)その想定文に、抽出した人物発話音声を紐付ける。これによって、音声対話シナリオについて、想定文毎に、対話エージェントが応答すべき音声応答(例えば.mp3)が紐付けられる。 (S3) The assumed sentence is associated with the extracted human speech. As a result, a voice response (for example, .mp3) to be responded by the dialogue agent is associated with each assumed sentence in the voice dialogue scenario.

図5によれば、人物コメントに対する人物発話音声が抽出される。
ユーザコメント 「公園によく行くのかな?」
-> 音声応答[公園には休日よく行くよ].mp3
ユーザコメント 「好きな食べ物なに?」
-> 音声応答[ハンバーグが好きかな].mp3
According to FIG. 5, a person's utterance voice for a person's comment is extracted.
User comment "Do you often go to the park?"
-> Voice response [I often go to the park on holidays].mp3
User comment "What is your favorite food?"
-> Voice response [Do you like hamburgers].mp3

対話エージェントは、音声対話シナリオを用いて、ユーザが発話した想定文に応じて、その音声応答で応答することができる。これによって、ユーザと対話エージェントとの間で、対話シーケンスを交互に進行させていくことができる。 The dialog agent can respond with its voice response according to the hypothetical sentence uttered by the user using the voice dialog scenario. As a result, the dialogue sequence can alternately proceed between the user and the dialogue agent.

図6は、対応関係となる人物コメントが無い場合における対話解析装置の機能構成図である。 FIG. 6 is a functional configuration diagram of the dialogue analysis device when there is no person's comment that becomes a correspondence relationship.

図6によれば、対応コメント選択部13によって人物コメントに対するユーザコメントが選択されなかった場合を想定している。例えば前述した図2によれば、放送者の特定人物は、「KANAを聞くかな」と発話している一方で、例えば「KANAを聞きますか?」や「どんなアーティストを聞くの?」を発話していない。即ち、放送中に、放送者の特定人物は、ユーザコメントを確認した後、コメントを読み上げることなく、回答している。そのために、人物コメント「KANAを聞くかな」に対して、対話関係となるユーザコメントを発見できていない。 According to FIG. 6, it is assumed that the corresponding comment selection unit 13 does not select a user comment for a person's comment. For example, according to FIG. 2 described above, the specific person of the broadcaster utters "Do you listen to KANA?" not. That is, during the broadcast, the specific person of the broadcaster checks the user comments and then replies without reading out the comments. For this reason, no user comment that has a dialogue relationship with the person's comment "I wonder if you'll listen to KANA" has been found.

そのために、図6によれば、対話解析装置1は、後続人物コメント選択部14に代えて、類義語検索部141及びユーザコメント選択部142を更に有する。 Therefore, according to FIG. 6, the dialogue analysis apparatus 1 further includes a synonym search unit 141 and a user comment selection unit 142 instead of the subsequent person comment selection unit 14 .

[類義語検索部141]
類義語検索部141は、人物コメントに含まれる単語から類義語を検索する。
ここで、類義語を導出するために、例えばWord2vec(word to vector)を用いてもよい。Word2vecとは、単語を、意味ベクトルとして表現する分散表現技術をいう。
図6によれば、例えば人物コメントの単語「KANA」の類義語として、「歌手」「アーティスト」「音楽」が導出されている。
[Synonym search unit 141]
The synonym search unit 141 searches for synonyms from the words included in the person's comment.
Here, for example, Word2vec (word to vector) may be used to derive synonyms. Word2vec is a distributed representation technology that represents words as semantic vectors.
According to FIG. 6, for example, "singer", "artist", and "music" are derived as synonyms of the word "KANA" of the person's comment.

[ユーザコメント選択部142]
ユーザコメント選択部142は、各ユーザコメントに含まれる単語と、人物コメントの類義語とを比較し、最も類似度が高いユーザコメントを選択する。
図6によれば、「歌手」「アーティスト」「音楽」を含むユーザコメントが、高い類似度として選択される。
[User comment selection unit 142]
The user comment selection unit 142 compares words included in each user comment with synonyms of person comments, and selects a user comment with the highest degree of similarity.
According to FIG. 6, user comments including "singer", "artist" and "music" are selected as high similarities.

ここで、例えば人物コメントの名詞「KANA」の類義語として、「アーティスト」「音楽」「歌手」を含むユーザコメントを選択したとしても、以下のような複数のユーザコメントが選択される場合がある。
人物コメント「KANAを聞くかな」
<- ユーザコメント「普段、どんなアーティスト聞くの?」
<- ユーザコメント「アーティストになりたいなあ」
この場合、人物コメント「KANAを聞くかな」は、いずれのユーザコメントと対話関係にあるのか、認識することができない。
Here, for example, even if user comments including "artist", "music" and "singer" are selected as synonyms of the noun "KANA" of the person comment, there are cases where the following multiple user comments are selected.
Personal comment "I wonder if I'll listen to KANA"
<- User comment "What kind of artists do you usually listen to?"
<- User comment "I want to be an artist"
In this case, it is not possible to recognize which user comment the person's comment "I wonder if you'll listen to KANA" has a dialogue relationship with.

そのために、本発明における他の実施形態として、ユーザコメント選択部142は、係り受け解析機能を有するものであってもよい。ユーザコメント選択部142は、具体的には、各ユーザコメントに含まれる係り受け語(名詞及び動詞)と、人物コメントに含まれる係り受け語(名詞及び動詞)とを比較し、最も類似度が高いユーザコメントを選択する。
係り受け解析とは、述語(動詞)に係る名詞を抽出するものである。日本語の係り受け解析方法としては、例えばSVM(Support Vector Machines)に基づくCaboCha(登録商標)がある。
Therefore, as another embodiment of the present invention, the user comment selection unit 142 may have a dependency analysis function. Specifically, the user comment selection unit 142 compares the dependent word (noun and verb) included in each user comment with the dependent word (noun and verb) included in the person comment, and selects the word with the highest degree of similarity. Select high user comments.
Dependency analysis extracts nouns related to predicates (verbs). Japanese dependency parsing methods include, for example, CaboCha (registered trademark) based on SVM (Support Vector Machines).

ここで、人物コメント及びユーザコメントを係り受け解析することによって、以下のように判別できる。
(係り受け関係)
人物コメント「KANAを聞くかな」 =<KANA、聞く>
「KANA」->類義語「歌手」「アーティスト」「音楽」
ユーザコメント「普段、どんなアーティスト聞くの?」=<アーティスト、聞く>
ユーザコメント「アーティストになりたいなあ」 =<アーティスト、なる>
この場合、人物コメント「KANAを聞くかな」に対して、係り受け関係が一致するユーザコメント「普段、どんなアーティスト聞くの?」が選択される。
Here, by performing dependency analysis on personal comments and user comments, the following determination can be made.
(Dependency relationship)
Personal comment "I wonder if I'll listen to KANA" = <KANA, listen>
"KANA"-> synonyms "singer""artist""music"
User comment “What kind of artists do you usually listen to?” = <Artist, listen>
User comment “I want to be an artist” = <Become an artist>
In this case, the user comment "What artist do you usually listen to?" matching the dependency relationship is selected for the person comment "Do you listen to KANA?".

図7は、複数の人物が発話する中で、特定人物を決定する対話解析装置の機能構成図である。
図8は、図7の各機能構成部の処理を表す説明図である。
FIG. 7 is a functional configuration diagram of a dialogue analysis device that determines a specific person among a plurality of persons speaking.
FIG. 8 is an explanatory diagram showing processing of each functional configuration unit in FIG.

前述した図2~図6によれば、例えば放送者が1人の場合であって、その特定人物がユーザコメントに対して回答しながら放送するような事例に基づくものである。しかしながら、放送コンテンツの中で複数の放送者(特定人物とその他の第三者)が談話するような事例もある。その場合、放送コンテンツには、複数人の発話音声が混在しており、ユーザコメントがいずれの放送者に対するものか判断できない場合がある。人物コメントとユーザコメントとの対話関係を抽出するためにも、放送コンテンツの中で、特定人物の音声発話を特定する必要がある。 According to FIGS. 2 to 6 described above, for example, the case is based on the case where there is one broadcaster, and the specific person broadcasts while replying to user comments. However, there are also cases where multiple broadcasters (a particular person and other third parties) converse within the broadcast content. In such a case, broadcast content includes voices uttered by a plurality of people, and it may not be possible to determine which broadcaster the user comment is directed to. Also in order to extract the dialogue relationship between the person's comment and the user's comment, it is necessary to identify the voice utterances of a specific person in the broadcast content.

図7及び図8によれば、対話解析装置1は、音声解析部12と対応コメント選択部13との間に、キーワードリスト抽出部121と、キーワードカウント部122と、特定人物決定部123とを更に有する。 7 and 8, the dialogue analysis device 1 includes a keyword list extraction unit 121, a keyword count unit 122, and a specific person determination unit 123 between the speech analysis unit 12 and the corresponding comment selection unit 13. have more.

音声解析部12は、発話音声分別機能を更に有する。これによって、音声解析部12は、人物毎に、発話音声を分別して、各発話音声を人物コメントに変換する。具体的には、機械学習を用いて音声会話から話者の声を区別する技術がある(例えば非特許文献4参照)。
放送コンテンツには、複数人の発話音声が混在した場合であっても、音声解析部12は、図8のように、時間進行に応じて話者A及びBの発話音声を分別することができる。但し、この段階で、話者の分別はできても、話者を特定できているわけではない。
The voice analysis unit 12 further has a speech voice classification function. As a result, the voice analysis unit 12 separates the uttered voices for each person, and converts each uttered voice into a person's comment. Specifically, there is a technique for distinguishing a speaker's voice from voice conversation using machine learning (see, for example, Non-Patent Document 4).
Even if broadcast content contains speeches of multiple people, the speech analysis unit 12 can separate the speeches of speakers A and B according to the progress of time, as shown in FIG. . However, at this stage, even if the speaker can be distinguished, the speaker cannot be identified.

[キーワードリスト抽出部121]
キーワードリスト抽出部121は、人物(話者)毎に、人物コメントに含まれる名詞のキーワードのリストを抽出する。
図8によれば、話者Aは、キーワード「食べ物」「バドミントン」「野球」を、過去一定時間に発話している。また、話者Bは、キーワード「ハンバーグ」「公園」「KANA」を、過去一定時間に発話している。
そして、キーワードリスト抽出部121は、話者毎に、キーワードリストを作成する。
[Keyword list extraction unit 121]
The keyword list extraction unit 121 extracts a list of keywords of nouns included in person comments for each person (speaker).
According to FIG. 8, speaker A has uttered the keywords "food", "badminton" and "baseball" for a certain period of time in the past. In addition, speaker B has uttered the keywords "hamburger", "park" and "KANA" for a certain period of time in the past.
Then, the keyword list extraction unit 121 creates a keyword list for each speaker.

[キーワードカウント部122]
キーワードカウント部122は、人物(話者)毎に、キーワードリストに、当該ユーザコメントに含まれているキーワードをカウントする。
図8によれば、ユーザコメントに「ハンバーグ」「KANA」が登場し、キーワードリストにチェックが入っている。ここで、「ハンバーグ」「KANA」について、話者Bが過去に発話している。
[Keyword count unit 122]
The keyword counting unit 122 counts the keywords included in the user comment in the keyword list for each person (speaker).
According to FIG. 8, "hamburger" and "KANA" appear in the user comments, and the keyword list is checked. Here, speaker B has uttered "hamburger" and "KANA" in the past.

キーワードカウント部122に対して、特定人物の名前が予め設定する実施形態であってもよい。キーワードカウント部122は、特定人物の名前が含まれているユーザコメントのみを抽出し、当該ユーザコメントに含まれているキーワードを、キーワードリストに対してカウントする。
例えば特定人物の名前として、「X」を予め設定するとする。この場合、「X」が含まれた、例えばユーザコメント「ハンバーグを美味しそうに食べるXさんが簡単に想像できる」のようなユーザコメントのみを抽出する。この場合、キーワードである例えば「ハンバーグ」を、キーワードリストに対してカウントする。
An embodiment in which the name of a specific person is set in advance for the keyword counting unit 122 may be used. The keyword counting unit 122 extracts only user comments containing the name of a specific person, and counts the keywords contained in the user comments against the keyword list.
For example, assume that "X" is set in advance as the name of a specific person. In this case, only user comments that include "X", such as the user comment "I can easily imagine Mr. X eating a hamburger deliciously", are extracted. In this case, a keyword such as "hamburger" is counted against the keyword list.

[特定人物決定部123]
特定人物決定部123は、複数の人物の中で、キーワードリストのカウント数が最も多い人物の発話音声を、人物発話音声と決定する。
特に、例えば特定人物の名前を用いたユーザコメントに含まれるキーワードは、特定人物が発話した人物コメントに含まれるキーワードと一致する可能性が高いといえる。
図8によれば、話者Bが、話者Aよりもチェックが入った割合が高い(話者Aのチェック率は0%、話者Bのチェック率は67%)。そのために、話者Bを、特定人物として決定する。
[Specific person determination unit 123]
The specific person determining unit 123 determines the uttered voice of the person whose keyword list count number is the largest among the plurality of persons as the person's uttered voice.
In particular, it can be said that there is a high possibility that a keyword included in a user comment using a specific person's name, for example, matches a keyword included in a person comment uttered by the specific person.
According to FIG. 8, speaker B has a higher check rate than speaker A (the check rate for speaker A is 0%, and the check rate for speaker B is 67%). Therefore, speaker B is determined as a specific person.

これによって、対応コメント選択部13は、話者Bの人物コメントに対して、ユーザコメントを対応付けることができる。
尚、話者Aの人物コメントを、ユーザコメントとして処理することも好ましい。話者Aは、特定人物ではないので、ユーザコメントと同様に処理することができる。例えば話者Aが「あなたの好きな食べ物は何ですか?」と発話することによって、話者Bが「ハンバーグが好きですねー」と発話する場合もある。
Accordingly, the corresponding comment selection unit 13 can associate the user comment with the personal comment of speaker B. FIG.
It is also preferable to process the personal comment of speaker A as a user comment. Since speaker A is not a specific person, it can be processed in the same way as user comments. For example, when speaker A says, "What is your favorite food?", speaker B may say, "I like hamburgers."

以上、詳細に説明したように、本発明のプログラム、装置及び方法によれば、人物発話音声とユーザコメントとを対応付けることができる。また、人物発話音声を組み込んだ対話エージェントの音声対話シナリオを自動的に生成することができる。
結果的に、対話エージェントの特定キャラクタにおける応答音声が、その特定人物の発話音声そのものとなり、ユーザは、如何にも特定人物と対話をしているような感覚を持つことができる。
As described in detail above, according to the program, device, and method of the present invention, it is possible to associate human utterances with user comments. In addition, it is possible to automatically generate a voice dialogue scenario of a dialogue agent incorporating human utterances.
As a result, the response voice of the specific character of the dialogue agent becomes the speech voice of the specific person, and the user can feel as if he or she is having a dialogue with the specific person.

尚、これにより、例えば「人物発話音声とユーザコメントとを対応付けて、対話エージェントの音声対話シナリオを自動的に生成することができる」ことから、国連が主導する持続可能な開発目標(SDGs)の目標9「レジリエントなインフラを整備し、持続可能な産業化を推進するとともに、イノベーションの拡大を図る」に貢献することが可能となる。 Furthermore, as a result, for example, ``it is possible to automatically generate a voice dialogue scenario of a dialogue agent by associating human utterance voices with user comments'', so that the Sustainable Development Goals (SDGs) led by the United Nations Goal 9: “Develop resilient infrastructure, promote sustainable industrialization and foster innovation.”

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。 For the various embodiments of the present invention described above, various changes, modifications and omissions within the spirit and scope of the present invention can be easily made by those skilled in the art. The foregoing description is exemplary only and is not intended to be limiting. The invention is to be limited only as limited by the claims and the equivalents thereof.

1 対話解析装置
11 コンテンツ取得部
12 音声解析部
121 キーワードリスト抽出部
122 キーワードカウント部
123 特定人物決定部
13 対応コメント選択部
14 後続人物コメント選択部
141 類義語検索部
142 ユーザコメント選択部
15 対話関係決定部
16 音声対話シナリオ作成部
2 放送サーバ
3 放送者側の端末
4 ユーザ側の端末
1 dialogue analysis device 11 content acquisition unit 12 speech analysis unit 121 keyword list extraction unit 122 keyword count unit 123 specific person determination unit 13 corresponding comment selection unit 14 subsequent person comment selection unit 141 synonym search unit 142 user comment selection unit 15 dialogue relation determination unit Section 16 Voice Dialogue Scenario Creation Section 2 Broadcast Server 3 Broadcaster's Terminal 4 User's Terminal

Claims (10)

ユーザコメントと、当該ユーザコメントに起因した人物発話音声とを対応付けるようにコンピュータを機能させるプログラムであって、
人物発話音声と複数のユーザコメントとを含むコンテンツを取得するコンテンツ取得手段と、
人物発話音声を、人物コメントに変換する音声解析手段と、
人物コメントと、当該人物コメントの発声前の所定時間に投稿されたユーザコメントとの類似度を算出し、類似度が所定閾値以上高くなるユーザコメントを選択する対応コメント選択手段と、
選択されたユーザコメントに対する人物コメントの次に後続的に発話された人物コメントを選択する後続人物コメント選択手段と、
対応コメント選択手段によって選択されたユーザコメントと、後続人物コメント選択手段によって選択された人物コメントとを対話関係として決定する対話関係決定手段と
してコンピュータを機能させることを特徴とするプログラム。
A program that causes a computer to function so as to associate a user comment with a person's uttered voice resulting from the user comment,
content acquisition means for acquiring content including a person's utterance voice and a plurality of user comments;
voice analysis means for converting a person's uttered voice into a person's comment;
Corresponding comment selection means for calculating the degree of similarity between a person's comment and a user comment posted at a predetermined time before the person's comment is uttered, and selecting a user comment whose degree of similarity is higher than a predetermined threshold;
a subsequent human comment selection means for selecting a human comment uttered subsequent to the human comment for the selected user comment;
A program for causing a computer to function as dialogue relationship determination means for determining a dialogue relationship between a user comment selected by a corresponding comment selection means and a person comment selected by a succeeding person comment selection means.
コンテンツは、放送コンテンツであり、
人物発話音声は、放送中に人物から発話された音声ベースのものであり、
ユーザコメントは、放送中に聴取者から投稿されたテキストベースのものであり、
ユーザコメントと人物コメントとが、対話形式を構成する場合を含む
ようにコンピュータを機能させることを特徴とする請求項1に記載のプログラム。
the content is broadcast content,
Person-spoken voice is based on speech spoken by a person during the broadcast,
User comments are text-based, posted by listeners during the broadcast,
2. A program according to claim 1, causing a computer to function to include cases where user comments and person comments constitute an interactive form.
特定人物を模した特定キャラクタの音声対話シナリオに、人物発話音声を組み込む音声対話シナリオ生成手段を更に有し、
対話シナリオ生成手段は、
音声対話シナリオには、想定文が予め登録されており、
対話関係となるユーザコメントに対して、最も類似度が高い想定文を選択し、
対話関係となる後続人物コメントに紐付く後続人物発話音声を抽出し、
選択された想定文に、抽出した後続発話音声を対応付ける
ようにコンピュータを機能させることを特徴とする請求項1又は2に記載のプログラム。
further comprising voice dialogue scenario generating means for incorporating a person's uttered voice into a voice dialogue scenario of a specific character imitating a specific person;
Dialogue scenario generation means
Supposed sentences are registered in advance in the voice dialogue scenario,
Select the hypothetical sentence with the highest degree of similarity for the user comment that has a dialogue relationship,
Extract the utterance voice of the following person linked to the comment of the following person who has a dialogue relationship,
3. The program according to claim 1 or 2, which causes a computer to function so as to associate the selected hypothetical sentence with the extracted subsequent utterance speech.
音声対話シナリオに予め登録された想定文には、同意となる1つ以上の単語(タグ)が紐付けられており、
音声対話シナリオ生成手段は、ユーザコメントに含まれる単語と、想定文に紐付けられた単語と比較して、類似度を算出する
ようにコンピュータを機能させることを特徴とする請求項3に記載のプログラム。
One or more agreeable words (tags) are associated with the hypothetical sentences registered in advance in the voice dialogue scenario,
4. The voice dialogue scenario generation means according to claim 3, wherein the computer is operated to calculate a degree of similarity by comparing words included in the user comment and words linked to the hypothetical sentence. program.
対応コメント選択手段によって人物コメントに対するユーザコメントが選択されなかった場合、後続人物コメント選択手段に代えて、
人物コメントに含まれる単語から類義語を検索する類義語検索手段と、
各ユーザコメントに含まれる単語と、人物コメントの類義語とを比較し、最も類似度が高いユーザコメントを選択するユーザコメント選択手段と
して機能させ、
対話関係決定手段は、ユーザコメント選択手段によって選択されたユーザコメントと、当該人物コメントとを対話関係とする
ようにコンピュータを機能させることを特徴とする請求項1から4のいずれか1項に記載のプログラム。
If the corresponding comment selection means does not select the user comment for the person comment, instead of the subsequent person comment selection means,
a synonym retrieval means for retrieving synonyms from words included in person comments;
Functioning as user comment selection means for comparing words included in each user comment with synonyms of person comments and selecting the user comment with the highest degree of similarity,
5. The dialogue relation determining means causes the computer to function so that the user comment selected by the user comment selecting means and the person's comment are in a dialogue relation. program.
ユーザコメント選択手段は、
各ユーザコメントに含まれる名詞及び動詞からなる係り受け語と、人物コメントに含まれる名詞及び動詞からなる係り受け語とを解析し、
各ユーザコメントの係り受け語と、人物コメントの係り受け語とを比較し、最も類似度が高いユーザコメントを選択する
ようにコンピュータを機能させることを特徴とする請求項5に記載のプログラム。
The user comment selection means is
Analyzing the dependent word consisting of nouns and verbs included in each user comment and the dependent word consisting of nouns and verbs included in the person comment,
6. The program according to claim 5, causing the computer to compare the dependent word of each user comment with the dependent word of the person comment and select the user comment with the highest degree of similarity.
コンテンツは、複数の人物の発話音声を含み、
音声解析手段は、人物毎に、発話音声を分別して、各発話音声を人物コメントに変換し、
人物毎に、人物コメントに含まれる名詞のキーワードのリストを抽出するキーワードリスト抽出手段と、
人物毎に、キーワードリストに、当該ユーザコメントに含まれているキーワードをカウントするキーワードカウント手段と、
複数の人物の中で、キーワードリストのカウント数が最も多い人物の発話音声を、人物発話音声と決定する特定人物決定手段と
してコンピュータを機能させることを特徴とする請求項1から6のいずれか1項に記載のプログラム。
The content includes voices spoken by multiple persons,
The speech analysis means classifies the uttered voice for each person, converts each uttered voice into a person's comment,
keyword list extracting means for extracting a list of keywords of nouns included in person comments for each person;
keyword counting means for counting keywords included in the user comment in the keyword list for each person;
7. A computer according to any one of claims 1 to 6, wherein the computer functions as a specific person determining means for determining, among a plurality of persons, the uttered voice of a person whose count number in the keyword list is the largest as the person's uttered voice. The program described in Section.
特定人物の名前が予め設定されており、
キーワードカウント手段は、特定人物の名前が含まれているユーザコメントのみを抽出し、当該ユーザコメントに含まれているキーワードを、キーワードリストに対してカウントする
ようにコンピュータを機能させることを特徴とする請求項7に記載のプログラム。
The name of a specific person is preset,
The keyword counting means extracts only user comments containing the name of a specific person, and causes the computer to count the keywords contained in the user comments against the keyword list. 8. A program according to claim 7.
ユーザコメントと、当該ユーザコメントに起因した人物発話音声とを対応付ける対話解析装置であって、
人物発話音声と複数のユーザコメントとを含むコンテンツを取得するコンテンツ取得手段と、
人物発話音声を、人物コメントに変換する音声解析手段と、
人物コメントと、当該人物コメントの発声前の所定時間に投稿されたユーザコメントとの類似度を算出し、類似度が所定閾値以上高くなるユーザコメントを選択する対応コメント選択手段と、
選択されたユーザコメントに対する人物コメントの次に後続的に発話された人物コメントを選択する後続人物コメント選択手段と、
対応コメント選択手段によって選択されたユーザコメントと、後続人物コメント選択手段によって選択された人物コメントとを対話関係として決定する対話関係決定手段と
を有することを特徴とする対話解析装置。
A dialogue analysis device that associates a user comment with a person's uttered voice resulting from the user comment,
content acquisition means for acquiring content including a person's utterance voice and a plurality of user comments;
voice analysis means for converting a person's uttered voice into a person's comment;
Corresponding comment selection means for calculating the degree of similarity between a person's comment and a user comment posted at a predetermined time before the person's comment is uttered, and selecting a user comment whose degree of similarity is higher than a predetermined threshold;
a subsequent human comment selection means for selecting a human comment uttered subsequent to the human comment for the selected user comment;
A dialogue analysis apparatus, comprising dialogue relation determining means for determining a dialogue relation between a user comment selected by a corresponding comment selecting means and a person's comment selected by a succeeding person's comment selecting means.
ユーザコメントと、当該ユーザコメントに起因した人物発話音声とを対応付ける装置の対話解析方法であって、
装置は、
人物発話音声と複数のユーザコメントとを含むコンテンツを取得する第1のステップと、
人物発話音声を、人物コメントに変換する第2のステップと、
人物コメントと、当該人物コメントの発声前の所定時間に投稿されたユーザコメントとの類似度を算出し、類似度が所定閾値以上高くなるユーザコメントを選択する第3のステップと、
選択されたユーザコメントに対する人物コメントの次に後続的に発話された人物コメントを選択する第4のステップと、
第3のステップによって選択されたユーザコメントと、第4のステップによって選択された人物コメントとを対話関係とする第5のステップと
を実行することを特徴とする対話解析方法。
A dialogue analysis method for a device that associates a user comment with a human utterance resulting from the user comment, comprising:
The device
a first step of obtaining content including a person speaking voice and a plurality of user comments;
a second step of converting the person's speech into a person's comment;
a third step of calculating a degree of similarity between a person's comment and a user comment posted at a predetermined time before the person's comment is uttered, and selecting a user comment whose degree of similarity is higher than a predetermined threshold;
a fourth step of selecting a person comment subsequently spoken after the person comment for the selected user comment;
A dialogue analysis method characterized by executing a fifth step of establishing a dialogue relationship between the user comment selected in the third step and the person comment selected in the fourth step.
JP2021103588A 2021-06-22 2021-06-22 Program, device and method for associating person speech sound to user comments Pending JP2023002380A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021103588A JP2023002380A (en) 2021-06-22 2021-06-22 Program, device and method for associating person speech sound to user comments

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021103588A JP2023002380A (en) 2021-06-22 2021-06-22 Program, device and method for associating person speech sound to user comments

Publications (1)

Publication Number Publication Date
JP2023002380A true JP2023002380A (en) 2023-01-10

Family

ID=84797718

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021103588A Pending JP2023002380A (en) 2021-06-22 2021-06-22 Program, device and method for associating person speech sound to user comments

Country Status (1)

Country Link
JP (1) JP2023002380A (en)

Similar Documents

Publication Publication Date Title
US11380330B2 (en) Conversational recovery for voice user interface
US10803869B2 (en) Voice enablement and disablement of speech processing functionality
US20210142794A1 (en) Speech processing dialog management
CN108536802B (en) Interaction method and device based on child emotion
US10917758B1 (en) Voice-based messaging
US11475897B2 (en) Method and apparatus for response using voice matching user category
US10056078B1 (en) Output of content based on speech-based searching and browsing requests
JP6704525B2 (en) Facilitate the generation and playback of voice recorded by users
US11250857B1 (en) Polling with a natural language interface
US11276403B2 (en) Natural language speech processing application selection
KR102041621B1 (en) System for providing artificial intelligence based dialogue type corpus analyze service, and building method therefor
US10600419B1 (en) System command processing
Kaushik et al. Automatic sentiment detection in naturalistic audio
US11797629B2 (en) Content generation framework
US20240029743A1 (en) Intermediate data for inter-device speech processing
CN114708869A (en) Voice interaction method and device and electric appliance
CN113761268A (en) Playing control method, device, equipment and storage medium of audio program content
JP2007328283A (en) Interaction system, program and interactive method
CN114125506B (en) Voice auditing method and device
US10957313B1 (en) System command processing
US11360736B1 (en) System command processing
JP2023002380A (en) Program, device and method for associating person speech sound to user comments
CN112397053B (en) Voice recognition method and device, electronic equipment and readable storage medium
CN114328867A (en) Intelligent interruption method and device in man-machine conversation
JP2004347732A (en) Automatic language identification method and system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230714