JP6087704B2 - Communication service providing apparatus, communication service providing method, and program - Google Patents
Communication service providing apparatus, communication service providing method, and program Download PDFInfo
- Publication number
- JP6087704B2 JP6087704B2 JP2013082179A JP2013082179A JP6087704B2 JP 6087704 B2 JP6087704 B2 JP 6087704B2 JP 2013082179 A JP2013082179 A JP 2013082179A JP 2013082179 A JP2013082179 A JP 2013082179A JP 6087704 B2 JP6087704 B2 JP 6087704B2
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- scene
- communication
- content
- history
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Description
本発明は、コミュニケーションに適する一シーンを、発話を含むマルチメディアコンテンツから推定するコミュニケーションサービス提供装置、コミュニケーションサービス提供方法、およびプログラムに関する。 The present invention relates to a communication service providing apparatus, a communication service providing method, and a program for estimating one scene suitable for communication from multimedia contents including an utterance.
一般的に映像コンテンツや漫画コンテンツは、登場するキャラクタの発話により構成されている。そのため、これらのコンテンツでのキャラクタの発話を、コミュニケーションにおいてユーザが自分の発話として利用することが可能であり、コミュニケーションとこれらのコンテンツとの親和性は高い。既に、インターネット上の掲示板サービス等では、コンテンツホルダーに無許可で、ユーザが、これらのコンテンツの一シーンを画像やテキストの形にてコミュニケーションに利用するケースが見られる。 In general, video content and comic content are composed of utterances of characters that appear. Therefore, it is possible for a user to use the utterance of a character in these contents as his / her utterance in communication, and the affinity between communication and these contents is high. Already, in a bulletin board service or the like on the Internet, there is a case where a user uses one scene of these contents for communication in the form of an image or text without permission of the content holder.
しかしながら、膨大なコンテンツの無数のシーンの中から、ユーザがコミュニケーションの展開に合致したシーンを見つけ出し、コミュニケーションに利用することは大きな労力を伴っていた。特に、漫画コンテンツは一ページに複数のコマが存在し、複数の発話が存在するため、ユーザが一シーン(一コマ)を切り出し、自分の発話としてコミュニケーションに利用することが困難であった。 However, it has been a great effort for the user to find a scene that matches the development of communication from among a myriad of scenes of enormous content and use it for communication. In particular, since the comic content has a plurality of frames on one page and a plurality of utterances, it is difficult for the user to cut out one scene (one frame) and use it as his / her utterance for communication.
そこで、特許文献1に記載の技術では、マンガのページを画像処理してコマの枠線を認識することで一ページを複数のコマに分割して、一コマを一コンテンツとすることより、コマ単位でデータを利用することを可能にしている。また、同文献では、吹き出し中のテキストを抽出することでコマ(コンテンツ)の検索を容易にしている。
Therefore, in the technique described in
一方、コンテンツを検索するシステムとしては、Google(登録商標)の画像検索が有名である(例えば、非特許文献1参照)。Googleの画像検索では、コンテンツに含まれる画像の周囲に存在するテキスト(見出し・画像タイトル・解説文等)と画像URLとを関連付けてインデックスを作成することで、テキストから画像を検索することが可能である。更に、画像そのものの特徴を抽出し、画像間を関連付けることによって、検索の機能を向上させる技術も提案されている(例えば、非特許文献2参照)。
On the other hand, as a system for searching for content, Google (registered trademark) image search is well known (for example, see Non-Patent Document 1). In Google image search, it is possible to search for images from text by creating an index by associating text (headings, image titles, explanations, etc.) existing around the images included in the content with image URLs. It is. Furthermore, a technique for improving the search function by extracting the features of the images themselves and associating the images has been proposed (see Non-Patent
しかしながら、上述した技術を用いて映像コンテンツや漫画コンテンツの一シーンをコミュニケーションに利用する場合、一シーン中に含まれるテキストを用いて検索を行い、検索で得られた大量の候補からユーザが適切なシーンを選択する作業が必要となる。そのため、スムーズなコミュニケーションは困難であり、コミュニケーションのリアルタイム性が失われてしまうという問題点があった。特に、携帯電話上の狭い画面では、検索で得られた大量の候補から適切なシーンを選択することは困難であり、スムーズなコミュニケーションは不可能に近かった。 However, when one scene of video content or comic content is used for communication using the above-described technology, a search is performed using text included in one scene, and a user is appropriately selected from a large number of candidates obtained by the search. Work to select a scene is required. For this reason, smooth communication is difficult, and the real-time nature of communication is lost. In particular, on a narrow screen on a mobile phone, it is difficult to select an appropriate scene from a large number of candidates obtained by search, and smooth communication is almost impossible.
そこで本発明は、上記課題に鑑みて、コミュニケーションにおける次の発話に適したシーンを、発話を含むマルチメディアコンテンツから推定するコミュニケーションサービス提供装置、コミュニケーションサービス提供方法、およびプログラムを提供することを目的とする。 Therefore, in view of the above problems, the present invention has an object of providing a communication service providing apparatus, a communication service providing method, and a program for estimating a scene suitable for the next utterance in communication from multimedia contents including the utterance. To do.
本発明は、上記の課題を解決するために、以下の事項を提案している。なお、理解を容易にするために、本発明の実施形態に対応する符号を付して説明するが、これに限定されるものではない。 The present invention proposes the following matters in order to solve the above problems. In addition, in order to make an understanding easy, although the code | symbol corresponding to embodiment of this invention is attached | subjected and demonstrated, it is not limited to this.
(1) 本発明は、コミュニケーションに利用するコンテンツとして、発話を含むマルチメディアコンテンツから当該コミュニケーションに適したシーンを提供するコミュニケーションサービス提供装置において、前記発話を含むマルチメディアコンテンツを、一発話単位に発話シーンとして切り分け、発話テキストを抽出する発話シーン抽出手段と、前記発話シーン抽出手段で抽出した発話テキストの系列をコミュニケーションのシークエンスとして、コンテンツ上のある区間の発話テキストの系列を状態シーケンスとして、前記区間の次の発話シーンを行動ノードとして、前記状態シーケンスから前記行動ノードへのマップを発話モデルとして学習する発話学習手段と、前記発話学習手段で学習した発話モデルを記憶する発話モデル記憶手段と、前記コミュニケーションの発話履歴を記憶するコミュニケーション履歴記憶手段と、前記コミュニケーション履歴記憶手段に記憶されている前記コミュニケーションの発話履歴と前記発話モデル記憶手段に記憶されている発話モデルとに基づいて、前記コミュニケーションにおける次発話に適した発話シーンを推定する次発話シーン推定手段と、を備えるコミュニケーションサービス提供装置を提案している。 (1) The present invention provides a communication service providing apparatus that provides a scene suitable for communication from multimedia content including utterance as content used for communication. In the communication service providing apparatus, the multimedia content including the utterance is uttered for each utterance. An utterance scene extraction unit that extracts an utterance text as a scene, and a sequence of utterance texts extracted by the utterance scene extraction unit as a communication sequence, and a sequence of utterance texts in a certain section on the content as a state sequence, An utterance learning means for learning a map from the state sequence to the action node as an utterance model, and an utterance model storage for storing the utterance model learned by the utterance learning means The communication history storage means for storing the communication utterance history, the communication utterance history stored in the communication history storage means, and the utterance model stored in the utterance model storage means, There is proposed a communication service providing apparatus comprising: a next utterance scene estimating means for estimating an utterance scene suitable for the next utterance in the communication.
(2) 本発明は、(1)のコミュニケーションサービス提供装置について、前記発話シーン抽出手段で抽出された各発話シーンに対し、当該各発話シーンの属性情報をタグとして付与するタグ付与手段と、前記発話シーン抽出手段で抽出された各発話シーンに対応付けて、前記タグ付与手段で当該各発話シーンに付与されたタグを記憶するタグ記憶手段と、を備え、前記発話学習手段が、コンテンツ上のある区間の前記発話シーンの系列に対応する前記タグ付与手段で付与されたタグの系列を状態タグシーケンス、前記区間の次の発話シーンに付与されたタグを行動タグノードとして、状態タグシーケンスから行動タグノードへのマップを前記発話モデルとして学習し、前記コミュニケーション履歴記憶手段に記憶されている前記コミュニケーションの発話履歴と前記発話モデル記憶手段に記憶されている発話モデルとに基づいて、前記コミュニケーションの次発話に適したシーンに付与されるタグを推定する次シーンタグ推定手段と、前記次シーンタグ推定手段で推定されたタグと前記タグ記憶手段に記憶されているタグとに基づいて、前記次発話に適した発話シーンを検索する同タグシーン検索手段と、を備えることを特徴とするコミュニケーションサービス提供装置を提案している。 (2) In the communication service providing apparatus of (1), the present invention provides tag providing means for assigning attribute information of each utterance scene as a tag to each utterance scene extracted by the utterance scene extraction means, Tag storage means for storing the tag assigned to each utterance scene by the tag assigning means in association with each utterance scene extracted by the utterance scene extraction means, and the utterance learning means on the content An action tag node from a state tag sequence with a tag sequence assigned by the tag assigning unit corresponding to the utterance scene sequence in a section as a state tag sequence and a tag assigned to the next utterance scene in the interval as an action tag node The communication map is stored as the utterance model and stored in the communication history storage means. Next scene tag estimating means for estimating a tag to be assigned to a scene suitable for the next utterance of communication based on the utterance history of the application and the utterance model stored in the utterance model storage means, and the next scene tag And a tag scene search means for searching for an utterance scene suitable for the next utterance based on the tag estimated by the estimation means and the tag stored in the tag storage means. Proposing device.
(3) 本発明は、(2)のコミュニケーションサービス提供装置について、前記属性情報は、前記発話シーンの発話テキスト、当該発話シーンに登場するキャラクタの感情、当該発話シーンの構成要素を少なくとも含むことを特徴とするコミュニケーションサービス提供装置を提案している。 (3) In the communication service providing apparatus according to (2), the attribute information includes at least an utterance text of the utterance scene, an emotion of a character appearing in the utterance scene, and components of the utterance scene. We have proposed a communication service providing device.
(4) 本発明は、(1)から(3)のコミュニケーションサービス提供装置について、前記発話シーン抽出手段が、話し言葉および効果音を前記発話テキストとして抽出することを特徴とするコミュニケーションサービス提供装置を提案している。 (4) The present invention proposes a communication service providing apparatus in which the utterance scene extracting means extracts spoken words and sound effects as the uttered text for the communication service providing apparatus of (1) to (3). doing.
(5) 本発明は、(1)から(4)のコミュニケーションサービス提供装置について、発話学習手段が、コンテンツ毎に、前記発話シーン抽出手段で抽出した発話テキストの系列をコミュニケーションのシークエンスとして、コンテンツ上のある区間の発話テキストの系列を状態シーケンスとして、前記区間の次の発話シーンを行動ノードとして、前記状態シーケンスから前記行動ノードへのマップを発話モデルとして学習し、前記発話モデル記憶手段が、前記コンテンツ毎に、前記発話学習手段で生成された発話モデルを記憶し、ユーザ毎に、ユーザが利用したマルチメディアコンテンツの履歴を記憶する利用履歴記憶手段と、前記コミュニケーションを行っているユーザについて、前記利用履歴記憶手段に記憶されている履歴からコンテンツ候補を抽出するコンテンツ候補抽出手段と、前記発話モデル記憶手段に記憶された複数の発話モデルから、前記コンテンツ候補抽出手段で抽出されたコンテンツ候補に対応付けて記憶されている発話モデルを選択する発話モデル選択手段と、を備え、前記次発話シーン推定手段が、前記コミュニケーションの次発話に適したシーンを、前記発話モデル選択手段で選択された発話モデルの中から前記コミュニケーション履歴記憶手段に記憶されている当該コミュニケーションの発話履歴に基づいて、前記次発話に適した発話シーンを推定することを特徴とするコミュニケーションサービス提供装置を提案している。 (5) In the communication service providing apparatus according to (1) to (4), the present invention provides, for each content, an utterance text sequence extracted by the utterance scene extraction unit for each content as a communication sequence. A sequence of utterance texts in a certain section as a state sequence, a next utterance scene in the section as an action node, a map from the state sequence to the action node as an utterance model, and the utterance model storage means, For each content, the utterance model generated by the utterance learning means is stored, and for each user, the usage history storage means for storing the history of multimedia content used by the user, and the user performing the communication, From the history stored in the usage history storage means, A speech candidate stored in association with the content candidate extracted by the content candidate extraction unit from a plurality of speech models stored in the speech model storage unit. Utterance model selection means, and the next utterance scene estimation means stores a scene suitable for the next utterance of the communication in the communication history storage means from among the utterance models selected by the utterance model selection means. The communication service providing apparatus is characterized in that the utterance scene suitable for the next utterance is estimated based on the utterance history of the communication.
(6) 本発明は、(5)のコミュニケーションサービス提供装置について、前記利用履歴記憶手段に記憶されている履歴に基づいて、各マルチメディアコンテンツを基底とし当該各マルチメディアコンテンツの利用回数を係数とするコンテンツ履歴ベクトルを、ユーザ毎に生成するコンテンツ履歴ベクトル生成手段と、前記コンテンツ履歴ベクトル生成手段で生成されたコンテンツ履歴ベクトルに基づいて、前記コミュニケーションを行っているユーザとの距離が小さいユーザをコンテンツ類似ユーザとして抽出するコンテンツ類似ユーザ抽出手段と、を備え、前記コンテンツ候補抽出手段が、前記コンテンツ類似ユーザ抽出手段により求められた前記コンテンツ類似ユーザに基づいて、利用履歴記憶手段に記憶されている履歴からコンテンツ候補を抽出することを特徴とするコミュニケーションサービス提供装置を提案している。 (6) In the communication service providing apparatus according to (5), the present invention uses each multimedia content as a basis based on the history stored in the usage history storage unit, and uses the number of uses of each multimedia content as a coefficient. Content history vector generating means for generating a content history vector for each user, and a user having a small distance from the user performing communication based on the content history vector generated by the content history vector generating means Content similar user extraction means for extracting as a similar user, and the content candidate extraction means stores the history stored in the usage history storage means based on the content similar user obtained by the content similar user extraction means Conte from It proposes a communication service providing device and extracting the tool candidate.
(7) 本発明は、(5)または(6)のコミュニケーションサービス提供装置について、ユーザ毎に発話履歴を記憶する発話履歴記憶手段と、前記発話履歴記憶手段に記憶されている発話履歴に基づいて、各単語を基底とし当該各単語の出現頻度を係数とする発話履歴ベクトルを、ユーザ毎に生成する発話履歴ベクトル生成手段と、前記発話履歴ベクトル生成手段で生成された発話履歴ベクトルに基づいて、前記コミュニケーションを行っているユーザとの距離が小さいユーザを発話類似ユーザとして抽出する発話類似ユーザ抽出手段と、を備え、前記コンテンツ候補抽出手段が、前記発話類似ユーザ抽出手段により求められた前記発話類似ユーザに基づいて、前記利用履歴記憶手段に記憶されている履歴からコンテンツ候補を抽出することを特徴とするコミュニケーションサービス提供装置を提案している。 (7) The present invention relates to the communication service providing apparatus according to (5) or (6), based on an utterance history storage unit that stores an utterance history for each user, and an utterance history stored in the utterance history storage unit. Based on the utterance history vector generation means for generating for each user an utterance history vector based on each word and the frequency of appearance of each word as a coefficient, and the utterance history vector generated by the utterance history vector generation means, Utterance similar user extraction means for extracting a user having a small distance from the communicating user as an utterance similar user, and the content candidate extraction means is determined by the utterance similar user extraction means. Based on the user, content candidates are extracted from the history stored in the usage history storage means. It has proposed a communication service providing device according to claim.
(8) 本発明は、(1)から(7)のコミュニケーションサービス提供装置について、前記次発話シーン推定手段で前記コミュニケーションにおける次発話に適した複数の発話シーンが推定された場合に、当該複数の発話シーンに対し、前記コミュニケーションを行っているユーザから受け付けたテキストに基づいて画像検索を行い、当該次発話に適した発話シーンの候補を絞り込み手段を備えることを特徴とするコミュニケーションサービス提供装置を提案している。 (8) In the communication service providing apparatus according to (1) to (7), the present invention provides a plurality of utterance scenes suitable for the next utterance in the communication when the next utterance scene estimation unit estimates the plurality of utterance scenes. Providing a communication service providing apparatus, comprising: an image search for an utterance scene based on text received from a user performing the communication, and a means for narrowing down utterance scene candidates suitable for the next utterance doing.
(9) 本発明は、(1)から(8)のコミュニケーションサービス提供装置について、前記次発話シーン推定手段で前記コミュニケーションにおける次発話に適すると推定された発話シーンの中から、前記コミュニケーションを行っているユーザが選択した発話シーンの権利を当該ユーザが有するか否かの認証を行う認証手段を備え、前記認証手段で認証できた場合に、前記コミュニケーションを行っている他のユーザに前記ユーザが選択した発話シーンを送信することを特徴とするコミュニケーション提供装置を提案している。 (9) In the communication service providing apparatus according to (1) to (8), the present invention performs the communication from the utterance scenes estimated by the next utterance scene estimation means to be suitable for the next utterance in the communication. Authentication means for authenticating whether or not the user has the right of the utterance scene selected by the user, and when the authentication means can authenticate, the user selects the other user performing the communication A communication providing apparatus characterized by transmitting a uttered scene is proposed.
(10) 本発明は、コミュニケーションに利用するコンテンツとして、発話を含むマルチメディアコンテンツから当該コミュニケーションに適したシーンを提供するコミュニケーションサービス提供装置におけるコミュニケーションサービス提供方法であって、前記コミュニケーションサービス提供装置は、発話シーン抽出手段、発話学習手段、発話モデル記憶手段、前記コミュニケーションの発話履歴を記憶するコミュニケーション履歴記憶手段、および次発話シーン推定手段を備え、前記発話シーン抽出手段が、前記発話を含むマルチメディアコンテンツを、一発話単位に発話シーンとして切り分け、発話テキストを抽出する第1のステップと、前記発話学習手段が、前記第1のステップで抽出した発話テキストの系列をコミュニケーションのシークエンスとして、コンテンツ上のある区間の発話テキストの系列を状態シーケンスとして、前記区間の次の発話シーンを行動ノードとして、前記状態シーケンスから前記行動ノードへのマップを発話モデルとして学習する第2のステップと、前記発話モデル記憶手段が、前記第2のステップで学習した発話モデルを記憶する第3のステップと、前記次発話シーン推定手段が、前記コミュニケーション履歴記憶手段に記憶されている前記コミュニケーションの発話履歴と前記発話モデル記憶手段に記憶されている発話モデルとに基づいて、前記コミュニケーションにおける次発話に適した発話シーンを推定する第4のステップと、を備えるコミュニケーションサービス提供方法を提案している。 (10) The present invention is a communication service providing method in a communication service providing apparatus that provides a scene suitable for communication from multimedia content including speech as content used for communication, wherein the communication service providing apparatus includes: Multimedia content including utterance scene extraction means, utterance learning means, utterance model storage means, communication history storage means for storing the communication utterance history, and next utterance scene estimation means, wherein the utterance scene extraction means includes the utterance Is divided into utterance scenes in units of utterances, and the utterance text is extracted, and the utterance learning means communicates the series of utterance texts extracted in the first step. As a sequence of content, a sequence of utterance texts in a certain section on the content is used as a state sequence, the next utterance scene in the section is used as an action node, and a map from the state sequence to the action node is learned as an utterance model. The second utterance model storage means stores the utterance model learned in the second step, and the next utterance scene estimation means is stored in the communication history storage means. Proposing a communication service providing method comprising: a fourth step of estimating an utterance scene suitable for the next utterance in the communication based on an utterance history of communication and an utterance model stored in the utterance model storage means ing.
(11) 本発明は、コミュニケーションに利用するコンテンツとして、発話を含むマルチメディアコンテンツから当該コミュニケーションに適したシーンを提供するコミュニケーションサービス提供装置におけるコミュニケーションサービス提供方法をコンピュータに実行させるためのプログラムであって、前記コミュニケーションサービス提供装置は、発話シーン抽出手段、発話学習手段、発話モデル記憶手段、前記コミュニケーションの発話履歴を記憶するコミュニケーション履歴記憶手段、および次発話シーン推定手段を備え、前記発話シーン抽出手段が、前記発話を含むマルチメディアコンテンツを、一発話単位に発話シーンとして切り分け、発話テキストを抽出する第1のステップと、前記発話学習手段が、前記第1のステップで抽出した発話テキストの系列をコミュニケーションのシークエンスとして、コンテンツ上のある区間の発話テキストの系列を状態シーケンスとして、前記区間の次の発話シーンを行動ノードとして、前記状態シーケンスから前記行動ノードへのマップを発話モデルとして学習する第2のステップと、前記発話モデル記憶手段が、前記第2のステップで学習した発話モデルを記憶する第3のステップと、前記次発話シーン推定手段が、前記コミュニケーション履歴記憶手段に記憶されている前記コミュニケーションの発話履歴と前記発話モデル記憶手段に記憶されている発話モデルとに基づいて、前記コミュニケーションにおける次発話に適した発話シーンを推定する第4のステップと、をコンピュータに実行させるためのプログラムを提案している。 (11) The present invention is a program for causing a computer to execute a communication service providing method in a communication service providing apparatus that provides a scene suitable for communication from multimedia content including speech as content used for communication. The communication service providing apparatus includes utterance scene extraction means, utterance learning means, utterance model storage means, communication history storage means for storing the communication utterance history, and next utterance scene estimation means, and the utterance scene extraction means includes The first step of dividing the multimedia content including the utterance as an utterance scene for each utterance and extracting the utterance text, and the utterance learning means includes the first step. The extracted sequence of utterance texts is used as a communication sequence, the sequence of utterance texts in a certain section on the content as a state sequence, the next utterance scene in the section as an action node, and a map from the state sequence to the action node. A second step of learning as an utterance model; a third step of storing the utterance model learned in the second step by the utterance model storage means; and a next utterance scene estimating means of the communication history storage means. A fourth step of estimating an utterance scene suitable for the next utterance in the communication based on the utterance history of the communication stored in the utterance and the utterance model stored in the utterance model storage means; Propose a program to run ing.
本発明によれば、コミュニケーションにおける次の発話に適したシーンを、発話を含むマルチメディアコンテンツから推定することができる。 According to the present invention, a scene suitable for the next utterance in communication can be estimated from multimedia contents including the utterance.
以下、図面を用いて、本発明の実施形態について詳細に説明する。なお、本実施形態における構成要素は適宜、既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組み合わせを含む様々なバリエーションが可能である。したがって、本実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. Note that the constituent elements in the present embodiment can be appropriately replaced with existing constituent elements and the like, and various variations including combinations with other existing constituent elements are possible. Therefore, the description of the present embodiment does not limit the contents of the invention described in the claims.
<第1の実施形態>
<コミュニケーションサービス提供装置の構成>
図1は、本発明の第1の実施形態に係るコミュニケーションサービス提供装置100の構成を示す図である。本実施形態に係るコミュニケーションサービス提供装置100は、発話を含むマルチメディアコンテンツ(以下、簡略化のためコンテンツという)の各シーンの発話から作成した発話モデルに基づいて、コミュニケーションにおける次発話に適したシーンをコンテンツの各シーンの中から推定する装置である。
<First Embodiment>
<Configuration of communication service providing device>
FIG. 1 is a diagram illustrating a configuration of a communication
なお、ここで、コミュニケーションとは、ネットワークを介して行われるコミュニケーションであって、例えば、LINE(登録商標)、Twitter(登録商標)、Facebook(登録商標)等である。また、本実施形態においてコミュニケーションサービス提供装置100は、ユーザ端末やコミュニケーションサービスを提供するサーバから独立した装置とするが、ユーザ端末やサーバがその機能を備えることにより実現してもよい。
Here, communication is communication performed via a network, and is, for example, LINE (registered trademark), Twitter (registered trademark), Facebook (registered trademark), or the like. Further, in the present embodiment, the communication
コミュニケーションサービス提供装置100は、コミュニケーションにおける次発話に適すると推定したシーンを、コミュニケーションを行うユーザに提供することができ、ユーザはコンテンツのシーンをコミュニケーションに容易に利用することが可能となる。また、ユーザに提示されるシーンが予め絞り込まれているので、ユーザはシーンの選択が容易になり、その結果、スムーズなコミュニケーションが可能となる。
The communication
図1に示すように、本実施形態に係るコミュニケーションサービス提供装置100は、発話シーン抽出部110、発話学習部120、発話モデル記憶部130、コミュニケーション履歴記憶部140、次発話シーン推定部150、絞り込み部160、および認証部170から構成される。
As shown in FIG. 1, the communication
発話シーン抽出部110は、発話を含むコンテンツを1発話単位に発話シーンとして切り分け、切り分けた発話シーンから発話テキストを抽出する。ここで、発話を含むコンテンツとは、発話を含む画像からなるコンテンツであって、例えば、映像コンテンツや漫画コンテンツである。また、映像コンテンツとは、映画、アニメーション、ドラマ等である。
The utterance
具体的には、発話シーン抽出部110は、コンテンツが映像コンテンツの場合には、発話毎に、発話時の画像を1発話シーンとして切り分け、切り分けた発話シーンに対応する発話をテキストに変換する。また、漫画コンテンツの場合には、特許文献1に記載の技術を用いて、1コマを1発話シーンとして切り分け、切り分けた発話シーンから発話テキストを抽出する。
Specifically, when the content is video content, the utterance
ここで、非特許文献2に代表されるような既存の対話システムにおいては、言いよどみや言い直しといった話し言葉、および擬音やフィラーといった効果音は、無意味な発話として、発話テキストには含めていなかった。しかし、本発明においては、話し言葉および効果音も発話テキストに含める。話し言葉および効果音によって感情や発話シーンの状況を表すことができるので、コミュニケーションに適した発話シーンを推定する際に意味を持つからである。
Here, in the existing dialogue system represented by
発話シーン抽出部110が、発話シーンに切り分け、発話シーンから発話テキストを抽出するコンテンツは、コミュニケーションの次発話に適した発話シーンを推定するに用いる発話モデルを作成する際に、ネットワークを介してコンテンツサーバから任意または所定の条件で取得したコンテンツや、コミュニケーションサービス提供装置100の管理者等から入力されたコンテンツである。
The content from which the utterance
発話学習部120は、発話シーン抽出部110で抽出した発話テキストを、抽出元の発話シーンの時系列順に並べた列を発話のシークエンスとして扱い、コンテンツ上のある区間の発話シーンから抽出された発話テキストの系列を状態シーケンスとして、ある区間の次の発話シーンを行動ノードとして、状態シーケンスから行動ノードへのマップを発話モデルとして学習する。
The
あるコンテンツについて、発話シーンの時系列がA、B、C、Dであって、各発話シーンの発話テキストが順にa、b、c、dである場合には、例えば、発話モデルはa→b→c→Dで表すことができる。 For a certain content, when the time series of utterance scenes are A, B, C, and D, and the utterance texts of each utterance scene are a, b, c, and d in order, for example, the utterance model is a → b → c → D.
発話モデル記憶部130は、発話学習部120で生成された発話モデルを記憶する。なお、発話モデルは、各コンテンツについて1つずつ作成されてもよいし、ユーザの利用頻度が高い複数のコンテンツや任意の複数のコンテンツから1つ作成されてもよい。また、発話モデルは、定期的に作成されてもよいし、コミュニケーションサービス提供装置100の管理者等の指示に応じて作成されてもよい。
The utterance
コミュニケーション履歴記憶部140は、コミュニケーションを行っている1以上のユーザの発話履歴を記憶する。具体的には、発話をしたユーザを識別するユーザ識別情報とユーザの発話のテキストとを対応付けて、コミュニケーション毎に記憶する。なお、発話履歴記憶部330は、ユーザが発話を行う毎にコミュニケーションが行われているサーバから取得して記憶してもよいし、コミュニケーションが行われているサーバを介してユーザから発話シーンの提供依頼があった際に、そのサーバが蓄積している発話履歴を取得して記憶してもよい。このとき、同じ1以上のユーザが行った過去の発話履歴を取得してもよい。
The communication
次発話シーン推定部150は、コミュニケーションにおける次発話に適した発話シーンを、コミュニケーションにおけるそれまでの発話履歴を記憶しているコミュニケーション履歴記憶部140と発話モデルを記憶している発話モデル記憶部130とに基づいて、推定する。なお、次発話シーン推定部150は、次発話シーン要求を受け付けたことに応じて、コミュニケーションにおける次発話に適した発話シーンを推定する。ここで、次発話シーン要求は、ユーザが自発的に行ってもよいし、一のユーザの発話が終わったことに応じて自動的にされてもよい。
The next utterance
コミュニケーションにおける次発話に適したシーンの推定方法としては、例えば、コミュニケーションにおけるそれまでの発話履歴と発話モデルの発話テキストとの単語のマッチングにより直前の発話に適した発話シーンを推定し、直前の発話に適すると推定された発話シーンの次シーンを次発話に適したシーンとして推定する方法がある。具体的は、各シーンとその前後のシーンに含まれる発話テキストから単語を抽出し、直前の発話テキストとマッチする単語が多いシーンの次シーンを次発話に適したシーンとして推定する。なお、直前の発話は1つとは限らず、直前の2つの発話や3つの発話であってもよい。 As a method of estimating a scene suitable for the next utterance in communication, for example, an utterance scene suitable for the immediately preceding utterance is estimated by matching words between the utterance history so far in communication and the utterance text of the utterance model, and the immediately preceding utterance is estimated. There is a method for estimating the next scene of the utterance scene estimated to be suitable for the next utterance as a scene suitable for the next utterance. Specifically, words are extracted from utterance texts included in each scene and the preceding and following scenes, and the next scene of a scene with many words that match the immediately preceding utterance text is estimated as a scene suitable for the next utterance. Note that the immediately preceding utterance is not limited to one, but may be two immediately preceding utterances or three utterances.
次発話シーン推定部150は、発話モデルとコミュニケーションにおけるそれまでの発話履歴とを利用して、次発話に適した発話シーンを推定することにより、直前の発話が同じであってもそれまでのコミュニケーションの流れが異なる場合には、コミュニケーションの流れに適した異なる発話シーンを推定することが可能となる。また、発話学習部120で、非特許文献2に提案されている技術を用いて、コンテンツのキャラクタ間の発話のやりとりから発話モデルを学習すると、次発話シーン推定部150は、複数ターンからなるコミュニケーションに対しても次発話に適した発話シーンを推定することが可能となる。
The next utterance
次発話シーン推定部150で、コミュニケーションにおける次発話に適すると推定された発話シーンを、コミュニケーションを行っているユーザに提供することにより、ユーザは次発話に合った発話シーンを容易に利用することができ、発話シーンを利用したスムーズなコミュニケーションが可能となる。
By providing the user who is performing communication with the utterance scene that is estimated to be suitable for the next utterance in communication by the next utterance
絞り込み部160は、次発話シーン推定部150で複数の発話シーンが推定された場合に、ユーザから受け付けたテキストに基づいて画像検索を行い、次発話シーンとしてユーザに提供する発話シーンの絞り込みを行う。それにより、ユーザに提供される発話シーンの数を絞り込むことができ、よりスムーズなコミュニケーションが可能になる。絞り込み部160が行う画像検索としては、例えば、非特許文献1に記載の技術を用いることができる。
When the next utterance
なお、ユーザが次発話を行う前に次発話のキーワード等を入力することによって、ユーザに提供する発話シーンの絞り込みを行ってもよいし、ユーザが次発話の文字を入力する毎に発話シーンの候補の絞り込みを行ってもよい。 The user may narrow down the utterance scene to be provided to the user by inputting a keyword or the like of the next utterance before the user utters the next utterance, or every time the user inputs the character of the next utterance. Candidates may be narrowed down.
認証部170は、次発話シーン推定部150で推定された発話シーンの中から、コミュニケーションを行っているユーザが選択した発話シーンの権利を、ユーザが有するか否かの認証を行う。認証部170は、認証できた場合には、コミュニケーションを行っている他のユーザにユーザが選択した発話シーンを送信し、一方、認証できなかった場合には、権利を有さない旨や権利の購入を促す通知等を行う。
The
本発明では、コンテンツ全体だけでなく、発話シーン単位やチャプタ単位等によってコンテンツを細分化した一部についても権利を定義することができるものとする。それにより、必要な部分だけの権利取得が可能となり、ユーザの要望に柔軟に対応することが可能となる。 In the present invention, it is possible to define rights not only for the entire content, but also for a part of the content that is subdivided in units of utterance scenes, chapters, or the like. As a result, it is possible to acquire rights only for necessary portions, and it is possible to flexibly respond to user requests.
図2を用いて、認証部170による発話シーンの認証例について説明する。なお、本説明において、コミュニケーションサービスを提供するサービスサーバがコミュニケーションサービス提供装置100の機能を備えているとする。
An example of authentication of an utterance scene by the
(a)は、次発話シーンとして、サービスサーバが提供している発話シーン、または、発話シーンを含むチャプタやコンテンツを利用する場合の認証方法である。 (A) is an authentication method when the utterance scene provided by the service server, or a chapter or content including the utterance scene is used as the next utterance scene.
まず、サービスサーバは、次発話シーン推定部150で推定された発話シーンの中から、発話ユーザから次発話シーンとして利用する発話シーンの選択を受け付ける。次に、サービスサーバは、ユーザが選択した発話シーン、または、その発話シーンを含むチャプタやコンテンツのコンテンツ識別情報、発話ユーザおよび受話ユーザの少なくとも一方のユーザ識別情報等をコンテンツホルダーに送付する。次に、コンテンツホルダーは、サービスサーバから受信した情報に基づいて、ユーザが選択した発話シーン、または、その発話シーンを含むチャプタやコンテンツの権利情報をサービスサーバに送信する。
First, the service server accepts selection of an utterance scene to be used as the next utterance scene from the utterance user from the utterance scenes estimated by the next utterance
そして、サービスサーバは、コンテンツホルダーから受信した権利情報に基づいて、発話ユーザが選択した発話シーンの権利を有しているか否かを判断する。発話ユーザが選択した発話シーンの権利を有している場合には、受話ユーザに発話シーンを送信する。一方、発話ユーザが選択した発話シーンの権利を有していない場合には、サービスサーバは、権利購入に必要な料金を発話ユーザに請求し、発話ユーザから支払われたことに応じて、サービスサーバは、受話ユーザに発話シーンを送信する。併せて、サービスサーバは、料金の支払いがあった発話シーンの権利情報をコンテンツホルダーに送信する。 Then, the service server determines whether or not the user has the right of the utterance scene selected by the utterance user based on the right information received from the content holder. When the utterance user has the right of the selected utterance scene, the utterance scene is transmitted to the receiving user. On the other hand, when the utterance user does not have the right of the selected utterance scene, the service server charges the utterance user for a fee necessary for purchasing the right, and in response to the payment from the utterance user, the service server Transmits the utterance scene to the receiving user. At the same time, the service server transmits the right information of the utterance scene for which the fee has been paid to the content holder.
(b)は、発話ユーザの端末に権利を保有している、発話シーン、または、発話シーンを含むチャプタやコンテンツを利用する場合の認証方法である。 (B) is an authentication method in the case of using an utterance scene or a chapter or content including the utterance scene, which has a right in the terminal of the utterance user.
まず、発話ユーザのユーザ端末は、次発話シーン推定部150で推定された発話シーンの中から発話ユーザが選択した発話シーンの権利を自端末に保持している場合には、保持するDRM情報、発話ユーザおよび受話ユーザの少なくとも一方のユーザ識別情報等をサービスサーバに送信する。次に、サービスサーバは、受信したDRM情報、発話ユーザおよび受話ユーザの識別情報等をコンテンツホルダーに送信する。次に、コンテンツホルダーは、サービスサーバから受信した情報に基づいて、ユーザが選択した発話シーン、または、その発話シーンを含むチャプタやコンテンツの権利情報をサービスサーバに送信する。
First, if the user terminal of the utterance user holds the right of the utterance scene selected by the utterance user from the utterance scenes estimated by the next utterance
次に、サービスサーバは、コンテンツホルダーから受信した権利情報に基づいて、ユーザが選択した発話シーンについて、発話ユーザが受話ユーザに送信するのに必要な権利を有しているか否かを判断する。発話ユーザが選択した発話シーンについて必要な権利を有している場合には、受話ユーザに発話シーンを送信する。一方、発話ユーザが選択した発話シーンについて必要な権利を有していない場合には、サービスサーバは、権利購入に必要な料金を発話ユーザに請求し、発話ユーザから支払われたことに応じて、サービスサーバは、受話ユーザに発話シーンを送信する。併せて、サービスサーバは、料金の支払いがあった発話シーンの権利情報をコンテンツホルダーに送信する。 Next, based on the right information received from the content holder, the service server determines whether or not the utterance user has a right necessary to transmit to the receiving user for the utterance scene selected by the user. If the utterance user has the necessary right for the utterance scene selected, the utterance scene is transmitted to the receiving user. On the other hand, if the utterance user does not have the necessary rights for the utterance scene selected, the service server charges the utterance user for the fee necessary for right purchase, and in response to payment from the utterance user, The service server transmits the utterance scene to the receiving user. At the same time, the service server transmits the right information of the utterance scene for which the fee has been paid to the content holder.
なお、コミュニケーションサービス提供装置100に認証部170を備えず、次発話シーン推定部150で推定された発話シーンの中から発話ユーザが選択した発話シーンの権利の認証を既存のシステムを用いて行ってもよい。既存のシステムにて、発話ユーザが選択した発話シーンの権利の認証が行われるとコンテンツホルダーからサービスサーバにコンテンツが送信され、サービスサーバは、受信したコンテンツを受話ユーザにコンテンツを送信する。
Note that the communication
<コミュニケーションサービス処理フロー>
本発明の第1の実施形態に係るコミュニケーションサービス処理は、発話モデル作成処理と、次発話シーン推定処理とからなる。図3は、本発明の第1の実施形態に係る発話モデル作成処理フローを示す図である。
<Communication service processing flow>
The communication service process according to the first embodiment of the present invention includes an utterance model creation process and a next utterance scene estimation process. FIG. 3 is a diagram showing an utterance model creation processing flow according to the first embodiment of the present invention.
まず、ステップS1において、発話シーン抽出部110が、コンテンツを1発話単位に発話シーンに切り分ける。
First, in step S1, the utterance
次に、ステップS2において、発話シーン抽出部110が、ステップS1で切り分けられた発話シーンから発話テキストを抽出する。
Next, in step S2, the utterance
次にステップS3において、発話シーン抽出部110が、ステップS1で切り分けた全ての発話シーンから発話テキストを抽出したか否か判断する。全ての発話シーンから発話テキストを抽出した場合(YES)には、ステップS4に処理を進め、全ての発話シーンから発話テキストを抽出していない場合(NO)には、ステップS2に処理を戻す。
Next, in step S3, the utterance
次に、ステップS4において、ステップS1で切り分けられた発話シーンと、ステップS2で抽出された発話テキストから発話モデルを学習する。 Next, in step S4, an utterance model is learned from the utterance scene cut out in step S1 and the utterance text extracted in step S2.
次に、ステップS5において、ステップS4で学習した発話モデルを発話モデル記憶部130に記憶する。
Next, in step S5, the utterance model learned in step S4 is stored in the utterance
図4は、本発明の第1の実施形態に係る次発話シーン推定処理フローを示す図である。 FIG. 4 is a diagram showing a next utterance scene estimation processing flow according to the first embodiment of the present invention.
まず、ステップS11において、次発話シーン推定部150が、コミュニケーション履歴記憶部140からコミュニケーションにおける発話履歴を取得する。
First, in step S <b> 11, the next utterance
次に、ステップS12において、次発話シーン推定部150が、発話モデル記憶部130から発話モデルを取得する。
Next, in step S <b> 12, the next utterance
次に、ステップS13において、次発話シーン推定部150が、ステップS11で取得した発話履歴と、ステップS12で取得した発話モデルとに基づいて、コミュニケーションにおける次発話に適した発話シーンを推定する。
Next, in step S13, the next utterance
以上、説明したように、本実施形態によれば、コミュニケーションにおける次の発話に適したシーンを、発話を含むマルチメディアコンテンツから学習した発話モデルとコミュニケーションの発話履歴とに基づいて、推定することができる。その結果、コミュニケーションにおける次発話に適すると推定された発話シーンを、コミュニケーションを行っているユーザに提供することにより、ユーザは次発話に合った発話シーンを容易に利用することができ、発話シーンを利用したスムーズなコミュニケーションが可能となる。 As described above, according to the present embodiment, a scene suitable for the next utterance in communication can be estimated based on the utterance model learned from multimedia content including the utterance and the utterance history of communication. it can. As a result, the user can easily use the utterance scene suitable for the next utterance by providing the utterance scene estimated to be suitable for the next utterance in the communication to the user who is performing the communication. Smooth communication is possible.
<第2の実施形態>
図5を用いて、本発明の第2の実施形態について説明する。なお、本実施形態におけるコミュニケーションサービス提供装置は、発話シーンの属性情報に基づいて、コミュニケーションのおける次発話シーンを推定する。なお、第1の実施形態と同一の符号を付す構成要素については、同一の機能を有することから、その詳細な説明は省略する。
<Second Embodiment>
A second embodiment of the present invention will be described with reference to FIG. Note that the communication service providing apparatus according to the present embodiment estimates the next utterance scene in which communication is possible based on the attribute information of the utterance scene. In addition, about the component which attaches | subjects the same code | symbol as 1st Embodiment, since it has the same function, the detailed description is abbreviate | omitted.
<コミュニケーションサービス提供装置の構成>
図5は、本発明の第2の実施形態に係るコミュニケーションサービス提供装置200の構成を示す図である。図5に示すように、本実施形態において、コミュニケーションサービス提供装置200は、発話シーン抽出部110、タグ付与部210、タグ記憶部220、発話学習部121、発話モデル記憶部130、コミュニケーション履歴記憶部140、次発話シーンタグ推定部230、および同タグシーン検索部240から構成される。
<Configuration of communication service providing device>
FIG. 5 is a diagram showing a configuration of a communication
タグ付与部210は、発話シーン抽出部110で抽出された各発話シーンに対し、各発話シーンの属性情報をタグとして付与する。ここで、各発話シーンの属性情報には、発話シーンの発話テキスト、発話シーンに登場するキャラクタの感情、発話シーンの構成要素を少なくとも含む。また、発話シーンの構成要素とは、ストーリーの段階(例えば、起承転結のいずれか)、登場しているキャラクタ、キャラクタの位置やサイズといった画面構成、学校や海辺といった背景である。属性情報は、発話シーンの画像解析等により自動的に取得してもよいし、発話シーンから人手により取得してもよい。
The
タグ記憶部220は、発話シーン抽出部110で抽出された各発話シーンに対応付けて、タグ付与部210で各発話シーンに付与されたタグを記憶する。
The
発話学習部121は、コンテンツ上のある区間の発話シーンの時系列に対応する、タグ付与部210で付与されたタグの時系列を状態タグシーケンス、区間の次の発話シーンに付与されたタグを行動タグノードとして、状態タグシーケンスから行動タグノードへのマップを発話モデルとして学習する。
The
次発話シーンタグ推定部230は、コミュニケーションにおける次発話に適したシーンに付与されるタグを、コミュニケーションにおけるそれまでの発話履歴を記憶している発話履歴記憶部330と発話モデルを記憶している発話モデル記憶部130とに基づいて、推定する。なお、次発話シーン推定部150は、発話シーン要求を受け付けたことに応じて、コミュニケーションにおける次発話に適したシーンを推定する。ここで、発話シーン要求は、ユーザが自発的に行ってもよいし、一のユーザの発話が終わったことに応じて自動的にされてもよい。
The next utterance scene
同タグシーン検索部240は、次発話シーンタグ推定部230で推定されたタグと一致するタグを、タグ記憶部220に記憶されているタグから検索する。そして、同タグシーン検索部240は、検索されたタグが付与されている発話シーンを次発話に適した発話シーンとして推定する。それにより、コミュニケーションにおける次発話に適する発話シーンを、発話シーンの属性情報のタグから推定することができる。
The tag
以上、説明したように、本実施形態によれば、コミュニケーションにおける次発話に適する発話シーンを、発話シーンの属性情報から推定する。それにより、属性情報は発話シーンを抽象化した情報であるので、コミュニケーションの流れに最も合っている発話シーンだけでなく、だいたい合っている発話シーンも次発話に適した発話シーンとして推定することができる。その結果、ユーザの予想と異なる発話シーンも提供され、コミュニケーションに用いる発話シーンの選択肢の幅を広げることができる。 As described above, according to the present embodiment, the utterance scene suitable for the next utterance in communication is estimated from the attribute information of the utterance scene. As a result, since the attribute information is information that abstracts the utterance scene, it is possible to estimate not only the utterance scene that best matches the flow of communication, but also the utterance scene that roughly matches as the utterance scene suitable for the next utterance. it can. As a result, an utterance scene different from the user's expectation is also provided, and the range of utterance scene choices used for communication can be expanded.
<第3の実施形態>
図6を用いて、本発明の第3の実施形態について説明する。なお、本実施形態におけるコミュニケーションサービス提供装置は、複数の発話モデルの中から、特定のコンテンツから生成された発話モデルを選択し、選択した発話モデルから次発話シーンを推定する。なお、第1の実施形態と同一の符号を付す構成要素については、同一の機能を有することから、その詳細な説明は省略する。
<Third Embodiment>
A third embodiment of the present invention will be described with reference to FIG. Note that the communication service providing apparatus according to the present embodiment selects an utterance model generated from specific content from a plurality of utterance models, and estimates a next utterance scene from the selected utterance model. In addition, about the component which attaches | subjects the same code | symbol as 1st Embodiment, since it has the same function, the detailed description is abbreviate | omitted.
<コミュニケーションサービス提供装置の構成>
図6は、本発明の第3の実施形態に係るコミュニケーションサービス提供装置300の構成を示す図である。図6に示すように、本実施形態において、コミュニケーションサービス提供装置300は、発話シーン抽出部110、発話学習部122、発話モデル記憶部132、利用履歴記憶部310、コンテンツ履歴ベクトル生成部320、発話履歴記憶部330、発話履歴ベクトル生成部340、類似ユーザ抽出部350、コンテンツ候補抽出部360、発話モデル選択部370、および次発話シーン推定部152から構成される。
<Configuration of communication service providing device>
FIG. 6 is a diagram illustrating a configuration of a communication
発話学習部122は、コンテンツ毎に、発話シーン抽出部110で抽出した発話テキストを、抽出元の発話シーンの時系列順に並べた列を発話のシークエンスとして扱い、コンテンツ上のある区間の発話シーンから抽出された発話テキストの系列を状態シーケンスとして、ある区間の次の発話シーンを行動ノードとして、状態シーケンスから行動ノードへのマップを発話モデルとして学習する。
The
発話モデル記憶部132は、発話学習部122で生成されたコンテンツ毎の発話モデルを、コンテンツ毎に記憶する。なお、発話モデルは、定期的に作成されてもよいし、コミュニケーションサービス提供装置300の管理者等の指示に応じて作成されてもよい。
The utterance
利用履歴記憶部310は、ユーザ毎に、ユーザが利用したコンテンツの履歴を記憶する。利用履歴記憶部310は、例えば、ユーザの識別情報に対応付けてコンテンツの識別情報と利用回数とを記憶している。
The usage
コンテンツ履歴ベクトル生成部320は、利用履歴記憶部310に記憶されている履歴に基づいて、各コンテンツを基底とし各コンテンツの利用回数を係数とするコンテンツ履歴ベクトルを、ユーザ毎に生成する。コンテンツ履歴ベクトルは(1)式で表すことができる。
Based on the history stored in the usage
発話履歴記憶部330は、ユーザ毎に発話履歴を記憶する。具体的には、発話履歴記憶部330は、ユーザの識別情報に対応付けて、ユーザが過去に行ったコミュニケーションにおける発話を記憶している。
The utterance
発話履歴ベクトル生成部340は、発話履歴記憶部330に記憶されている発話履歴に基づいて、各単語を基底とし各単語の出現頻度を係数とする発話履歴ベクトルを、ユーザ毎に生成する。発話履歴ベクトルは(2)式で表すことができる。
Based on the utterance history stored in the utterance
類似ユーザ抽出部350は、コンテンツ履歴ベクトル生成部320で生成されたコンテンツ履歴ベクトルに基づいて、コミュニケーションを行っているユーザとの距離が小さいユーザを類似ユーザとして抽出する。具体的には、(3)式により、他ユーザとの類似度を算出し、最も類似度の小さいユーザをコンテンツ類似ユーザとする。
Based on the content history vector generated by the content history
また、類似ユーザ抽出部350は、発話履歴ベクトル生成部340で生成された発話履歴ベクトルに基づいて、コミュニケーションを行っているユーザとの距離が小さいユーザを類似ユーザとして抽出する。具体的には、発話履歴ベクトルに基づいて類似ユーザを抽出する場合と同様に(3)式により、他ユーザとの類似度を算出し、最も類似度の小さいユーザを発話類似ユーザとする。
Also, the similar
コンテンツ候補抽出部360は、コミュニケーションを行っているユーザについて、利用履歴記憶部310に記憶されている履歴からコンテンツ候補を抽出する。具体的には、コンテンツ候補抽出部360は利用履歴記憶部310に記憶されている履歴に基づいて、コミュニケーションを行っているユーザの利用頻度が高いコンテンツを抽出する。
The content
また、コンテンツ候補抽出部360は、類似ユーザ抽出部350により求められたコンテンツ類似ユーザに基づいて、利用履歴記憶部310に記憶されている履歴からコンテンツ候補を抽出する。具体的には、コンテンツ候補抽出部360は利用履歴記憶部310に記憶されている履歴に基づいて、コンテンツ類似ユーザの利用頻度が高いコンテンツを抽出する。
Further, the content
更に、コンテンツ候補抽出部360は、類似ユーザ抽出部350により求められた発話類似ユーザに基づいて、利用履歴記憶部310に記憶されている履歴からコンテンツ候補を抽出する。具体的には、コンテンツ候補抽出部360は利用履歴記憶部310に記憶されている履歴に基づいて、発話類似ユーザの利用頻度が高いコンテンツを抽出する。
Further, the content
発話モデル選択部370は、発話モデル記憶部130に記憶された複数の発話モデルから、コンテンツ候補抽出部360で抽出されたコンテンツ候補に対応付けて記憶されている発話モデルを選択する。
The utterance
次発話シーン推定部152は、コミュニケーションにおける次発話に適した発話シーンを、コミュニケーションにおけるそれまでの発話履歴を記憶している発話履歴記憶部330と、発話モデル選択部370で選択された発話モデルを記憶している発話モデル記憶部130とに基づいて、推定する。なお、次発話シーン推定部152は、発話シーン要求を受け付けたことに応じて、コミュニケーションにおける次発話に適した発話シーンを推定する。ここで、発話シーン要求は、ユーザが自発的に行ってもよいし、一のユーザの発話が終わったことに応じて自動的にされてもよい。コミュニケーションにおける次発話に適したシーンの推定方法については、第1の実施形態と同様である。
The next utterance
以上、説明したように、本実施形態によれば、ユーザが良く利用するコンテンツはユーザが好むコンテンツであって、コミュニケーションに利用する可能性が高い。そのため、ユーザが良く利用するコンテンツから学習された発話モデルを次発話シーンの推定に用いることで、ユーザが良く利用するコンテンツに含まれる発話シーンを次発話に適した発話シーンとしてユーザに提示でき、次発話に適した発話シーンの推定精度を向上させることができる。 As described above, according to the present embodiment, the content that is frequently used by the user is the content that the user likes, and is likely to be used for communication. Therefore, by using the utterance model learned from the content frequently used by the user for estimation of the next utterance scene, the utterance scene included in the content frequently used by the user can be presented to the user as an utterance scene suitable for the next utterance, The estimation accuracy of the utterance scene suitable for the next utterance can be improved.
また、利用しているコンテンツや発話がユーザと類似する類似ユーザが良く利用するコンテンツから学習された発話モデルを次発話シーンの推定に用いることで、ユーザが利用していないコンテンツや利用頻度の少ないが、ユーザの好みに合うと推定されるコンテンツに含まれる発話シーンを次発話に適した発話シーンとしてユーザに提示できるので、ユーザの予想と異なる発話シーンも提供され、ユーザの選択肢の幅を広げることができる。 In addition, by using an utterance model learned from content frequently used by similar users whose content and utterances are similar to the user for estimating the next utterance scene, content not used by the user and less frequently used However, since the utterance scene included in the content estimated to meet the user's preference can be presented to the user as the utterance scene suitable for the next utterance, an utterance scene different from the user's expectation is also provided, and the range of options of the user is expanded. be able to.
なお、コミュニケーションサービス提供装置の処理をコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録されたプログラムを機器に読み込ませ、実行することによって本発明のコミュニケーションサービス提供装置を実現することができる。ここでいうコンピュータシステムとは、OSや周辺装置等のハードウェアを含む。 Note that the communication service providing apparatus of the present invention can be realized by recording the processing of the communication service providing apparatus on a computer-readable recording medium, causing the device to read and execute the program recorded on the recording medium. . The computer system here includes an OS and hardware such as peripheral devices.
また、「コンピュータシステム」は、WWW(World Wide Web)システムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。 Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW (World Wide Web) system is used. The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line.
また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。更に、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。 The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, what is called a difference file (difference program) may be sufficient.
以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 The embodiments of the present invention have been described in detail with reference to the drawings. However, the specific configuration is not limited to the embodiments, and includes designs and the like that do not depart from the gist of the present invention.
100 コミュニケーションサービス提供装置
110 発話シーン抽出部
120 発話学習部
130 発話モデル記憶部
140 コミュニケーション履歴記憶部
150 次発話シーン推定部
160 絞り込み部
170 認証部
DESCRIPTION OF
Claims (11)
前記発話を含むマルチメディアコンテンツを、一発話単位に発話シーンとして切り分け、発話テキストを抽出する発話シーン抽出手段と、
前記発話シーン抽出手段で抽出した発話テキストの系列をコミュニケーションのシークエンスとして、コンテンツ上のある区間の発話テキストの系列を状態シーケンスとして、前記区間の次の発話シーンを行動ノードとして、前記状態シーケンスから前記行動ノードへのマップを発話モデルとして学習する発話学習手段と、
前記発話学習手段で学習した発話モデルを記憶する発話モデル記憶手段と、
前記コミュニケーションの発話履歴を記憶するコミュニケーション履歴記憶手段と、
前記コミュニケーション履歴記憶手段に記憶されている前記コミュニケーションの発話履歴と前記発話モデル記憶手段に記憶されている発話モデルとに基づいて、前記コミュニケーションにおける次発話に適した発話シーンを推定する次発話シーン推定手段と、
を備えるコミュニケーションサービス提供装置。 In a communication service providing apparatus that provides a scene suitable for communication from multimedia content including speech as content used for communication,
The multimedia content including the utterance is segmented as an utterance scene in one utterance unit, and an utterance scene extracting means for extracting an utterance text;
The sequence of utterance texts extracted by the utterance scene extraction means is used as a communication sequence, the sequence of utterance texts in a certain section on the content as a state sequence, the next utterance scene in the section as an action node, and the state sequence. An utterance learning means for learning a map to an action node as an utterance model;
Utterance model storage means for storing the utterance model learned by the utterance learning means;
Communication history storage means for storing the communication utterance history;
Next utterance scene estimation for estimating an utterance scene suitable for the next utterance in the communication based on the utterance history of the communication stored in the communication history storage means and the utterance model stored in the utterance model storage means Means,
A communication service providing apparatus comprising:
前記発話シーン抽出手段で抽出された各発話シーンに対応付けて、前記タグ付与手段で当該各発話シーンに付与されたタグを記憶するタグ記憶手段と、
を備え、
前記発話学習手段が、コンテンツ上のある区間の前記発話シーンの系列に対応する前記タグ付与手段で付与されたタグの系列を状態タグシーケンス、前記区間の次の発話シーンに付与されたタグを行動タグノードとして、状態タグシーケンスから行動タグノードへのマップを前記発話モデルとして学習し、
前記コミュニケーション履歴記憶手段に記憶されている前記コミュニケーションの発話履歴と前記発話モデル記憶手段に記憶されている発話モデルとに基づいて、前記コミュニケーションの次発話に適したシーンに付与されるタグを推定する次シーンタグ推定手段と、
前記次シーンタグ推定手段で推定されたタグと前記タグ記憶手段に記憶されているタグとに基づいて、前記次発話に適した発話シーンを検索する同タグシーン検索手段と、
を備えることを特徴とする請求項1に記載のコミュニケーションサービス提供装置。 Tag giving means for giving, as a tag, attribute information of each utterance scene to each utterance scene extracted by the utterance scene extracting means;
Tag storage means for storing a tag assigned to each utterance scene by the tag assignment means in association with each utterance scene extracted by the utterance scene extraction means;
With
The utterance learning means behaves with a tag series assigned by the tag assignment means corresponding to the utterance scene series in a certain section on the content as a state tag sequence, and a tag attached to the next utterance scene in the section. As a tag node, a map from a state tag sequence to an action tag node is learned as the utterance model,
Based on the utterance history of the communication stored in the communication history storage means and the utterance model stored in the utterance model storage means, a tag attached to a scene suitable for the next utterance of the communication is estimated. Next scene tag estimation means,
The tag scene search means for searching for an utterance scene suitable for the next utterance based on the tag estimated by the next scene tag estimation means and the tag stored in the tag storage means;
The communication service providing apparatus according to claim 1, further comprising:
前記発話モデル記憶手段が、前記コンテンツ毎に、前記発話学習手段で生成された発話モデルを記憶し、
ユーザ毎に、ユーザが利用したマルチメディアコンテンツの履歴を記憶する利用履歴記憶手段と、
前記コミュニケーションを行っているユーザについて、前記利用履歴記憶手段に記憶されている履歴からコンテンツ候補を抽出するコンテンツ候補抽出手段と、
前記発話モデル記憶手段に記憶された複数の発話モデルから、前記コンテンツ候補抽出手段で抽出されたコンテンツ候補に対応付けて記憶されている発話モデルを選択する発話モデル選択手段と、
を備え、
前記次発話シーン推定手段が、前記コミュニケーションの次発話に適したシーンを、前記発話モデル選択手段で選択された発話モデルの中から前記コミュニケーション履歴記憶手段に記憶されている当該コミュニケーションの発話履歴に基づいて、前記次発話に適した発話シーンを推定することを特徴とする請求項1から請求項4のいずれかに記載のコミュニケーションサービス提供装置。 For each content, the utterance learning means uses the utterance text sequence extracted by the utterance scene extraction means as a communication sequence, the utterance text sequence in a certain section on the content as a state sequence, and the next utterance scene in the section As an action node, learning a map from the state sequence to the action node as an utterance model,
The utterance model storage means stores the utterance model generated by the utterance learning means for each content,
Usage history storage means for storing a history of multimedia content used by the user for each user;
Content candidate extraction means for extracting content candidates from the history stored in the usage history storage means for the user performing the communication;
An utterance model selection means for selecting an utterance model stored in association with the content candidate extracted by the content candidate extraction means from a plurality of utterance models stored in the utterance model storage means;
With
The next utterance scene estimation unit is configured to select a scene suitable for the next utterance of the communication from the utterance model selected by the utterance model selection unit based on the utterance history of the communication stored in the communication history storage unit. The communication service providing apparatus according to claim 1, wherein an utterance scene suitable for the next utterance is estimated.
前記コンテンツ履歴ベクトル生成手段で生成されたコンテンツ履歴ベクトルに基づいて、前記コミュニケーションを行っているユーザとの距離が小さいユーザをコンテンツ類似ユーザとして抽出するコンテンツ類似ユーザ抽出手段と、
を備え、
前記コンテンツ候補抽出手段が、前記コンテンツ類似ユーザ抽出手段により求められた前記コンテンツ類似ユーザに基づいて、利用履歴記憶手段に記憶されている履歴からコンテンツ候補を抽出することを特徴とする請求項5に記載のコミュニケーションサービス提供装置。 Content history vector generation means for generating for each user a content history vector based on each multimedia content and based on the history stored in the use history storage means, with the number of uses of each multimedia content as a coefficient; ,
Content similar user extraction means for extracting, as a content similar user, a user having a small distance from the user performing communication based on the content history vector generated by the content history vector generation means;
With
6. The content candidate extracting unit extracts a content candidate from a history stored in a usage history storage unit based on the content similar user obtained by the content similar user extracting unit. The communication service providing apparatus described.
前記発話履歴記憶手段に記憶されている発話履歴に基づいて、各単語を基底とし当該各単語の出現頻度を係数とする発話履歴ベクトルを、ユーザ毎に生成する発話履歴ベクトル生成手段と、
前記発話履歴ベクトル生成手段で生成された発話履歴ベクトルに基づいて、前記コミュニケーションを行っているユーザとの距離が小さいユーザを発話類似ユーザとして抽出する発話類似ユーザ抽出手段と、
を備え、
前記コンテンツ候補抽出手段が、前記発話類似ユーザ抽出手段により求められた前記発話類似ユーザに基づいて、前記利用履歴記憶手段に記憶されている履歴からコンテンツ候補を抽出することを特徴とする請求項5または請求項6に記載のコミュニケーションサービス提供装置。 Utterance history storage means for storing the utterance history for each user;
Based on the utterance history stored in the utterance history storage means, an utterance history vector generation means for generating for each user an utterance history vector with each word as a base and an appearance frequency of each word as a coefficient;
Based on the utterance history vector generated by the utterance history vector generation means, an utterance similar user extraction means for extracting a user having a small distance from the user performing the communication as an utterance similar user;
With
6. The content candidate extracting unit extracts a content candidate from a history stored in the usage history storage unit based on the utterance similar user obtained by the utterance similar user extracting unit. Or the communication service provision apparatus of Claim 6.
前記認証手段で認証できた場合に、前記コミュニケーションを行っている他のユーザに前記ユーザが選択した発話シーンを送信することを特徴とする請求項1から請求項8のいずれかに記載のコミュニケーションサービス提供装置。 Authentication is performed as to whether or not the user has the right of the utterance scene selected by the user performing the communication from the utterance scenes estimated to be suitable for the next utterance in the communication by the next utterance scene estimation means. With authentication means,
The communication service according to any one of claims 1 to 8, wherein when the authentication unit can authenticate, the utterance scene selected by the user is transmitted to another user who is performing the communication. Providing device.
前記コミュニケーションサービス提供装置は、発話シーン抽出手段、発話学習手段、発話モデル記憶手段、前記コミュニケーションの発話履歴を記憶するコミュニケーション履歴記憶手段、および次発話シーン推定手段を備え、
前記発話シーン抽出手段が、前記発話を含むマルチメディアコンテンツを、一発話単位に発話シーンとして切り分け、発話テキストを抽出する第1のステップと、
前記発話学習手段が、前記第1のステップで抽出した発話テキストの系列をコミュニケーションのシークエンスとして、コンテンツ上のある区間の発話テキストの系列を状態シーケンスとして、前記区間の次の発話シーンを行動ノードとして、前記状態シーケンスから前記行動ノードへのマップを発話モデルとして学習する第2のステップと、
前記発話モデル記憶手段が、前記第2のステップで学習した発話モデルを記憶する第3のステップと、
前記次発話シーン推定手段が、前記コミュニケーション履歴記憶手段に記憶されている前記コミュニケーションの発話履歴と前記発話モデル記憶手段に記憶されている発話モデルとに基づいて、前記コミュニケーションにおける次発話に適した発話シーンを推定する第4のステップと、
を備えるコミュニケーションサービス提供方法。 A communication service providing method in a communication service providing apparatus that provides a scene suitable for communication from multimedia content including speech as content used for communication,
The communication service providing apparatus includes an utterance scene extraction means, an utterance learning means, an utterance model storage means, a communication history storage means for storing the utterance history of the communication, and a next utterance scene estimation means,
A first step in which the utterance scene extraction means separates the multimedia content including the utterance as an utterance scene into one utterance unit, and extracts an utterance text;
The utterance learning means uses the sequence of utterance texts extracted in the first step as a communication sequence, the sequence of utterance texts in a certain section on the content as a state sequence, and the next utterance scene in the section as an action node. A second step of learning a map from the state sequence to the action node as an utterance model;
A third step in which the utterance model storage means stores the utterance model learned in the second step;
The utterance suitable for the next utterance in the communication based on the utterance history of the communication stored in the communication history storage means and the utterance model stored in the utterance model storage means. A fourth step of estimating the scene;
A communication service providing method comprising:
前記コミュニケーションサービス提供装置は、発話シーン抽出手段、発話学習手段、発話モデル記憶手段、前記コミュニケーションの発話履歴を記憶するコミュニケーション履歴記憶手段、および次発話シーン推定手段を備え、
前記発話シーン抽出手段が、前記発話を含むマルチメディアコンテンツを、一発話単位に発話シーンとして切り分け、発話テキストを抽出する第1のステップと、
前記発話学習手段が、前記第1のステップで抽出した発話テキストの系列をコミュニケーションのシークエンスとして、コンテンツ上のある区間の発話テキストの系列を状態シーケンスとして、前記区間の次の発話シーンを行動ノードとして、前記状態シーケンスから前記行動ノードへのマップを発話モデルとして学習する第2のステップと、
前記発話モデル記憶手段が、前記第2のステップで学習した発話モデルを記憶する第3のステップと、
前記次発話シーン推定手段が、前記コミュニケーション履歴記憶手段に記憶されている前記コミュニケーションの発話履歴と前記発話モデル記憶手段に記憶されている発話モデルとに基づいて、前記コミュニケーションにおける次発話に適した発話シーンを推定する第4のステップと、
をコンピュータに実行させるためのプログラム。 A program for causing a computer to execute a communication service providing method in a communication service providing apparatus that provides a scene suitable for communication from multimedia content including an utterance as content used for communication,
The communication service providing apparatus includes an utterance scene extraction means, an utterance learning means, an utterance model storage means, a communication history storage means for storing the utterance history of the communication, and a next utterance scene estimation means,
A first step in which the utterance scene extraction means separates the multimedia content including the utterance as an utterance scene into one utterance unit, and extracts an utterance text;
The utterance learning means uses the sequence of utterance texts extracted in the first step as a communication sequence, the sequence of utterance texts in a certain section on the content as a state sequence, and the next utterance scene in the section as an action node. A second step of learning a map from the state sequence to the action node as an utterance model;
A third step in which the utterance model storage means stores the utterance model learned in the second step;
The utterance suitable for the next utterance in the communication based on the utterance history of the communication stored in the communication history storage means and the utterance model stored in the utterance model storage means. A fourth step of estimating the scene;
A program that causes a computer to execute.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013082179A JP6087704B2 (en) | 2013-04-10 | 2013-04-10 | Communication service providing apparatus, communication service providing method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013082179A JP6087704B2 (en) | 2013-04-10 | 2013-04-10 | Communication service providing apparatus, communication service providing method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014206773A JP2014206773A (en) | 2014-10-30 |
JP6087704B2 true JP6087704B2 (en) | 2017-03-01 |
Family
ID=52120303
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013082179A Active JP6087704B2 (en) | 2013-04-10 | 2013-04-10 | Communication service providing apparatus, communication service providing method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6087704B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111831875B (en) * | 2019-04-11 | 2024-05-31 | 阿里巴巴集团控股有限公司 | Data processing method, device, equipment and storage medium |
JP7105749B2 (en) * | 2019-09-27 | 2022-07-25 | Kddi株式会社 | Agent program, device and method for uttering text corresponding to character |
-
2013
- 2013-04-10 JP JP2013082179A patent/JP6087704B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014206773A (en) | 2014-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10586541B2 (en) | Communicating metadata that identifies a current speaker | |
KR101909807B1 (en) | Method and apparatus for inputting information | |
US10970334B2 (en) | Navigating video scenes using cognitive insights | |
CN107481720B (en) | Explicit voiceprint recognition method and device | |
CN104598644B (en) | Favorite label mining method and device | |
JP6734748B2 (en) | Computer-implemented method, computer system, and computer program product for selecting information source language of information source | |
CN104735468B (en) | A kind of method and system that image is synthesized to new video based on semantic analysis | |
US8972265B1 (en) | Multiple voices in audio content | |
JP6361351B2 (en) | Method, program and computing system for ranking spoken words | |
CN106462640B (en) | Contextual search of multimedia content | |
CN110720098B (en) | Adaptive interface in voice activated networks | |
WO2019137391A1 (en) | Method and apparatus for performing categorised matching of videos, and selection engine | |
CN107943914A (en) | Voice information processing method and device | |
CN108900612A (en) | Method and apparatus for pushed information | |
CN113806588A (en) | Method and device for searching video | |
WO2019085625A1 (en) | Emotion picture recommendation method and apparatus | |
US20100169318A1 (en) | Contextual representations from data streams | |
JP6087704B2 (en) | Communication service providing apparatus, communication service providing method, and program | |
CN111859970B (en) | Method, apparatus, device and medium for processing information | |
US11363352B2 (en) | Video content relationship mapping | |
KR102120748B1 (en) | Method and computer readable recording medium for providing bookmark search service stored with hierachical dialogue flow management model based on context | |
KR102251513B1 (en) | Method and apparatus for generating contents for learning based on celeb's social media information using machine learning | |
KR102120749B1 (en) | Method and computer readable recording medium for storing bookmark information to provide bookmark search service based on keyword | |
CN110502698B (en) | Information recommendation method, device, equipment and storage medium | |
CN117408252A (en) | Training method of entity link model, entity link method, electronic equipment and medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160202 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161108 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161122 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170131 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170202 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6087704 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |