JP3787623B2 - Conversation expression generation device and conversation expression generation program - Google Patents

Conversation expression generation device and conversation expression generation program Download PDF

Info

Publication number
JP3787623B2
JP3787623B2 JP2002265209A JP2002265209A JP3787623B2 JP 3787623 B2 JP3787623 B2 JP 3787623B2 JP 2002265209 A JP2002265209 A JP 2002265209A JP 2002265209 A JP2002265209 A JP 2002265209A JP 3787623 B2 JP3787623 B2 JP 3787623B2
Authority
JP
Japan
Prior art keywords
text
comment
conversation
sentence
monologue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002265209A
Other languages
Japanese (ja)
Other versions
JP2004102764A (en
Inventor
秀和 久保田
豊明 西田
耕二 山下
知宏 福原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2002265209A priority Critical patent/JP3787623B2/en
Publication of JP2004102764A publication Critical patent/JP2004102764A/en
Application granted granted Critical
Publication of JP3787623B2 publication Critical patent/JP3787623B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、モノローグ的な表現を元にして会話形式の表現を好適に生成し得る会話表現生成装置及びそのためのプログラムに関するものである。
【0002】
【従来の技術】
現在のところ、インターネット等の通信手段を介した情報提供の手段は、一部に画像を伴ったものはあるが、Webページ中の文章、電子メールやチャットや電子掲示板等の文字コミュニケーションが中心的である。特に、Webページ中の文章の多くは、単独の書き手が一方的に叙述するモノローグ的な文章であるといえる。また、電子メール等の文字コミュニケーションでは、一人の書き手(話者)の記述(発言)中に、他者が質問を差し挟むような対話(会話)の調整が、現実に対面して話し合う対面対話の場合よりも困難であるため、個々の発言は一般的に長く、発言毎に断片化されたモノローグ的な性質を有しているものと考えられる。このように、インターネット上には、モノローグ的な文章として蓄えられた情報が大量に存在しているのが現状である。しかしながら、モノローグ的な文章は、万人向けの情報提示手段ではなく、専門的なモノローグ的文章よりも、重要な部分を質問応答形式で表した会話形式の文章の方が一般的に親しみやすく、理解の度合いも高い傾向にある。ここで、会話形式の文章とは、インタビュー記事やテレビ番組の台本に代表されるように、複数の話し手が会話を積み重ねる形式の文章である、会話形式の文章は、モノローグ的な文章と比較して、客観的で厳密に構造化された叙述を行うことは困難であるが、重要な部分に焦点を当てた簡潔な情報提示を行うことができるという利点を有しており、また、日常的なコミュニケーションに利用する最も一般的な情報交換手段であるため、モノローグ的な文章よりも親しみやすく、対話相手や聞き手の理解も進みやすいという特徴がある。このことを、テレビ放送のニュース番組を例にして説明すると、日常的な話題についてはアナウンサーが一人でニュース原稿を読み上げるよりも、二人以上のパーソナリティが会話形式で紹介する方が親しみやすく感じられる。
【0003】
会話形式の表現を利用する方法としては、例えば、ユーザのWebブラウジングに対応して同一のキャラクタエージェント達に、当該ページに関連する会話や寸劇を行わせることによって、ユーザによるWebページの理解に一貫性を持たせようとするAgneta&Fridaという試みがなされている(非特許文献1)。また、サッカー中継の試合情報を元に、チームに対する各々の態度や性格に従って会話を生成するエージェント(Gerd&Matze)も考えられている(非特許文献2)。さらに、展示会参加者の個人情報に対し簡単な規則を適用して生成されたエージェント同士の会話を行わせるエージェントサロンも考えられている(非特許文献3)。
【0004】
【非特許文献1】
クリスティナ・フック(H"o"ok,K.)、他3名著「インタフェースにおける隠れルター派的な見方の取り扱い:アグネタ&フリーダシステムの評価(Dealing with the Lurking Lutheran view on Interfaces : Evaluation of the Agneta and Frida system)」,(スペイン・サイチェス(Sitges,Spain)),生命的合成キャラクターの行動プラン具に関するワークショップ(the workshop Behaviour Planning for Life-Like Synthetic Characters)」,1999年,p125−136
【非特許文献2】
エリザベス・アンドレ(Andr'e,E.)、他1名著,「パフォーマンスによる表現:知識ベースプレゼンテーションシステムにおける複数の生命的キャラクターの利用(Presenting Through Performin: On the Use of Multiple Lifelike Characters in Knowledge-Based Presentation Systems)」,(米国),第2回知的ユーザインタフェース国際会議論文集(the Second International Conference on Intelligent User Interfaces( IUI2000)),2000年,p.1−8
【非特許文献3】
角,間瀬著,「エージェントサロン:パーソナルエージェント同士のおしゃべりを利用した出会いと対話の促進」電子情報通信学会論文誌,第84巻D-I,第8号,2001年,p1231−1243
【0005】
【発明が解決しようとする課題】
ところが、Agneta&Fridaにおいて利用される発話内容は、予め定められており、新たに会話形式の文章を生成するものではない。また、Gerd&Matzeでは、発話はパスやインターセプト等のサッカーにおけるボールの移動に関する離散的なイベントに呼応したものであり、分野の制限されていない事象に関して述べられたモノローグ的な文章から会話形式の表現を生成することはできない。さらに、エージェントサロンにおいて会話に利用される項目は、個人の見学履歴と展示に対する評価データという離散的なものであるため、Gerd&Matzeと同様に、限定的な事象についてにのみ対応するものである。
【0006】
したがって、従来の何れの態様にしても、任意のモノローグ的文章を元にして理解が容易で親しみやすい会話表現を生成することはできないものであった。
【0007】
そこで本発明は、以上のような問題に鑑みて、分野の制限されない任意のモノローグ的文章に基づいて、それをより親しみやすく理解しやすい会話表現に変換することができるようにすることを主たる目的としている。
【0008】
【課題を解決するための手段】
すなわち、本発明において第1の態様に係る会話表現生成装置A1は、図1に示すように、モノローグ的文章からなるモノローグテキストに基づいて、会話表現を生成するものであって、モノローグテキストを格納したモノローグテキスト格納部MTDから取得するモノローグテキスト取得手段1と、取得したモノローグテキストを単文形式に分割し一以上の単文テキストを生成する前処理手段2と、生成された単文テキストの文末表現を解析し当該文末表現を予め設定された複数の文末表現パターンの何れか一つに対応付ける文末処理手段3と、各文末表現パターンに対応付けてそれらに応答する表現として設定された複数のコメントテキストを格納するコメント格納部CMDから前記何れかの一の文末表現パターンに対応付けられた単文テキストに対応する一のコメントテキストを選択するコメント選択手段4と、前記単文テキストの後に選択されたコメントテキストを挿入し単文テキストとコメントテキストからなる会話テキストを生成する会話表現生成手段5と、生成した会話テキストを出力する会話テキスト出力手段6とを具備してなることを特徴とするものであり、コンピュータをこの会話表現生成装置A1用のプログラムに基づいて動作させることによって上述の機能を奏する。以下に説明する各会話表現生成装置においてもそれ専用のプログラムに基づいて機能する点で同様である。
【0009】
ここで、モノローグ的な文章とは、上述したように、単独の書き手が一方的に叙述した文章であり、モノローグテキストとは、このような文章からなるテキストデータを意味している。また、単文テキストとは、句点で終了する一文のみからなるテキストを意味している。また、モノローグテキスト格納部MTDは、モノローグテキストをデータベースとして格納してあるものであってもよいし、入力されたモノローグテキストを一時的なメモリに格納するものであってもよい。
【0010】
このような会話表現生成装置A1であれば、一般には理解しづらいモノローグテキストを、より理解の容易な会話形式の表現からなる会話テキストに自動変換することができるので、出力された会話テキストの利用者の情報理解に要する負担を軽減することができる。特に、従来の会話形式を利用した各システムとは異なり、モノローグテキストを単文化したうえでその文末表現に着目することによって、適切な会話テキストを生成するようにしているため、予め用意された会話文をそのまま利用したり定まった分野の会話表現のみを実現するのではなく、新規に作成された分野の制限のないモノローグ的な文章にも容易に対応できる点で、従来のものとは全く異なり且つ応用範囲の広いものである。
【0011】
本発明の第2の態様に係る会話表現生成装置A2は、図2に示すように、前記会話表現生成装置A1の構成に加えて、ユーザにより入力されたキーワードを取得するキーワード取得手段7を更に具備するものであり、前記モノローグテキスト取得手段1が、前記モノローグテキスト格納部MTDから前記キーワードに対応する一以上の前記モノローグテキストを取得し、前記前処理手段2が、取得されたモノローグテキストのそれぞれについて単文テキストを生成するように構成したものである。
【0012】
このような構成であれば、ユーザが興味のあるキーワードを入力すれば、それに対応するモノローグテキストから生成した会話テキストが出力されるので、興味のある話題についてより理解を深めることができる。
【0013】
このような会話表現生成装置A1、A2において、前記モノローグテキスト格納部MTDが、ユーザの入力により電子掲示板に投稿された意見文テキストを前記モノローグテキストとして格納するものであり、前記モノローグテキスト取得手段1において、この意見文であるモノローグテキストを取得するようにしてあれば、多様な人の意見の理解が容易になる。
【0014】
本発明の第3の態様に係る会話表現生成装置A3は、図3に示すように、前記会話表現生成装置A1又はA2の構成に加えて、二以上の予め設定された話者エージェントのそれぞれに対して、出力された前記会話テキストのうち単文テキストの読み手として一の話者エージェントを対応付けるとともに、前記コメントテキストの読み手として他の話者エージェントを対応付ける処理を行う話者決定手段8を更に具備するものである。なお、この会話表現生成装置A3において、図3に破線で示したキーワード取得手段7は必須の機能ではなく、オプション的にこの機能を設けるか否かを選択できるものである。また、以下に説明する図4〜図7に示される各会話表現生成装置においても、破線で示される各手段は、当該装置又はプログラムにおいてはオプション的な機能であることを示している。
【0015】
このような会話表現生成装置A3であれば、会話形式である会話テキストは、単文テキストとコメントテキストとから構成されており、それらを別々の話者エージェントが読み手として区別されるため、例えばユーザが使用するディスプレイに単文テキストとコメントテキストを文字表示する場合に、単文テキスト又はコメントテキストに対応付けられた何れかの話者エージェントの画像を同時に表示するようにすれば、現実に二人以上の話者が対話しているかの如き状態を模擬的に表現することができるため、聞き手であるユーザにとって極めて親しみやすく、理解度も向上させることができる。
【0016】
この会話表現生成装置A3の効果をより向上する本発明の第4の態様に係る会話表現生成装置A4は、図4に示すように、前記会話表現生成装置A3の構成に加えて、前記話者決定手段8で決定した各話者エージェントごとに異なる音声で対応する単文テキスト又はコメントテキストを音声出力する音声出力手段9を更に具備している。すなわち、単文テキストとコメントテキストとを異なる話者エージェントが発話しているように、それぞれ異なる音声で出力することによって、聞き手の理解のし易さがさらに向上される。
【0017】
そして、この会話表現生成装置A4による効果をさらに向上する本発明の第5の態様に係る会話表現生成装置A5は、図5に示すように、前記会話表現生成装置A4の構成に加えて、前記音声出力手段9で出力される単文テキスト又はコメントテキストの音声に対応して、各話者エージェントに当該話者エージェントの画像のうち少なくとも口を動かせるアニメーション動作を付加し出力するアニメーション処理手段10を更に備えたものである。すなわち、話者エージェントが現実に話しているかのような単文テキスト又はコメントテキストの音声データに加えて、話者エージェントの画像を動作させることによって、前述した会話表現生成装置A4の場合よりも更に現実味を帯びた態様で会話を進行させることが可能となる。
【0018】
さらに、前記会話表現生成装置A3、A4、A5の何れかに対する補助的な機能を有する本発明の第6の態様に係る会話表現生成装置A6は、前記各話者エージェントと共に、対応する単文テキスト又はコメントテキストを画面表示可能な文字データとして出力する文字データ出力手段11を更に具備するものである。このような構成とすれば、文字データとして出力された単文テキスト及びコメントテキストを話者エージェントごとに関連づけてディスプレイに表示することができるため、耳の不自由なユーザであっても内容の理解を深めることができ、また、音声データやアニメーション画像とともに出力することで、一般的なユーザも目と耳から情報を受け取ることで内容の把握が容易となる。
【0019】
また、前記モノローグテキストが画像データを伴っている場合も考えられるが、この場合における本発明の第7の態様に係る会話表現生成装置A7には、上述した前記各会話表現生成装置A1、A2、A3、A4、A5、A6の何れかの構成に加えて、前記モノローグテキスト格納部MTDから当該画像データを取得し出力する画像データ処理手段12を更に設けるとよい。すなわち、出力する画像データを会話テキストの理解のための補助として役立てることができる。
【0020】
特に、前記会話表現生成装置A3、A4、A5、A6の何れかにおいて、前記話者エージェントの一つとして、会話表現の進行役となるメインキャスタエージェントを設定しておき、前記話者決定手段8が、メインキャスタエージェントをコメントテキストの読み手として決定するものとしている場合には、会話表現の進行をスムーズに行うことができる。そして、前記モノローグテキストが、その内容の本質的部分である本文部と概要を示す表題部とから構成されるものである場合には、前記話者決定手段8において、メインキャスタエージェントを表題部の読み手として決定するように構成するとよい。また、前記コメント格納部CMTに、会話表現の開始を示すコメントテキストが格納されていれば、前記コメント選択手段4において当該単文テキストの前に他の単文テキストがない場合に前記開始を示すコメントテキストを選択し、前記話者選択手段8において、当該コメントテキストに表題部を合成したものをメインキャスタエージェントに対応付けるように構成することによっても、会話の流れをスムーズなものとすることができる。一方、前記メインキャスタエージェントとは異なる話者エージェントとして一以上のアナウンサーエージェントが設定している場合には、前記話者決定手段8が、アナウンサーエージェントを本文部の読み手として決定するようにすれば、メインキャスタエージェントとの役割分担を明確なものとすることができる。
【0021】
以上に説明した前記各会話表現生成装置A1〜A7の何れかにおいて、複数のモノローグテキストに基づく複数の会話表現の流れを円滑なものとするためには、前記コメント選択手段4において、一のモノローグテキストにおける最終の単文テキストを認識し、最終の単文テキストにおける文末表現パターンに対応付けて次のモノローグテキストへ接続する表現として設定されコメント格納部に格納されたコメントテキストから当該最終の単文テキストの文末表現に対応するコメントテキストを選択するように構成することが好ましい。
【0022】
また、文末表現は、ある程度パターン化して分類しておくことができる。すなわち、前記文末表現パターンに、現象を述べ立てることを示す現象叙述形式と伝聞であることを示す伝聞形式とが少なくとも含ませるとともに、前記コメントテキストに、現象叙述形式に対応する質問文形式に該当するコメントテキストと伝聞形式に対応する予想文形式に該当するコメントテキストとが少なくとも含ませておき、前記文末処理手段3において、前記単文テキストの文末表現を現象叙述形式又は伝聞形式の何れかに対応付けるとともに、それに対応して前記コメント選択手段4において、質問文形式又は予想文形式の何れか一方のコメントテキストを選択するような態様が好ましいものとしてあげることができる。さらに加えて、質問文形式及び予想文形式の前記コメントテキストを、それぞれ複数ずつ設定しておき、前記コメント選択手段4において、それら複数のコメントテキストから何れか一のコメントテキストを選択するようにしておけば、会話が単調とならないようにバリエーションを持たせることができる。
【0023】
ところで、最近では、パブリック・オピニオン・チャンネル(以下、「POC」と称する)と呼ばれるコミュニティのためのインタラクティブ放送システムが開発されつつある。このPOCは、コミュニティメンバが他のメンバに向けて電子掲示板に投稿した意見文を処理の対象とし、この意見文に会話生成処理を加えたうえで、仮想的な話者であるメインキャスタエージェントとアナウンサーエージェントの会話による意見紹介番組の形でその意見文をコミュニティメンバに向けて放送するものである。したがって、本発明に係る前記会話表現生成装置A1〜A7を、複数のユーザが入力することにより利用可能な電子掲示板に入力されたモノローグテキストを格納する前記モノローグテキスト格納部と、前記コメント格納部とを有し、且つ、入力されたモノローグテキストに基づいて生成される会話表現テキストを放送可能な、POCをはじめとするインタラクティブ放送システムにおいて適用し、入力されたモノローグテキストに基づいて会話テキストを生成し、当該会話テキストを放送可能に出力することで、POC等のコミュニティ向け意見紹介放送においても極めて重要な役割を果たすことができる。
【0024】
【発明の実施の形態】
以下、本発明の一実施形態を、図面を参照して説明する。
【0025】
この実施形態は、図8にシステム全体の概要を示すように、上述したパブリック・オピニオン・チャンネル(以下、「POC」と称する)に適用される会話表現生成装置であり、特に本発明における第7の態様の会話表現生成装置A7を利用したものである。以下、この会話表現生成装置A7は、POCキャスタA7と呼ぶものとする。POCは、コミュニティメンバである各ユーザUが使用するパーソナルコンピュータやPDAや携帯電話等のクライアントコンピュータCC、クライアントコンピュータCCに対してユーザUがクライアントコンピュータCCからアクセス可能な電子掲示板を提供するとともにクライアントコンピュータCCから投稿されたユーザUの意見文を格納するPOCサーバPS、POCキャスタA7とから基本的に構成されており、これらクライアントコンピュータCC、POCサーバPS、POCキャスタA7はインターネットINを通じて双方向通信可能に接続されている。なお、POCキャスタA7は、ユーザUから投稿された意見文を元に生成した会話形式の放送をクライアントコンピュータCCへ放送するための放送用クライアントとしての機能も有しており、ユーザUは自己のクライアントコンピュータCCの画面上で当該放送を視聴することができる。
【0026】
まず、各機器の内部機器構成について説明する。POCサーバPSは、汎用サーバコンピュータによって構成されるものであり、データベースサーバ機能やWebサーバ機能を有している。そのうち、Webサーバが、クライアントコンピュータCCから閲覧可能なホームページや電子掲示板を提供している。また、データベースサーバが、電子掲示板に入力された意見文を格納するモノローグテキスト格納部MTDとしての機能を有している。一方、POCキャスタA7は、一般的なサーバコンピュータやパーソナルコンピュータによって構築されるものであり、図9に示すように、CPU101、内部メモリ102、ハードディスク等の記憶装置103、キーボードやマウス等の入力デバイス104、ディスプレイやスピーカ等の出力デバイス105、各種通信インタフェース106等を内部機器として有している。なお、データベース装置107を更に内部機器として有していてもよいし、外部機器として有していてもよい。そして、記憶装置103に記録されたプログラムをCPU101の指示に従って内部メモリ102に読み込み、適宜データベース装置107から必要なデータ等を読み出し、また、通信インタフェース106を介してPOCサーバPSやクライアントコンピュータCCと情報通信を行うことによって、このPOCキャスタA7が動作する。なお、POCキャスタA7において情報の入力や画面表示等の出力が必要な場合には、適宜入力デバイス104や出力デバイス105が利用される。また、この実施形態では、POCサーバPSとPOCキャスタA7とをインターネットINを通じて双方向通信可能な別個のコンピュータとして示しているが、これらは専用通信回線で接続されていてもよいし、単一のコンピュータによって実現されるものであってもよい。さらにまた、クライアントコンピュータCCは、上述したように一般的なパーソナルコンピュータやPDA、携帯電話等からなるものであるが、ここでは少なくともインターネットINへの接続機能、文字や画像の入出力機能、ディスプレイ等の画像表示機能、スピーカ等の音声出力機能を有しているものとする。
【0027】
次に、POCキャスタA7の機能について説明すると、このPOCキャスタA7は、会話表現生成プログラムに基づくCPU101の指示に従って各内部機器及び外部機器が協動し、図7に示したように、モノローグテキスト取得手段1、前処理手段2、文末処理手段3、コメント選択手段4、会話表現生成手段5、会話テキスト出力手段6、キーワード取得手段7、話者決定手段8、音声出力手段9、アニメーション処理手段10、文字データ出力手段11、画像データ処理手段12としての機能を有している。これらの各手段を動作させるためのプログラムをコンピュータにインストールすることによって、コンピュータがPOCキャスタA7として機能することになる。なお、このプログラムは、例えばCD−ROM等の記録媒体に記録したものをコンピュータに読み込ませたり、インターネットIN等を通じてコンピュータにダウンロードすることによって実装される。本実施形態では特に、意見紹介の会話を行う仮想的な話者であるエージェント(メインキャスタエージェントMA及びアナウンサーエージェントAA)の音声合成にはTSSシステム(株式会社東芝製)を、それらエージェントの画像には、写真顔キャラクター作成システム(株式会社シャープ)を、POCキャスタA7に組み込んで使用しているが、これらと同等機能を有する他の製品を利用することも可能である。
【0028】
また、前記データベース107は、コメント格納部CMDとしての機能を有している。ここで、格納されるコメントの一例を図10に示す。この例では、ユーザUにより投稿された意見文の文末表現パターンを2種類に大別し、そのうち1種類を更に3種類に分類し、そのそれぞれに対応するコメントが複数ずつ用意されている。具体的に説明すると、文末表現は、同図左欄に示すように、「現象を述べ立てる」現象叙述形式と、伝聞であることを示す『伝聞形式』に大別されている。さらに現象叙述形式は、『現象を述べ立てる「がある」形式』、『現象を述べ立てるアスペクト辞「ている」形式(現在・現在進行形)』、『現象を述べ立てるアスペクト辞「ている」(過去・過去進行形)』の3種類に分類されている。これら文末表現の例としては、同図中欄に示すようなものが挙げられる。すなわち、まず、『現象を述べ立てる「がある」形式』の表現例には、「〜がある。」、「〜があります。」、「〜があった。」、「〜がありました。」等が挙げられる。『現象を述べ立てるアスペクト辞「ている」形式(現在・現在進行形)』の表現例には、「ている。」、「ています。」、「〜が人気を呼んでいる。」等が挙げられる。『現象を述べ立てるアスペクト辞「ている」(過去・過去進行形)』の表現例には、「ていた。」、「ていました。」が挙げられる。『伝聞形式』の表現例には、「〜だそうです。」、「〜だそうだ。」、「〜という。」、「〜といいます。」等が挙げられる。このような表現例は、物事を紹介する際の文章の文末に関する様相を分析した結果、上述のような合計4種類の文末表現パターンに分類されることが判明したことに基づく。そして、各文末表現パターンに対応して、それらの後に挿入すべきコメントテキストは、同図右欄に示すようなものである。すなわち、現象を述べ立てる「がある」形式』及び『現象を述べ立てるアスペクト辞「ている」形式(現在・現在進行形)』には、『詳細質問文(現在の内容)』として、「どういうものなの?」、「もっと教えてよ」、「それはなに?」、「どんなものなの?」等のコメントテキストを対応付けている。また、『現象を述べ立てるアスペクト辞「ている」(過去・過去進行形)』には、『詳細質問文(過去の内容)』として、「どうだったの。」、「それで、どうだったの。」等のコメントテキストを対応付けている。さらに、『伝聞形式』には、『詳細予想文』として、「どんなのだろう。」、「どんなかんじなんだろう。」、「どんなのかな。」等のコメントテキストを対応付けている。なお、以上に示した表現例やコメントテキスト例は、一例であって、これら以外のものを含む場合もある。そして、図示していないが、各コメントテキストのパターンごと及び個々のコメントテキストには、適宜の識別子が付与されていて他のコメントテキストと区別されるようにしている。
【0029】
ただし、コメント格納部CMDとして機能するデータベース107には、上述したコメントテキストの他に、例えば、単に相づちを打つ表現である「はい。」や「そうですか。」等のコメントテキスト、エージェントが音声出力により仮想的に読み上げる元になる意見文と意見文との間に挿入され話題を接続したり他のユーザに呼びかけることを表す「みなさん、どう思われますか。」等のコメントテキスト、会話を開始することを表す「では、〜の話題です。」等のコメントテキスト等も単数又は複数ずつ格納されている。
【0030】
また、ユーザUが各自のクライアントコンピュータCCで入力し送信により投稿した意見文は、POCサーバPSに格納されるが、これら意見文それぞれは、ユーザUが各自で叙述したモノローグ的な文章からなるモノローグテキストである。図11に、意見文の一例を示す。同図に示すように、意見文OPTは、「題目」欄に記述された表題部OPHと、「本文」欄に記述された本文部OPMとから構成されており、本文部には、一以上の文が記述されている。各意見文OPTは、他の意見文OPTと区別される固有の識別子により管理されている。なお、本実施形態では、意見文はPOCサーバPS内において、XML(eXtensible Markup Language)形式に変換されているが、これ以外の形式であってもよいのは勿論である。さらに各意見文には、動画又は静止画からなる関連画像OPIが添付される場合もある。
【0031】
また、話者エージェントは、メインキャスタエージェントとアナウンサーエージェントの2種類が予め設定されているものとする。すなわち、メインキャスタエージェントとアナウンサーエージェントのそれぞれに、写真顔キャラクター作成システムで作成された顔のキャラクター画像と、TSSシステムにより作成された合成音声とが関連づけて設定してあるものとする。ここで、アナウンサーエージェントは、意見文に基づいて作成される会話テキストのうち、元の意見文の本文部OPMを読み上げる話者として設定されている。一方、メインキャスタエージェントには、表題部OPH及びコメントテキストを読み上げる役割が設定されているものとする。
【0032】
以下、POCキャスタA7の動作例について、図11に示した意見文例、図12に示す会話テキスト例、図13に示すフローチャート例、及び図 に示す画面例等を利用して説明する。
【0033】
まずはじめに、前提として、例えば図11に示したようなユーザUからの意見文がモノローグテキストとしてPOCサーバPSに多数格納されているものとする。すなわち、ユーザUは、POCサーバPSにより提供された電子掲示板を利用して、各自の意見文の投稿を行っている。また、POCサーバPS又はPOCキャスタA7は、意見文の紹介を視聴したいユーザUのクライアントコンピュータCCに対して、キーワードの入力欄を表示した画面を送信して表示させており、ユーザUはその画面に何らかのキーワードを入力したうえでそれをクライアントコンピュータCCからPOCキャスタA7へ送信しているものとする。
【0034】
POCキャスタA7は、クライアントコンピュータCCから送信されたキーワードを取得すると(図13;ステップS1)、POCサーバPSを検索して取得したキーワドに関連する意見文(モノローグテキスト)OPTを検索する(ステップS2)。なお、この検索に際しては、例えば表題部OPHのみの検索、表題部OPH及び本文部OPMの全文検索等、適宜の方法を採用することができる。意見文OPTがPOCサーバPSから1以上取得できた場合(ステップS2a;Yes)は、次へ進む。ここで、取得した意見文OPTが複数あった場合は、例えば識別子の昇順又は降順、又は日付順などの適宜の順番に並べられる。一方、取得したキーワードに該当する意見文OPTがなかった場合には(ステップS2a;No)、その旨の情報をクライアントコンピュータCCへ送信する(ステップS2b)。
【0035】
次に、全ての意見文OPTを紹介したか否かを判断し、紹介し終えて以内場合(ステップS3;No)には、1件の意見文OPTを句点「。」ごとに区切った単文テキストに分割する(ステップS4)。そして、各単文テキストの文末表現を解析し(ステップS5)、各単文テキストの文末表現に該当する文末表現パターンに対応するコメントテキストをデータベース107から抽出して(ステップS6)、抽出したコメントテキストを各単文テキストの後に挿入することによって、会話テキストCVTを生成する(ステップS7)。ここで、一例として、取得した意見文OPTが図11に示したようなものであれば、生成される会話テキストCVTは、図12に示すようなものとなる。すなわち、図11に示す意見文OPTの本文部OPMは、4つの単文テキストに分割される。まず、表題部OPHは、メインキャスタエージェントMCAに割り振られる。ここで、表題部OPHの前には当該意見文OPTにおいて先行する単文テキストが存在しないので、会話の開始を示すコメントテキストと表題部OPHの記載とを合成して、「まずはじめは、ウォーキングの話題です。」というテキストが生成されている。なお、このように、「まずはじめは…」とするか否かは、意見文の紹介順により適宜変更することができ、例えば「次は、…」や「最後は…」等というようなコメントテキストを利用することができる。次に、本文部OPMの第1文はアナウンサーエージェントANAに割り振られるが、その第1分の文末表現は、「…そうです。」という『伝聞形式』に該当するので、「どんなのだろう」というコメントテキストが対応付けられており、それをメインキャスタエージェントMCAに割り振ることになる。同様に、第2文、第3文がアナウンサーエージェントANAに割り振られるとともに、それら第2文、第3文の文末表現に対応するコメントテキスト「もっと教えてよ。」や「はい。」等がメインキャスタエージェントMCAに割り振られる。さらに、第4文もアナウンサーエージェントANAに割り振られるが、この第4文は、当該意見文OPTの末尾の単文テキストであることから、他のユーザUに呼びかける表現であり、次の意見文OPTにつなげることにもなるコメントテキスト「みなさん、どうでしょう?」がメインキャスタエージェントMCAに割り振られる。
【0036】
図13に示したフローチャートに戻って説明を続けると、生成された会話テキストCVTのうち、表題部OPHについては(ステップS8;Yes)、メインキャスタエージェントMCAにコメントテキストの発話動作を与える一方、アナウンサーエージェントANAには休憩動作を与える(ステップS8a)。また、表題部OPHではない、すなわち本文部OPMである場合(ステップS8;No)、文末表現が紹介を述べ立てる表現であるか否かを判断し、そうでなければ(ステップS8b;No)、アナウンサーエージェントANAには単文テキストの読み上げ動作を与える一方、メインキャスタエージェントMCAには休憩動作を与える(ステップS8c)。一方、文末表現が紹介を述べ立てる表現である場合(ステップS8;Yes)、メインキャスタエージェントMCAにはコメントテキストの読み上げ動作を与える一方、アナウンサーエージェントANAには休憩動作を与える(ステップS8a)。そして、メインキャスタエージェントMCA及びアナウンサーエージェントANAにそれぞれ動作を与えると、それに対応するアニメーションを生成すると音声を合成する。ここで、アニメーション動作には、少なくともメインキャスタエージェントMCA及びアナウンサーエージェントANAが口を動かせる動作が含まれるが、後述するように添付画像が意見文OPTに付帯されている場合には、何れかのエージェントに指差し動作をさせたり、頷く動作をさせるなどのバリエーションがある。また、上述したように、意見文OPTに添付画像OPIがあれば(ステップS10;Yes)、その添付画像を、例えばクライアントコンピュータCCに表示させるための送信画像の中央に配置するなどして、送信画像に添付画像を合成する。その後、又は添付画像がない場合(ステップS10;No)、送信画像の例えば下欄に会話テキストCVTの文字データを合成し(ステップS11)、全てのデータをクライアントコンピュータCCで視聴可能な形式として送信する(ステップS12)。送信の結果、クライアントコンピュータCCのディスプレイに表示される画像は、例えば図14〜図22に示すようなものであり、クライアントコンピュータCCのスピーカからは、メインキャスタエージェントMCA及びアナウンサーエージェントANAそれぞれの音声が出力される。
【0037】
クライアントコンピュータCCのディスプレイに表示される画面、及びスピーカから出力される音声について説明すると、図14〜図22では、画面中央に添付画像が表示されており、その左側にメインキャスタエージェントMCAの画像、右側にアナウンサーエージェントANAの画像が配置された状態を示している。そして、図12に示した会話テキストCVTに従って、順次各エージェントの動作及びコメント又は意見文を読み上げる音声出力、並びにこの音声出力に伴った文字データの表示(画面下欄)が行われる。まず、図14に示すように、メインキャスタエージェントMCAが、当該意見文の表題部OPH及び会話の開始を示すコメントテキストを合成したコメント「まずはじめは…」を読み上げる動作を行うとともに、その音声を出力し、画面下欄にこのコメントの文字データを表示する。次に、図15に示すように、アナウンサーエージェントANAが、本文部OPMの第1文「伊勢志摩の…」を読み上げる動作を行うとともに、その音声を出力し、画面下欄にこのコメントの文字データを表示する。このとき、アナウンサーエージェントANAには、添付画像OPIを指し示すアニメーション動作を行わせるようにしている。次に、図16に示すように、話者がメインキャスタエージェントMCAに交代して、コメント「どんなのだろう。」を読み上げる動作を行うとともに、その音声を出力し、画面下欄にこのコメントの文字データを表示する。さらに、図17に示すように、話者がアナウンサーエージェントANAに交代して、本文部OPMの第2文「大型の施設観光を…」を読み上げる動作を行うとともに、その音声を出力し、画面下欄にこのコメントの文字データを表示する。続いて図18に示すように、メインキャスタエージェントMCAが、コメント「もっと教えてよ。」を読み上げる動作を行うとともに、その音声を出力し、画面下欄にこのコメントの文字データを表示する。次に、図19に示すように、アナウンサーエージェントANAに話者が交代し、本文部OPMの第3文「美しい景色や…」を読み上げる動作を行うとともに、その音声を出力し、画面下欄にこのコメントの文字データを表示する。これに対して、図20に示すように、メインキャスタエージェントMCAが、コメント「はい。」を読み上げる動作を行うとともに、その音声を出力し、画面下欄にこのコメントの文字データを表示する。そして、図21に示すように、アナウンサーエージェントANAが、本文部OPMの最終文「どなたかご一緒しませんか?」を読み上げる動作を行うとともに、その音声を出力し、画面下欄にこのコメントの文字データを表示する。そして最後は、図22に示すように、メインキャスタエージェントMCAが、コメント「みなさん、どうでしょう?」を読み上げる動作を行うとともに、その音声を出力し、画面下欄にこのコメントの文字データを表示して、次の意見文OPTの紹介へとつなげる。
【0038】
すなわち、以上の各ステップが終了すると、ステップS3に戻り、次の意見文OPTの処理を行う。そして、全ての意見文OPTの紹介が終了すると(ステップS3;Yes)、当初に取得した位キーワードについての処理が終了となる。なお、ステップS9〜S11は、必ずしもこの順番である必要はなく、適宜順番を入れ替えてもよい。
【0039】
以上のようにして、ユーザUが投稿した意見文は、その意見文の表層的な手がかりである文末表現から対象となる意見文の意図を推測して、コメントテキストの挿入や付加合成処理を行うことによって生成された会話テキストに変換されるので、他のユーザUは、当該意見文を会話形式で視聴できることになる。したがって、元の情報提示がモノローグ的な文章である意見文であっても、それを視聴するユーザUにはより親しみやすく理解へ負担を低減した態様で情報を提供することができる。
【0040】
なお、本発明は上述した実施形態に限られるものではない。例えば分割された単文テキストの文末表現のパターンを増減することや、各パターンに該当する表現例、対応するコメントテキストの数も適宜増減することができる。また、電子掲示板に投稿される文章はフォーマルな文章ではないため、投稿された意見文において、表題部と本文部とが一つの文章として繋がっている場合があるが、この場合、本文部の文頭が「を」、「が」、「の」等の格助詞や「…」等の記号から始まっているような文章を正規化するなどの処理を行うようにすることもできる。その他、各部の具体的構成についても上記実施形態に限られるものではなく、本発明の趣旨を逸脱しない範囲で種々変形が可能である。また、生成される会話テキストは、二者に限らず三者以上の会話文とすることができる。さらに、本発明をPOC以外の分野又はシステムに適用することも可能である。
【0041】
【発明の効果】
本発明によれば、以上に詳述したように、一人が叙述した文章であるモノローグテキストを、単文に分割するという処理を経て、聞き手又は読み手が要する理解への負担を軽減し得る会話形式に変換することができるものである。すなわち、モノローグテキストの表層的な手がかりである文末表現をパターン化することで、当該モノローグテキストの意図するところを推測して単文の末尾に適切なコメントを挿入することによって、話題の内容又は分野に制限なく、会話表現を生成することが可能となる。したがって、本発明を応用することで、POC等の不特定の話題が登場するコミュニティにおける意見紹介番組の運営や、会話に関する研究にも大いに役立つことになる。
【図面の簡単な説明】
【図1】本発明の請求項1に対応する会話表現生成装置の機能構成を示すブロック図。
【図2】本発明の請求項2に対応する会話表現生成装置の機能構成を示すブロック図。
【図3】本発明の請求項4に対応する会話表現生成装置の機能構成を示すブロック図。
【図4】本発明の請求項5に対応する会話表現生成装置の機能構成を示すブロック図。
【図5】本発明の請求項6に対応する会話表現生成装置の機能構成を示すブロック図。
【図6】本発明の請求項7に対応する会話表現生成装置の機能構成を示すブロック図。
【図7】本発明の請求項8に対応する会話表現生成装置の機能構成を示すブロック図。
【図8】本発明の一実施形態を適用したPOCのシステムを示す概観図。
【図9】同実施形態のPOCキャスタの概略的な内部機器構成図。
【図10】同実施形態に適用されるコメント格納部の内部データの一例を示す図。
【図11】同実施形態に適用される意見文の一例を示す図。
【図12】同実施形態で生成された会話テキストの一例を示す図。
【図13】同実施形態の動作を概略的に示すフローチャート。
【図14】同実施形態においてクライアントコンピュータに表示される画面例を示す図。
【図15】同実施形態においてクライアントコンピュータに表示される画面例を示す図。
【図16】同実施形態においてクライアントコンピュータに表示される画面例を示す図。
【図17】同実施形態においてクライアントコンピュータに表示される画面例を示す図。
【図18】同実施形態においてクライアントコンピュータに表示される画面例を示す図。
【図19】同実施形態においてクライアントコンピュータに表示される画面例を示す図。
【図20】同実施形態においてクライアントコンピュータに表示される画面例を示す図。
【図21】同実施形態においてクライアントコンピュータに表示される画面例を示す図。
【図22】同実施形態においてクライアントコンピュータに表示される画面例を示す図。
【符号の説明】
1…モノローグテキスト取得手段
2…前処理手段
3…文末処理手段
4…コメント選択手段
5…会話表現生成手段
6…会話テキスト出力手段
7…キーワード取得手段
8…話者決定手段
9…音声出力手段
10…アニメーション処理手段
11…文字データ出力手段
12…画像データ処理手段
A1、A2、A3、A4、A5、A6、A7…会話表現生成装置
CMD…コメント格納部
MTD…モノローグテキスト格納部
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a conversation expression generating apparatus and a program therefor that can suitably generate a conversational expression based on a monologous expression.
[0002]
[Prior art]
At present, some of the means for providing information via communication means such as the Internet are accompanied by images, but text communication such as texts in web pages, e-mails, chats, and electronic bulletin boards is mainly used. It is. In particular, it can be said that many of the sentences in the Web page are monologous sentences unilaterally described by a single writer. In addition, in text communication such as e-mail, the dialogue (conversation) adjustment in which the other person interposes a question during the description (speaking) of one writer (speaker) is a face-to-face conversation in which they face each other in reality. Therefore, it is considered that each utterance is generally long and has a monologue property that is fragmented for each utterance. As described above, there is a large amount of information stored as monologous sentences on the Internet. However, monologous sentences are not a means for presenting information to everyone, and conversational sentences that express important parts in question-answer format are generally more familiar than specialized monologue sentences. The degree of understanding also tends to be high. Here, conversational sentences, such as interview articles and TV program scripts, are sentences in which conversations are stacked. Conversational sentences are compared to monologue sentences. Although it is difficult to make an objective and strictly structured description, it has the advantage of being able to present concise information focusing on important parts, Since it is the most common information exchange means used for secure communication, it is characterized by being more familiar than monologous sentences and being easy to understand the conversation partner and listener. Explaining this by taking a TV broadcast news program as an example, it is more familiar to introduce two or more personalities in a conversational format than an announcer reads a news manuscript alone on a daily topic. .
[0003]
As a method of using a conversational expression, for example, the same character agents corresponding to the user's Web browsing are allowed to perform a conversation or a skit related to the page, so that the user can consistently understand the Web page. Attempts have been made to obtain properties such as Agneta & Frida (Non-patent Document 1). In addition, based on soccer game information, Personality An agent (Gerd & Matze) that generates a conversation according to the above is also considered (Non-patent Document 2). Furthermore, an agent salon that allows conversation between agents generated by applying simple rules to the personal information of exhibition participants is also considered (Non-patent Document 3).
[0004]
[Non-Patent Document 1]
Kristina Hook (H "o" ok, K.) and three other authors, "Handling of a hidden Lutheran view in the interface: Dealing with the Lurking Lutheran view on Interfaces: Evaluation of the Agneta and Frida system ”, (Sitges, Spain), the workshop Behavior Planning for Life-Like Synthetic Characters”, 1999, p125-136.
[Non-Patent Document 2]
Elizabeth Andre (Er.), 1 other author, “Performance Through Performance: On the Use of Multiple Lifelike Characters in Knowledge-Based Presentation Systems ”, (USA), The Second International Conference on Intelligent User Interfaces (IUI2000), 2000, p. 1-8
[Non-Patent Document 3]
Kaku, Mase, “Agent Salon: Encourage Encounters and Dialogues Using Chat between Personal Agents” IEICE Transactions, Vol. 84, DI, No. 8, 2001, p1231-1243
[0005]
[Problems to be solved by the invention]
However, the content of utterances used in Agneta & Frida is determined in advance, and does not newly generate a conversational sentence. In Gerd & Matze, utterances are in response to discrete events related to ball movement in soccer such as passes and intercepts, and conversational expressions are expressed from monologous sentences that describe unrestricted events in the field. It cannot be generated. Furthermore, since items used for conversation in the agent salon are discrete items such as individual visit histories and evaluation data for exhibitions, they correspond only to limited events as in the case of Gerd & Matze.
[0006]
Therefore, in any conventional mode, it is impossible to generate a conversation expression that is easy to understand and friendly based on an arbitrary monologous sentence.
[0007]
In view of the above problems, the main object of the present invention is to be able to convert an arbitrary monologous sentence that is not limited in the field into a more friendly and understandable conversation expression. It is said.
[0008]
[Means for Solving the Problems]
That is, the conversation expression generation device A1 according to the first aspect of the present invention generates a conversation expression based on monologue text composed of monologous text as shown in FIG. 1, and stores the monologue text. The monologue text acquisition means 1 that is acquired from the monologue text storage unit MTD, the preprocessing means 2 that divides the acquired monologue text into a single sentence format and generates one or more single sentence texts, and analyzes the sentence end expression of the generated single sentence text The sentence ending processing means 3 for associating the sentence ending expression with any one of a plurality of preset sentence ending expression patterns, and a plurality of comment texts associated with each sentence ending expression pattern and set as expressions to respond to them Single sentence associated with any one of the sentence end expression patterns from the comment storage unit CMD Comment selecting means 4 for selecting one comment text corresponding to the text, conversation expression generating means 5 for inserting the selected comment text after the single sentence text and generating a conversation text composed of the single sentence text and the comment text, and generation The conversation text output means 6 for outputting the conversation text is provided, and the above-described functions are achieved by operating the computer based on the program for the conversation expression generation device A1. The same is true in that each conversation expression generation device described below functions based on a dedicated program.
[0009]
Here, as described above, the monologous sentence is a sentence unilaterally described by a single writer, and the monologue text means text data composed of such a sentence. The single sentence text means a text composed of only one sentence ending with a punctuation mark. In addition, the monologue text storage unit MTD may store the monologue text as a database, or may store the input monologue text in a temporary memory.
[0010]
Such a conversation expression generation device A1 can automatically convert monologue text, which is generally difficult to understand, into conversation text composed of expressions in a conversation format that is easier to understand. Can reduce the burden on the person to understand the information. In particular, unlike conventional systems that use a conversation format, the appropriate conversation text is generated by focusing on the sentence end expression after monologizing the monologue text. It is completely different from the conventional one in that it can easily handle monologue sentences without restriction of newly created fields, not just using sentences as they are or realizing only conversation expressions in a defined field. And it has a wide range of applications.
[0011]
As shown in FIG. 2, the conversation expression generation device A2 according to the second aspect of the present invention further includes a keyword acquisition means 7 for acquiring a keyword input by the user in addition to the configuration of the conversation expression generation device A1. It has, Said Monologue text acquisition means 1 Said One or more corresponding to the keyword from the monologue text storage unit MTD Said Get the monologue text, Said The preprocessing means 2 is configured to generate a single sentence text for each of the acquired monologue texts.
[0012]
With such a configuration, when the user inputs a keyword of interest, the conversation text generated from the corresponding monologue text is output, so that the topic of interest can be further understood.
[0013]
In such conversation expression generation devices A1 and A2, Said The monologue text storage unit MTD receives the opinion text posted on the electronic bulletin board by user input. Said Is stored as monologue text, Said If the monologue text acquisition means 1 acquires the monologue text as the opinion sentence, it becomes easy to understand the opinions of various people.
[0014]
As shown in FIG. 3, the conversation expression generation device A3 according to the third aspect of the present invention includes, in addition to the configuration of the conversation expression generation device A1 or A2, each of two or more preset speaker agents. Against the output Said In addition to associating one speaker agent as the reader of the single sentence of the conversation text, Said The apparatus further includes speaker determining means 8 for performing processing for associating other speaker agents as readers of the comment text. In this conversation expression generation device A3, the keyword acquisition means 7 indicated by a broken line in FIG. 3 is not an essential function, and can be selected as an option to provide this function. Also, in each conversation expression generation device shown in FIGS. 4 to 7 described below, each means indicated by a broken line indicates an optional function in the device or program.
[0015]
In the case of such a conversation expression generation device A3, the conversation text that is a conversation form is composed of a single sentence text and a comment text, and these are distinguished as readers by different speaker agents. When displaying single sentence text and comment text on the display to be used, if two or more speaker agents associated with the single sentence text or comment text are displayed at the same time, two or more people can actually talk. Since it is possible to express the state as if the person is interacting with the user, the user who is the listener is very familiar and the degree of understanding can be improved.
[0016]
As shown in FIG. 4, the conversation expression generation device A4 according to the fourth aspect of the present invention, which further improves the effect of the conversation expression generation device A3, Said In addition to the configuration of the conversation expression generation device A3, Said It further comprises voice output means 9 for outputting a single sentence text or comment text corresponding to each speaker agent determined by the speaker determination means 8 with a different voice. In other words, by outputting the single sentence text and the comment text in different voices as if different speaker agents are speaking, the understanding of the listener is further improved.
[0017]
And as shown in FIG. 5, the conversation expression generation device A5 according to the fifth aspect of the present invention, which further improves the effect of the conversation expression generation device A4, Said In addition to the configuration of the conversation expression generation device A4, Said Corresponding to the voice of the single sentence text or comment text output by the voice output means 9, the animation processing means 10 further outputs to each speaker agent an animation operation that can move at least the mouth of the image of the speaker agent. It is provided. That is, in addition to voice data of simple text or comment text as if the speaker agent is actually speaking, by operating the image of the speaker agent, Mentioned above It is possible to advance the conversation in a more realistic manner than in the case of the conversation expression generation device A4.
[0018]
further, Said The conversation expression generation device A6 according to the sixth aspect of the present invention having an auxiliary function for any of the conversation expression generation devices A3, A4, A5, Said Each speaker agent is further provided with character data output means 11 for outputting the corresponding single sentence text or comment text as character data that can be displayed on the screen. With such a configuration, it is possible to display single text and comment text output as character data in association with each speaker agent and display it on the display, so even a deaf user can understand the content. It can be deepened, and by outputting together with audio data and animation images, a general user can easily grasp the contents by receiving information from the eyes and ears.
[0019]
Also, Said Although the case where the monologue text is accompanied by image data is also conceivable, the conversation expression generation device A7 according to the seventh aspect of the present invention in this case is described above. Said In addition to the configuration of each conversation expression generation device A1, A2, A3, A4, A5, A6, Said Image data processing means 12 for acquiring and outputting the image data from the monologue text storage unit MTD may be further provided. That is, the output image data can be used as an aid for understanding the conversation text.
[0020]
In particular, in any of the conversation expression generation devices A3, A4, A5, A6, Said As one of the speaker agents, set up a main caster agent to be a facilitator of conversation expression, Said When the speaker determining means 8 determines the main caster agent as the reader of the comment text, the conversation expression can proceed smoothly. And Said If the monologue text consists of a body part that is an essential part of the content and a title part that gives an overview, Said The speaker determining means 8 may be configured to determine the main caster agent as the reader of the title part. Also, Said If comment text indicating the start of the conversation expression is stored in the comment storage unit CMT, Said In the comment selection means 4, when there is no other single text before the single text, the comment text indicating the start is selected, Said By configuring the speaker selection means 8 so that the comment text combined with the title part is associated with the main caster agent, the flow of conversation can be made smooth. On the other hand, when one or more announcer agents are set as speaker agents different from the main caster agent, Said If the speaker determining means 8 determines the announcer agent as the reader of the text part, the division of roles with the main caster agent can be made clear.
[0021]
Explained above Said In order to make the flow of a plurality of conversation expressions based on a plurality of monologue texts smooth in any of the conversation expression generation devices A1 to A7, Said The comment selection means 4 recognizes the last single sentence text in one monologue text and associates it with the sentence end expression pattern in the last single sentence text to set the expression connected to the next monologue text and stores it in the comment storage section It is preferable that the comment text corresponding to the sentence end expression of the final single sentence text is selected from the text.
[0022]
In addition, sentence end expressions can be classified and patterned to some extent. That is, Said At the end of the sentence pattern, include at least a phenomenon description form that indicates the phenomenon and a hearing form that indicates the hearing, Said The comment text includes at least comment text corresponding to the question sentence format corresponding to the phenomenon description format and comment text corresponding to the expected sentence format corresponding to the hearing format, Said In the sentence end processing means 3, Said Corresponding to the sentence ending expression or the listening style of the sentence sentence end expression Said In the comment selection means 4, a mode in which one of the question text format or the predicted text format is selected as a preferred text form. In addition, the question sentence format and the expected sentence format Said Set multiple comment texts, Said If the comment selection means 4 selects any one comment text from the plurality of comment texts, a variation can be provided so that the conversation does not become monotonous.
[0023]
By the way, recently, an interactive broadcasting system for a community called a public opinion channel (hereinafter referred to as “POC”) is being developed. In this POC, community members post opinions on electronic bulletin boards directed to other members, and after the conversation generation processing is added to these opinions, the main caster agent who is a virtual speaker The opinion sentence is broadcast to community members in the form of an opinion introduction program based on the conversation of the announcer agent. Therefore, according to the present invention Said The conversation expression generation devices A1 to A7 have the monologue text storage unit for storing the monologue text input to the electronic bulletin board that can be used by a plurality of users input, and the comment storage unit. Applicable to interactive broadcasting systems such as POC that can broadcast conversational expression text generated based on the monologue text, and can generate conversation text based on the input monologue text and broadcast the conversation text Can play an extremely important role in opinion introduction broadcasting for communities such as POC.
[0024]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, an embodiment of the present invention will be described with reference to the drawings.
[0025]
This embodiment is a conversation expression generating device applied to the above-mentioned public opinion channel (hereinafter referred to as “POC”) as shown in FIG. The conversation expression generation device A7 of the aspect is used. Hereinafter, the conversation expression generation device A7 is referred to as a POC caster A7. The POC provides a personal computer used by each user U who is a community member, a client computer CC such as a PDA or a mobile phone, and an electronic bulletin board that the user U can access from the client computer CC to the client computer CC and a client computer. It is basically composed of a POC server PS and POC caster A7 for storing the opinion sentence of the user U posted from the CC, and these client computers CC, POC server PS, and POC caster A7 can communicate bidirectionally through the Internet IN. It is connected to the. The POC caster A7 also has a function as a broadcasting client for broadcasting a conversational broadcast generated based on the opinion sentence posted from the user U to the client computer CC. The broadcast can be viewed on the screen of the client computer CC.
[0026]
First, the internal device configuration of each device will be described. The POC server PS is constituted by a general-purpose server computer and has a database server function and a Web server function. Among them, the Web server provides a home page and an electronic bulletin board that can be browsed from the client computer CC. In addition, the database server has a function as a monologue text storage unit MTD for storing the opinion sentence input to the electronic bulletin board. On the other hand, the POC caster A7 is constructed by a general server computer or personal computer. As shown in FIG. 9, the CPU 101, the internal memory 102, a storage device 103 such as a hard disk, and an input device such as a keyboard and a mouse. 104, an output device 105 such as a display and a speaker, various communication interfaces 106, and the like are included as internal devices. Note that the database device 107 may be further included as an internal device or an external device. Then, the program recorded in the storage device 103 is read into the internal memory 102 in accordance with an instruction from the CPU 101, necessary data is read out from the database device 107 as appropriate, and information is transmitted to the POC server PS and client computer CC via the communication interface 106. The POC caster A7 operates by performing communication. Note that when the POC caster A7 requires information input or screen display output, the input device 104 or the output device 105 is used as appropriate. In this embodiment, the POC server PS and the POC caster A7 are shown as separate computers capable of two-way communication through the Internet IN. However, these may be connected by a dedicated communication line or a single computer. It may be realized by a computer. Further, as described above, the client computer CC is composed of a general personal computer, PDA, mobile phone, or the like. Here, at least a connection function to the Internet IN, a character / image input / output function, a display, etc. And an audio output function such as a speaker.
[0027]
Next, the function of the POC caster A7 will be described. In the POC caster A7, each internal device and external device cooperate with each other in accordance with instructions from the CPU 101 based on the conversation expression generation program. As shown in FIG. Means 1, preprocessing means 2, sentence end processing means 3, comment selection means 4, conversation expression generation means 5, conversation text output means 6, keyword acquisition means 7, speaker determination means 8, voice output means 9, animation processing means 10 , Function as character data output means 11 and image data processing means 12. By installing a program for operating these means in the computer, the computer functions as the POC caster A7. This program is implemented by, for example, reading a program recorded on a recording medium such as a CD-ROM into a computer or downloading it to the computer through the Internet IN or the like. In the present embodiment, in particular, a TSS system (manufactured by Toshiba Corporation) is used for voice synthesis of agents (main caster agent MA and announcer agent AA) that are virtual speakers who conduct a conversation for introducing an opinion. Uses the photo face character creation system (Sharp Co., Ltd.) incorporated in the POC caster A7, but other products having functions equivalent to these can also be used.
[0028]
The database 107 functions as a comment storage unit CMD. Here, an example of the stored comment is shown in FIG. In this example, the sentence end expression patterns of opinion sentences posted by the user U are roughly divided into two types, one of which is further classified into three types, and a plurality of comments corresponding to each of them are prepared. More specifically, as shown in the left column of the figure, sentence ending expressions are broadly divided into a phenomenon description form that “states a phenomenon” and a “hearing form” that indicates that it is a hearing. Furthermore, the phenomenon description forms are “There is a form” that states the phenomenon, “Aspect form that states the phenomenon” (current / current form) ”,“ Aspect word that states the phenomenon “is” (Past / Past Progressive Type) ”. Examples of these sentence end expressions include those shown in the column of FIG. In other words, first of all, there are “~”, “has ~”, “has ~”, and “~” in the expression examples of “There is a form that describes the phenomenon”. Etc. Examples of the expression “the aspect word“ is ”that describes the phenomenon” (current / current progression) include “is”, “is”, “has been popular”. Can be mentioned. Examples of the expression “Ate” (representing the phenomenon) (past / progressive) are “it was” and “it was”. Examples of “hearing form” include “It seems to be ~”, “It seems to be ~”, “It is called ~”, “It is called ~”, and the like. Such an expression example is based on the fact that, as a result of analyzing the aspect of the sentence ending when introducing things, it has been found that the sentence is classified into a total of four types of sentence ending expression patterns as described above. The comment text to be inserted after each sentence end expression pattern is as shown in the right column of FIG. In other words, the “detailed question (current content)” and “detailed question (current content)” states “there are” forms that state the phenomenon and the “aspect” form that states the phenomenon (current / current progression). Comment texts such as "What is it?", "Tell me more", "What is it?", "What is it?" Also, in the “Aspect Word“ I ”(Past / Past Progressive)” that states the phenomenon, “How was it?”, “How was it?” As “Detailed Question (Past Content)” The comment text such as “.” Is associated. In addition, comment text such as “what is it?”, “What is it?”, “What is it?”, Etc., is associated with “hearing form” as “detailed prediction sentence”. Note that the expression examples and comment text examples described above are merely examples, and may include other than these. Although not shown in the figure, each comment text pattern and each comment text is given an appropriate identifier so as to be distinguished from other comment texts.
[0029]
However, in the database 107 functioning as the comment storage unit CMD, in addition to the above-described comment text, for example, a comment text such as “Yes” or “Is it?” That is simply an expression of matching, and an agent voices. Comment text and conversation such as “What do you think?”, Which is inserted between the opinion sentence that is virtually read out by the output and connected to the topic or calling other users One or more comment texts such as “Now it is a topic of ~” representing the start are also stored.
[0030]
In addition, the opinion sentence that the user U inputs at his / her client computer CC and submits by transmission is stored in the POC server PS. Each of these opinion sentences is a monologue composed of monologous sentences described by the user U himself / herself. Text. FIG. 11 shows an example of the opinion sentence. As shown in the figure, the opinion sentence OPT is composed of a title part OPH described in the “Title” field and a body part OPM described in the “Text” field. Is described. Each opinion sentence OPT is managed by a unique identifier that is distinguished from other opinion sentences OPT. In the present embodiment, the opinion sentence is converted into the XML (extensible Markup Language) format in the POC server PS, but may be in other formats. Furthermore, each opinion sentence may be accompanied by a related image OPI composed of a moving image or a still image.
[0031]
Further, it is assumed that two types of speaker agents are set in advance: a main caster agent and an announcer agent. That is, it is assumed that a facial character image created by the photoface character creation system and a synthesized voice created by the TSS system are set in association with each of the main caster agent and the announcer agent. Here, the announcer agent is set as a speaker who reads out the body part OPM of the original opinion sentence out of the conversation text created based on the opinion sentence. On the other hand, it is assumed that the main caster agent is set to play the title part OPH and the comment text.
[0032]
Hereinafter, an operation example of the POC caster A7 will be described using the example of the opinion sentence shown in FIG. 11, the example of the conversation text shown in FIG. 12, the example of the flowchart shown in FIG. 13, the example of the screen shown in FIG.
[0033]
First, as a premise, for example, it is assumed that many opinion sentences from the user U as shown in FIG. 11 are stored in the POC server PS as monolog text. In other words, each user U posts his / her opinion using the electronic bulletin board provided by the POC server PS. Further, the POC server PS or the POC caster A7 transmits and displays a screen displaying a keyword input field to the client computer CC of the user U who wants to view the introduction of the opinion sentence. It is assumed that a certain keyword is input to and transmitted from the client computer CC to the POC caster A7.
[0034]
When the POC caster A7 acquires the keyword transmitted from the client computer CC (FIG. 13; step S1), the POC caster A7 searches the POC server PS and searches for an opinion sentence (monolog text) OPT related to the acquired keyword (step S2). ). In this search, for example, an appropriate method such as a search of only the title part OPH, a full-text search of the title part OPH and the text part OPM can be employed. When one or more opinion sentences OPT can be acquired from the POC server PS (step S2a; Yes), the process proceeds to the next. Here, when there are a plurality of acquired opinion sentences OPT, they are arranged in an appropriate order such as an ascending or descending order of identifiers, or a date order. On the other hand, when there is no opinion sentence OPT corresponding to the acquired keyword (step S2a; No), information to that effect is transmitted to the client computer CC (step S2b).
[0035]
Next, it is determined whether or not all of the opinion sentences OPT have been introduced. If the introduction has been completed (step S3; No), a single sentence text in which one opinion sentence OPT is delimited for each period "." (Step S4). Then, the sentence end expression of each single sentence text is analyzed (step S5), the comment text corresponding to the sentence end expression pattern corresponding to the sentence end expression of each single sentence text is extracted from the database 107 (step S6), and the extracted comment text is extracted. The conversation text CVT is generated by inserting it after each single sentence text (step S7). Here, as an example, if the acquired opinion sentence OPT is as shown in FIG. 11, the generated conversation text CVT is as shown in FIG. That is, the body part OPM of the opinion sentence OPT shown in FIG. 11 is divided into four single sentence texts. First, the title part OPH is allocated to the main caster agent MCA. Here, since there is no preceding single sentence text in the opinion sentence OPT before the title part OPH, the comment text indicating the start of the conversation and the description of the title part OPH are synthesized, and “First of all, walking. "This is a topic." In this way, whether or not “first time ...” can be changed as appropriate according to the order of introduction of the opinion sentences. For example, comments such as “Next is ...” or “Last is ...” You can use text. Next, the first sentence of the body part OPM is allocated to the announcer agent ANA, but the sentence at the end of the first minute corresponds to the “hearing form” of “… Yes.” The comment text is assigned to the main caster agent MCA. Similarly, the second sentence and the third sentence are allocated to the announcer agent ANA, and comment texts “Tell me more” and “Yes” corresponding to the sentence end expressions of the second sentence and the third sentence are main. Allocated to the caster agent MCA. Furthermore, the fourth sentence is also allocated to the announcer agent ANA, but since the fourth sentence is a single sentence text at the end of the opinion sentence OPT, it is an expression that is called to another user U, and is sent to the next opinion sentence OPT. The comment text “How about you,” which will be connected, is assigned to the main caster agent MCA.
[0036]
Returning to the flowchart shown in FIG. 13, the description of the title part OPH among the generated conversation text CVT (step S8; Yes) gives the main caster agent MCA the comment text utterance operation, while the announcer A break operation is given to the agent ANA (step S8a). If it is not the title part OPH, that is, the text part OPM (step S8; No), it is determined whether or not the sentence end expression is an expression that states introduction, and if not (step S8b; No), The announcer agent ANA is given a reading operation of a single text, while the main caster agent MCA is given a resting operation (step S8c). On the other hand, if the sentence ending expression is an expression that describes the introduction (step S8; Yes), the main caster agent MCA is given a comment text reading operation, while the announcer agent ANA is given a rest operation (step S8a). Then, when an action is given to the main caster agent MCA and the announcer agent ANA, voices are synthesized when the corresponding animation is generated. Here, the animation operation includes an operation in which at least the main caster agent MCA and the announcer agent ANA can move their mouths. However, as will be described later, if the attached image is attached to the opinion sentence OPT, There are variations, such as making the finger point and move. Further, as described above, if there is an attached image OPI in the opinion sentence OPT (step S10; Yes), the attached image is transmitted, for example, by placing it in the center of the transmission image to be displayed on the client computer CC. Combine the attached image with the image. After that, or when there is no attached image (step S10; No), the text data of the conversation text CVT is synthesized in, for example, the lower column of the transmitted image (step S11), and all data is transmitted in a format that can be viewed on the client computer CC. (Step S12). The images displayed on the display of the client computer CC as a result of the transmission are as shown in FIGS. 14 to 22, for example. The audio of the main caster agent MCA and the announcer agent ANA is transmitted from the speaker of the client computer CC. Is output.
[0037]
The screen displayed on the display of the client computer CC and the sound output from the speaker will be described. In FIGS. 14 to 22, an attached image is displayed at the center of the screen, and an image of the main caster agent MCA is displayed on the left side. The image of the announcer agent ANA is arranged on the right side. Then, in accordance with the conversation text CVT shown in FIG. 12, the action of each agent and the voice output for reading out the comment or the opinion sentence are sequentially displayed, and the character data associated with this voice output is displayed (the lower column of the screen). First, as shown in FIG. 14, the main caster agent MCA performs an operation of reading out the comment “First of all ...” which is a combination of the title part OPH of the opinion sentence and the comment text indicating the start of the conversation, Output and display the character data of this comment in the lower column of the screen. Next, as shown in FIG. 15, the announcer agent ANA reads out the first sentence “Ise Shimano…” in the body part OPM, outputs the voice, and displays the character data of this comment in the lower column of the screen. Is displayed. At this time, the announcer agent ANA is caused to perform an animation operation indicating the attached image OPI. Next, as shown in FIG. 16, the speaker switches to the main caster agent MCA to read out the comment “What is it?” And outputs the voice, and the comment is displayed in the lower column of the screen. Display character data. Furthermore, as shown in FIG. 17, the speaker replaces the announcer agent ANA and reads out the second sentence “Large-scale facility sightseeing…” in the text part OPM, and outputs the voice, The character data of this comment is displayed in the column. Subsequently, as shown in FIG. 18, the main caster agent MCA performs an operation of reading out the comment “Tell me more”, outputs the sound, and displays the character data of this comment in the lower column of the screen. Next, as shown in FIG. 19, the speaker changes to the announcer agent ANA, reads out the third sentence “Beautiful scenery and…” of the text part OPM, outputs the voice, and displays it in the lower column of the screen. Displays the character data of this comment. On the other hand, as shown in FIG. 20, the main caster agent MCA performs an operation of reading out the comment “Yes.”, Outputs the voice, and displays the character data of this comment in the lower column of the screen. Then, as shown in FIG. 21, the announcer agent ANA reads out the final sentence “Would you like to join us?” In the body part OPM, outputs the sound, and displays the comment text in the lower column of the screen. Display data. Finally, as shown in FIG. 22, the main caster agent MCA reads out the comment “How about you, everyone”, outputs the sound, and displays the character data of this comment in the lower column of the screen. This leads to the introduction of the next opinion sentence OPT.
[0038]
That is, when the above steps are completed, the process returns to step S3, and the next opinion sentence OPT is processed. When the introduction of all the opinion sentences OPT ends (step S3; Yes), the processing for the originally acquired rank keyword is ended. Note that steps S9 to S11 are not necessarily in this order, and the order may be appropriately changed.
[0039]
As described above, for the opinion sentence posted by the user U, the intention of the target opinion sentence is inferred from the sentence end expression, which is a surface clue of the opinion sentence, and the comment text is inserted or added and synthesized. Therefore, the other user U can view the opinion sentence in a conversation format. Therefore, even if the original information presentation is an opinion sentence that is a monologous sentence, information can be provided in a manner that is more familiar to the user U who views it and that reduces the burden on understanding.
[0040]
The present invention is not limited to the embodiment described above. For example, it is possible to increase or decrease the sentence end expression patterns of the divided single sentence text, and to appropriately increase or decrease the expression examples corresponding to each pattern and the number of corresponding comment texts. In addition, since the text posted on the electronic bulletin board is not a formal text, the title section and the text section may be connected as one text in the posted opinion text. It is also possible to perform processing such as normalizing a sentence that begins with a case particle such as “O”, “GA”, “NO”, or a symbol such as “...”. In addition, the specific configuration of each part is not limited to the above embodiment, and various modifications can be made without departing from the spirit of the present invention. Further, the generated conversation text is not limited to two, but can be a conversation sentence of three or more parties. Furthermore, the present invention can be applied to fields or systems other than POC.
[0041]
【The invention's effect】
According to the present invention, as described in detail above, a monologue text, which is a sentence described by one person, is processed into a single sentence, and the conversation format that can reduce the burden on the understanding required by the listener or the reader. It can be converted. In other words, by patterning the sentence end expression, which is the surface clue of the monologue text, guessing the intended purpose of the monologue text and inserting an appropriate comment at the end of the single sentence, it is possible to add to the topic content or field. It is possible to generate a conversation expression without limitation. Therefore, by applying the present invention, it is greatly useful for the management of opinion introduction programs in a community where unspecified topics such as POC appear, and for research on conversation.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a functional configuration of a conversation expression generation device corresponding to claim 1 of the present invention;
FIG. 2 is a block diagram showing a functional configuration of a conversation expression generation device corresponding to claim 2 of the present invention;
FIG. 3 is a block diagram showing a functional configuration of a conversation expression generation device corresponding to claim 4 of the present invention;
FIG. 4 is a block diagram showing a functional configuration of a conversation expression generation device corresponding to claim 5 of the present invention;
FIG. 5 is a block diagram showing a functional configuration of a conversation expression generation device corresponding to claim 6 of the present invention;
FIG. 6 is a block diagram showing a functional configuration of a conversation expression generation device corresponding to claim 7 of the present invention;
FIG. 7 is a block diagram showing a functional configuration of a conversation expression generation device corresponding to claim 8 of the present invention;
FIG. 8 is an overview diagram showing a POC system to which an embodiment of the present invention is applied.
FIG. 9 is a schematic internal device configuration diagram of the POC caster of the embodiment.
FIG. 10 is a diagram showing an example of internal data of a comment storage unit applied to the embodiment.
FIG. 11 is a diagram showing an example of an opinion sentence applied to the embodiment.
FIG. 12 is a view showing an example of a conversation text generated in the embodiment.
FIG. 13 is a flowchart schematically showing the operation of the embodiment.
FIG. 14 is a diagram showing an example of a screen displayed on the client computer in the embodiment.
FIG. 15 is a view showing an example of a screen displayed on the client computer in the embodiment.
FIG. 16 is a view showing an example of a screen displayed on the client computer in the embodiment.
FIG. 17 is a view showing an example of a screen displayed on the client computer in the embodiment.
FIG. 18 is a view showing an example of a screen displayed on the client computer in the embodiment.
FIG. 19 is a view showing an example of a screen displayed on the client computer in the embodiment.
FIG. 20 is a view showing an example of a screen displayed on the client computer in the embodiment.
FIG. 21 is a view showing an example of a screen displayed on the client computer in the embodiment.
FIG. 22 is a view showing an example of a screen displayed on the client computer in the embodiment.
[Explanation of symbols]
1 ... Monologue text acquisition means
2 ... Pretreatment means
3 ... sentence end processing means
4 ... Comment selection means
5 ... Conversation expression generating means
6 ... Conversation text output means
7 ... Keyword acquisition means
8 ... Speaker decision means
9. Sound output means
10: Animation processing means
11: Character data output means
12. Image data processing means
A1, A2, A3, A4, A5, A6, A7 ... conversation expression generating device
CMD ... Comment storage
MTD: Monologue text storage

Claims (32)

モノローグ的文章からなるモノローグテキストに基づいて、会話表現を生成するものであって、モノローグテキストを格納したモノローグテキスト格納部から取得するモノローグテキスト取得手段と、取得したモノローグテキストを単文形式に分割し一以上の単文テキストを生成する前処理手段と、生成された単文テキストの文末表現を解析し当該文末表現を予め設定された複数の文末表現パターンの何れか一つに対応付ける文末処理手段と、各文末表現パターンに対応付けてそれらに応答する表現として設定された複数のコメントテキストを格納するコメント格納部から前記何れかの一の文末表現パターンに対応付けられた単文テキストに対応する一のコメントテキストを選択するコメント選択手段と、前記単文テキストの後に選択されたコメントテキストを挿入し単文テキストとコメントテキストからなる会話テキストを生成する会話表現生成手段と、生成した会話テキストを出力する会話テキスト出力手段とを具備してなることを特徴とする会話表現生成装置。Based on monologue text composed of monologue text, a conversation expression is generated. Monologue text acquisition means for acquiring from the monologue text storage unit storing monologue text, and the obtained monologue text is divided into a single sentence format. Preprocessing means for generating the above single sentence text, sentence end processing means for analyzing the sentence end expression of the generated single sentence text and associating the sentence end expression with any one of a plurality of preset sentence end expression patterns, and each sentence end One comment text corresponding to the single sentence text associated with any one sentence end expression pattern from the comment storage unit that stores a plurality of comment texts set as expressions responding to the expression patterns Comment selecting means to select and selected after the simple text A conversation expression generating means for generating a conversation text by inserting the instrument text consisting sentence text and comment text conversation expression generating apparatus characterized by comprising; and a conversation text output means for outputting the generated conversation text. ユーザにより入力されたキーワードを取得するキーワード取得手段を更に具備し、前記モノローグテキスト取得手段が、前記モノローグテキスト格納部から前記キーワードに対応する一以上の前記モノローグテキストを取得するものであって、前記前処理手段が、取得されたモノローグテキストのそれぞれについて単文テキストを生成するものである請求項1記載の会話表現生成装置。Further comprising a keyword obtaining means for obtaining the input keyword by a user, the monologue text acquisition means, the monologue be from the text storage unit configured to acquire one or more of the monologue text corresponding to the keyword, the The conversation expression generation apparatus according to claim 1, wherein the preprocessing means generates a single sentence text for each of the acquired monologue texts. 前記モノローグテキスト格納部が、ユーザの入力により電子掲示板に投稿された意見文テキストを前記モノローグテキストとして格納するものであり、前記モノローグテキスト取得手段が、この意見文であるモノローグテキストを取得するものである請求項1又は2記載の会話表現生成装置。But the monologue text storing unit, which stores an opinion statement text posted on the electronic bulletin board by an input of the user as the monologue text, said monolog text acquisition means acquires the monologue text is this sentiments The conversation expression generation device according to claim 1 or 2. 二以上の予め設定された話者エージェントのそれぞれに対して、出力された前記会話テキストのうち単文テキストの読み手として一の話者エージェントを対応付けるとともに、前記コメントテキストの読み手として他の話者エージェントを対応付ける処理を行う話者決定手段を更に具備している請求項1、2又は3記載の会話表現生成装置。For each of the two or more preset speaker agent, together with the associated one of the speaker agent as reader's simple sentence text of the outputted the conversation text, the other speaker agent as readers of the comment text 4. The conversation expression generation device according to claim 1, further comprising speaker determination means for performing a process of associating. 前記話者決定手段で決定した各話者エージェントごとに異なる音声で対応する単文テキスト又はコメントテキストを音声出力する音声出力手段を更に具備している請求項4記載の会話表現生成装置。 5. The conversation expression generating apparatus according to claim 4, further comprising voice output means for outputting a single sentence text or comment text corresponding to each speaker agent determined by the speaker determination means by voice. 前記音声出力手段で出力される単文テキスト又はコメントテキストの音声に対応して、各話者エージェントに当該話者エージェントの画像のうち少なくとも口を動かせるアニメーション動作を付加し出力するアニメーション処理手段を更に具備している請求項5記載の会話表現生成装置。 In correspondence with the voice of the single sentence text or comment text output by the voice output means, animation processing means for adding an animation operation that can move at least the mouth of the image of the speaker agent to each speaker agent and outputting it is further provided. The conversation expression generation device according to claim 5. 前記各話者エージェントと共に、対応する単文テキスト又はコメントテキストを画面表示可能な文字データとして出力する文字データ出力手段を更に具備している請求項4、5又は6記載の会話表現生成装置。 Wherein with each speaker agent, the corresponding simple sentence text or conversation representation generator of the character data output means further comprising to have claim 4, 5 or 6, wherein the outputting the comment text as screen printable character data. 前記話者エージェントの一つとして、会話表現の進行役となるメインキャスタエージェントを設定してあり、前記話者決定手段が、メインキャスタエージェントをコメントテキストの読み手として決定するものである請求項4、5、6又は7記載の会話表現生成装置。 5. The main caster agent that is a facilitator of conversation expression is set as one of the speaker agents, and the speaker determining means determines the main caster agent as a reader of comment text. The conversation expression generation device according to 5, 6 or 7 . 前記モノローグテキストが、その内容の本質的部分である本文部と概要を示す表題部とから構成されるものであり、前記話者決定手段が、メインキャスタエージェントを表題部の読み手として決定するものである請求項8記載の会話表現生成装置。 The monologue text is composed of a body part which is an essential part of the content and a title part indicating an outline, and the speaker determining means determines the main caster agent as a reader of the title part. conversation representation generation apparatus is claimed in claim 8. 前記コメント格納部に、会話表現の開始を示すコメントテキストが格納されており、前記コメント選択手段が、当該単文テキストの前に他の単文テキストがない場合に前記開始を示すコメントテキストを選択し、前記話者選択手段において、当該コメントテキストに表題部を合成したものをメインキャスタエージェントに対応付けるものである請求項9記載の会話表現生成装置。 Comment text indicating the start of conversation expression is stored in the comment storage unit, and the comment selection means selects the comment text indicating the start when there is no other single text before the single text, 10. The conversation expression generation device according to claim 9 , wherein the speaker selection means associates the comment text with the title part combined with the main caster agent . 前記モノローグテキストが、その内容の本質的部分である本文部と概要を示す表題部とから構成されるものであり、前記メインキャスタエージェントとは異なる話者エージェントとして一以上のアナウンサーエージェントが設定されてあり、前記話者決定手段が、アナウンサーエージェントを本文部の読み手として決定するものである請求項8、9又は10記載の会話表現生成装置。 The monologue text is composed of a body part which is an essential part of the content and a title part indicating an outline, and one or more announcer agents are set as speaker agents different from the main caster agent. 11. The conversation expression generating device according to claim 8, wherein the speaker determining means determines the announcer agent as a reader of the body part . 前記モノローグテキストが画像データを伴っている場合、前記モノローグテキスト格納部から当該画像データを取得し出力する画像データ処理手段を更に具備している請求項1、2、3、4、5、6、7、8、9、10又は11記載の会話表現生成装置。The image data processing means which acquires and outputs the said image data from the said monologue text storage part when the said monologue text accompanies image data, It further comprises, The conversation expression generation device according to 7, 8, 9, 10 or 11. 前記コメント選択手段が、一のモノローグテキストにおける最終の単文テキストを認識し、最終の単文テキストにおける文末表現パターンに対応付けて次のモノローグテキストへ接続する表現として設定されコメント格納部に格納されたコメントテキストから当該最終の単文テキストの文末表現に対応するコメントテキストを選択するものである請求項1、2、3、4、5、6、7、8、9、10、11又は12記載の会話表現生成装置。 The comment selecting means recognizes the last single sentence text in one monologue text and associates it with the sentence end expression pattern in the last single sentence text to set the expression to be connected to the next monologue text and stored in the comment storage unit The conversation expression according to claim 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 or 12, wherein the comment text corresponding to the sentence end expression of the final single sentence text is selected from the text. Generator. 前記文末表現パターンに、現象を述べ立てることを示す現象叙述形式と伝聞であることを示す伝聞形式とが少なくとも含まれるとともに、前記コメントテキストに、現象叙述形式に対応する質問文形式に該当するコメントテキストと伝聞形式に対応する予想文形式に該当するコメントテキストとが少なくとも含まれ、前記文末処理手段が、前記単文テキストの文末表現を現象叙述形式又は伝聞形式の何れかに対応付けるとともに、それに対応して前記コメント選択手段において、質問文形式又は予想文形式の何れか一方のコメントテキストを選択するものである請求項1、2、3、4、5、6、7、8、9、10、11、12又は13記載の会話表現生成装置。 The suffix patterns, with a hearsay form indicating that phenomenon is hearsay symptoms and narrative showing that make mention is included at least, a comment corresponding to the question sentence form the comment in the text, corresponding to the phenomenon narrative text and a comment text corresponding to the expected sentence format corresponding to hearsay format contains at least the end of the sentence processing means, together with associated to one of the simple sentence phenomenon narrative or hearsay form endnote representation of text, correspondingly in the comment selection means Te, and selects either one of the comment text in question form or expected sentence format claim 1, 2, 3, 4 , 12 or 13. 質問文形式及び予想文形式の前記コメントテキストを、それぞれ複数ずつ設定してあり、前記コメント選択手段が、それら複数のコメントテキストから何れか一のコメントテキストを選択するものである請求項14記載の会話表現生成装置。 The comment text in question format and expected sentence format, respectively Yes set by plurality, the comments selection means, according to claim 14, wherein it is intended to select any one of the comment text from the plurality of comment text Conversation expression generator. 複数のユーザが入力することにより利用可能な電子掲示板に入力されたモノローグテキストを格納する前記モノローグテキスト格納部と、前記コメント格納部とを有し、且つ、入力されたモノローグテキストに基づいて生成される会話表現テキストを放送可能なインタラクティブ放送システムにおいて適用され、入力されたモノローグテキストに基づいて会話テキストを生成し、当該会話テキストを放送可能に出力するために用いられるものである請求項1、2、3、4、5、6、7、8、9、10、11、12、13、14又は15記載の会話表現生成装置。The monologue text storage unit that stores monologue text input to an electronic bulletin board that can be used by a plurality of users and the comment storage unit, and is generated based on the input monologue text An interactive broadcasting system capable of broadcasting a conversation expression text to be generated, used to generate a conversation text based on an input monologue text, and to output the conversation text so as to be broadcastable. 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, or 15. コンピュータを動作させることによって、当該コンピュータを、モノローグ的文章からなるモノローグテキストに基づいて会話表現を生成する会話表現生成装置として機能させるためのプログラムであって、前記コンピュータを、モノローグテキストを格納したモノローグテキスト格納部から取得するモノローグテキスト取得手段と、取得したモノローグテキストを単文形式に分割し一以上の単文テキストを生成する前処理手段と、生成された単文テキストの文末表現を解析し当該文末表現を予め設定された複数の文末表現パターンの何れか一つに対応付ける文末処理手段と、各文末表現パターンに対応付けてそれらに応答する表現として設定された複数のコメントテキストを格納するコメント格納部から前記何れかの一の文末表現パターンに対応付けられた単文テキストに対応する一のコメントテキストを選択するコメント選択手段と、前記単文テキストの後に選択されたコメントテキストを挿入し単文テキストとコメントテキストからなる会話テキストを生成する会話表現生成手段と、生成した会話テキストを出力する会話テキスト出力手段として機能させることを特徴とする会話表現生成プログラム。A program for causing a computer to function as a conversation expression generation device that generates a conversation expression based on monolog text composed of monologous sentences by operating the computer, the computer storing the monolog text Monologue text acquisition means to acquire from the text storage, preprocessing means to divide the acquired monologue text into a single sentence format and generate one or more single sentence texts, analyze the sentence end expression of the generated single sentence text, and The sentence end processing means for associating with any one of a plurality of sentence end expression patterns set in advance, and a comment storage unit for storing a plurality of comment texts set as expressions corresponding to each sentence end expression pattern and responding thereto Any one sentence end expression pattern Comment selecting means for selecting one comment text corresponding to the associated single sentence text, and conversation expression generating means for inserting the selected comment text after the single sentence text and generating conversation text composed of the single sentence text and the comment text And a conversation expression generating program that functions as a conversation text output means for outputting the generated conversation text. 前記コンピュータを、ユーザにより入力されたキーワードを取得するキーワード取得手段として更に機能させ、前記モノローグテキスト取得手段において、前記モノローグテキスト格納部から前記キーワードに対応する一以上のモノローグテキストを取得し、前記前処理手段において、取得されたモノローグテキストのそれぞれについて単文テキストを生成するようにしている請求項17記載の会話表現生成プログラム。Said computer to further function as a keyword acquisition means for acquiring a keyword inputted by a user, wherein in monologue text acquisition unit acquires one or more monologue text corresponding to the keyword from the monologue text storage unit, the front The conversation expression generation program according to claim 17, wherein the processing means generates a single sentence text for each of the acquired monologue texts. 前記モノローグテキスト格納部が、ユーザの入力により電子掲示板に投稿された意見文テキストを前記モノローグテキストとして格納するものであり、前記モノローグテキスト取得手段において、この意見文であるモノローグテキストを取得するようにしている請求項17又は18記載の会話表現生成プログラム。 The monologue text storage unit, which stores an opinion statement text posted on the electronic bulletin board by an input of the user as the monologue text, in the monologue text acquisition means, so as to obtain a monologue text is this sentiments The conversation expression generation program according to claim 17 or 18. 前記コンピュータを、二以上の予め設定された話者エージェントのそれぞれに対して、出力された前記会話テキストのうち単文テキストの読み手として一の話者エージェントを対応付けるとともに、前記コメントテキストの読み手として他の話者エージェントを対応付ける処理を行う話者決定手段として更に機能させる請求項17、18又は19記載の会話表現生成プログラム。The computer, for each of the two or more preset speaker agent, together with the associated one of the speaker agent as reader's simple sentence text of the outputted the conversation text, the other as a reader of the comment text 20. The conversation expression generation program according to claim 17, 18 or 19, further functioning as speaker determining means for performing processing for associating a speaker agent. 前記コンピュータを、前記話者決定手段で決定した各話者エージェントごとに異なる音声で対応する単文テキスト又はコメントテキストを音声出力する音声出力手段として更に機能させる請求項20記載の会話表現生成プログラム。The computer, the corresponding simple sentence text or claim 20 conversation representation generator according to further features comments text as speech output means for audio output with different sound for each speaker agents determined in the speaker determining means. 前記コンピュータを、前記音声出力手段で出力される単文テキスト又はコメントテキストの音声に対応して、前記各話者エージェントに当該話者エージェントの画像のうち少なくとも口を動かせるアニメーション動作を付加し出力するアニメーション処理手段として更に機能させる請求項21記載の会話表現生成プログラム。Said computer, in response to the sound of simple sentence text or comment text is output by the speech output unit, said adding animation operation move at least the mouth of each speaker agent of the speaker's agent image output animation The conversation expression generation program according to claim 21, which further functions as processing means. 前記コンピュータを、前記各話者エージェントと共に、対応する前記単文テキスト又は前記コメントテキストを画面表示可能な文字データとして出力する文字データ出力手段として更に機能させる請求項19、21又は22記載の会話表現生成プログラム。Said computer, said with each speaker agent, conversation representation of the corresponding simple sentence text or even claims 19, 21 or 22, wherein the functioning of the said comment text as character data output means for outputting a screen printable character data generation program. 前記話者エージェントの一つとして、会話表現の進行役となるメインキャスタエージェントが設定されており、前記話者決定手段において、メインキャスタエージェントを前記コメントテキストの読み手として決定するようにしている請求項20、21、22又は23記載の会話表現生成プログラム。 The main caster agent that is a facilitator of conversation expression is set as one of the speaker agents, and the speaker determining means determines the main caster agent as a reader of the comment text. The conversation expression generation program according to 20, 21, 22, or 23 . 前記モノローグテキストが、その内容の本質的部分である本文部と概要を示す表題部とから構成されるものであり、前記話者決定手段において、前記メインキャスタエージェントを表題部の読み手として決定するようにしている請求項24記載の会話表現生成プログラム。 The monologue text is composed of a body part which is an essential part of the content and a title part indicating an outline, and the speaker determining means determines the main caster agent as a reader of the title part. The conversation expression generation program according to claim 24 . 前記コメント格納部に、会話表現の開始を示すコメントテキストが格納されており、前記コメント選択手段において当該単文テキストの前に他の単文テキストがない場合に前記開 始を示すコメントテキストを選択し、前記話者選択手段において、当該コメントテキストに表題部を合成したものをメインキャスタエージェントに対応付けるようにしている請求項25記載の会話表現生成プログラム。 Wherein the comment storing portion, are stored comments text indicating the start of a conversation representation, the selected comment text indicating the start in front of the simple sentence text if no other sentence text in the comment selection means, 26. The conversation expression generating program according to claim 25 , wherein said speaker selecting means associates the comment text with a title part combined with a main caster agent . 前記モノローグテキストが、その内容の本質的部分である本文部と概要を示す表題部とから構成されるものであり、前記メインキャスタエージェントとは異なる話者エージェントとして一以上のアナウンサーエージェントが設定されてあり、前記話者決定手段において、前記アナウンサーエージェントを本文部の読み手として決定するようにしている請求項24、25又は26記載の会話表現生成プログラム。 The monologue text is composed of a body part which is an essential part of the content and a title part indicating an outline, and one or more announcer agents are set as speaker agents different from the main caster agent. 27. The conversation expression generation program according to claim 24, 25, or 26, wherein the speaker determination means determines the announcer agent as a reader of a body part . 前記モノローグテキストが画像データを伴っている場合、前記コンピュータを、前記モノローグテキスト格納部から当該画像データを取得し出力する画像データ処理手段として更に機能させる請求項17、18、19、20、21、22、23、24、25、26又は27記載の会話表現生成プログラム。 When the monologue text is accompanied by image data, the computer is further caused to function as image data processing means for acquiring and outputting the image data from the monologue text storage unit. The conversation expression generation program according to 22, 23, 24, 25, 26 or 27 . 前記コメント選択手段において、一のモノローグテキストにおける最終の単文テキストを認識し、最終の単文テキストにおける文末表現パターンに対応付けて次のモノローグテキストへ接続する表現として設定され前記コメント格納部に格納されたコメントテキストから当該最終の単文テキストの文末表現に対応するコメントテキストを選択するようにしている請求項17、18、19、20、21、22、23、24、25、26、27又は28記載の会話表現生成プログラム。In the comment selection unit recognizes the last sentence text in one monologue text, in association with the suffix patterns in the final sentence text is set as an expression for connecting to the next monologue text stored in the comment storing portion 29. The comment text corresponding to the sentence end expression of the final single sentence text is selected from the comment text. 29. The method according to claim 18, wherein the comment text is selected from the comment text. Conversation expression generation program. 前記文末表現パターンに、現象を述べ立てることを示す現象叙述形式と伝聞であることを示す伝聞形式とが少なくとも含まれるとともに、前記コメントテキストに、現象叙述形式に対応する質問文形式に該当するコメントテキストと伝聞形式に対応する予想文形式に該当するコメントテキストとが少なくとも含まれ、前記文末処理手段において単文テキストの文末表現を現象叙述形式又は伝聞形式の何れかに対応付けるとともに、それに対応して前記コメント選択手段において、質問文形式又は予想文形式の何れか一方のコメントテキストを選択するようにしている請求項17、18、19、20、21、22、23、24、25、26、27、28又は29記載の会話表現生成プログラム。 The suffix patterns, with a hearsay form indicating that phenomenon is hearsay symptoms and narrative showing that make mention is included at least, a comment corresponding to the question sentence form the comment in the text, corresponding to the phenomenon narrative comments and text contains at least corresponding to the expected sentence format corresponding to the text and hearsay form, together with the associated endnote representation of simple sentence text in any of the symptoms narrative or hearsay form in the end of the sentence processing means, the correspondingly The comment selection means selects either one of the question text format or the expected text format comment text, 18, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28. The conversation expression generation program according to 28 or 29. 質問文形式及び予想文形式の前記コメントテキストを、それぞれ複数ずつ設定してあり、コ前記メント選択手段において、それら複数のコメントテキストから何れか一のコメントテキストを選択するようにしている請求項30記載の会話表現生成プログラム。 The comment text in question format and expected sentence format, respectively Yes set by a plurality, in co said instrument selection means, claim they are a plurality of comment text to select any one of the comment text 30 The described conversation expression generation program. 複数のユーザが入力することにより利用可能な電子掲示板に入力されたモノローグテキストを格納する前記モノローグテキスト格納部と、前記コメント格納部とを有し、且つ、入力された前記モノローグテキストに基づいて生成される会話表現テキストを放送可能なインタラクティブ放送システムにおいて適用され、入力されたモノローグテキストに基づいて会話テキストを生成し、当該会話テキストを放送可能に出力するために用いられるものである請求項17、18、19、20、21、22、23、24、25、26、27、28、29、30又は31記載の会話表現生成プログラム。Said monologue text storage unit for storing a monologue text entered into the electronic bulletin board available by a plurality of user inputs, and a the comment storing portion, and, generated based on the inputted monologue text 18. The present invention is applied to an interactive broadcasting system capable of broadcasting a conversation expression text, and is used to generate a conversation text based on an inputted monologue text and to output the conversation text so as to be broadcastable. The conversation expression generation program according to 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30 or 31.
JP2002265209A 2002-09-11 2002-09-11 Conversation expression generation device and conversation expression generation program Expired - Lifetime JP3787623B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002265209A JP3787623B2 (en) 2002-09-11 2002-09-11 Conversation expression generation device and conversation expression generation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002265209A JP3787623B2 (en) 2002-09-11 2002-09-11 Conversation expression generation device and conversation expression generation program

Publications (2)

Publication Number Publication Date
JP2004102764A JP2004102764A (en) 2004-04-02
JP3787623B2 true JP3787623B2 (en) 2006-06-21

Family

ID=32264411

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002265209A Expired - Lifetime JP3787623B2 (en) 2002-09-11 2002-09-11 Conversation expression generation device and conversation expression generation program

Country Status (1)

Country Link
JP (1) JP3787623B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825948B (en) * 2019-11-05 2022-10-18 重庆邮电大学 Rumor propagation control method based on rumor-splitting message and representation learning
CN112819567B (en) * 2021-01-21 2024-04-30 万象春天实业集团(武汉)有限公司 Intelligent bidding platform-based management method and device
CN113486649B (en) * 2021-06-24 2023-07-04 竹间智能科技(上海)有限公司 Text comment generation method and electronic device

Also Published As

Publication number Publication date
JP2004102764A (en) 2004-04-02

Similar Documents

Publication Publication Date Title
US20200395008A1 (en) Personality-Based Conversational Agents and Pragmatic Model, and Related Interfaces and Commercial Models
Danescu-Niculescu-Mizil et al. You had me at hello: How phrasing affects memorability
Rubin et al. Artificially intelligent conversational agents in libraries
US20200137001A1 (en) Generating responses in automated chatting
Todman et al. Whole utterance approaches in AAC
CN107040452B (en) Information processing method and device and computer readable storage medium
TW200416567A (en) Multimodal speech-to-speech language translation and display
CN111414506B (en) Emotion processing method and device based on artificial intelligence, electronic equipment and storage medium
Pirhonen et al. Non-speech sounds as elements of a use scenario: a semiotic perspective
Chi et al. Intelligent assistance for conversational storytelling using story patterns
CN114969282A (en) Intelligent interaction method based on rich media knowledge graph multi-modal emotion analysis model
Foster State of the art review: Multimodal fission
Shawar et al. A chatbot system as a tool to animate a corpus
JP2000259601A (en) Conversation device and its method
JP3787623B2 (en) Conversation expression generation device and conversation expression generation program
CN113542797A (en) Interaction method and device in video playing and computer readable storage medium
Gobron et al. An Interdisciplinary VR-architecture for 3D Chatting with Non-verbal Communication.
Ishizuka et al. Describing and generating multimodal contents featuring affective lifelike agents with MPML
Saito et al. Chatgpt-edss: Empathetic dialogue speech synthesis trained from chatgpt-derived context word embeddings
JP2006031467A (en) Response generation program, response generation method and response generation apparatus
Marriott A Facial Animation Case Study for HCI: The VHML‐Based Mentor System
US20220301250A1 (en) Avatar-based interaction service method and apparatus
Rahimi Linguistic Entrainment in Multi-Party Spoken Dialogues
Haugland “Excited to see what great things this year will bring💃�”; an empirical study on emojis and discourse relations
Klüwer et al. Evaluation of the KomParse Conversational Non-Player Characters in a Commercial Virtual World.

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20041213

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20050125

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060214

R150 Certificate of patent or registration of utility model

Ref document number: 3787623

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term