JP7180127B2

JP7180127B2 - 情報提示システム、情報提示方法及びプログラム

Info

Publication number: JP7180127B2
Application number: JP2018106181A
Authority: JP
Inventors: 亮平波多野
Original assignee: Toppan Inc
Current assignee: Toppan Inc
Priority date: 2018-06-01
Filing date: 2018-06-01
Publication date: 2022-11-30
Anticipated expiration: 2038-06-01
Also published as: JP2019211909A

Description

本発明は、情報提示システム、情報提示方法及びプログラムに関する。

近年、インターネット環境が充実したことにより、ソーシャル・ネットワーク・サービス（以下、ＳＮＳと示す）が普及し、テキストや画像を用いて複数のユーザ間において簡易に意思疎通を行うことが可能となっている。例えば、ＳＮＳのアプリケーションとしては、ＬＩＮＥ（登録商標）、Ｆａｃｅｂｏｏｋ（登録商標）メッセンジャー、Ｓｌａｃｋ（登録商標）などが代表的である。これらのＳＮＳは、一対一のユーザ間の情報のやり取りだけでなく、所定のグループにおける多人数のユーザ間で送受信する情報（複数のユーザ間における対話）を、グループ内の全てのユーザで共有する機能も有している。

また、マン・マシン対話型のＳＮＳとしては、ＧｏｏｇｌｅＡｓｓｉｓｔａｎｔ（登録商標）、ＡｍａｚｏｎＡｌｅｘａ（登録商標）、ＬｉｎｅＣｌｏｖａ（登録商標）などがある。
また、上述したアプリケーションの各々が、パーソナルコンピュータ及びスマートデバイスや、ＧｏｏｇｌｅＨｏｍｅ（登録商標）、ＡｍａｚｏｎＥｃｈｏ（登録商標）、ＣｌｏｖａＷａｖｅ（登録商標）などのスマートスピーカに搭載され、それぞれにおいて音声合成されて、音声を用いた情報提示を主体としたものも広く利用されている。

ＳＮＳにおける情報提示方法には、上記アプリケーション毎に様々な工夫がされている。
例えば、情報提示における提示内容に対して、システム上で定義したキャラクタとともに情報文を提示することを目的として、情報文の言語表現を書き換えて提示する提示方法がある（例えば、特許文献１参照）。

また、ユーザに対して音声により情報提示を行う場合、提示に用いる音声の音声合成に関して、システムが合成した情報提示の音声をユーザに対して、スピーカなどを介して発話して情報の提示を行う。このとき、アプリケーションが、提示される発話をユーザが聴いた際に、発話に対して機械的な不自然さを感じさせない処理を行う情報提示の方法がある（例えば、特許文献２及び特許文献３参照）。

特許第６１６１６５６号公報特許第５９５４３４８号公報特許第６２３２８９２号公報

しかしながら、ユーザとシステムとの間において、音声のみによる対話が行われる場合、ユーザの属性が年齢あるいは性別などの多様性を有しているため、ユーザの聴力や単語に対する理解力が異なる。
このため、システムとの対話において、システムが音声により提供する情報が聞き取れない、あるいは、音声における単語を理解できない等により、対話において情報の内容が正確に伝達されない場合がある。

また、ユーザとシステムとの対話を行うために、ユーザからの問いかけに対してどのような回答をするかについて、予め対話シナリオを想定して対話を実行するルールベース手法を用いることができる。
しかしながら、ルールベースに設定されたルールの各々に対して、多くのユーザの各々に対応させる必要性から手作業によるメンテナンスの必要が有る。このメンテナンスにおいて、上述した多様性のあるユーザの各々に対応させて、聞き取りにくいあるいは理解が困難な単語についての類義の単語や表現を含む上記ルールを設定し、対話シナリオとして構築することは膨大な作業が必要となる。

本発明は、このような状況に鑑みてなされたもので、システムが音声により提供する情報を、ユーザの各々が正確に聞き取ることができ、正確に聞き取れるように発話データを変更する変更モデルがユーザ毎に設けられ、ルールベースに比較してデータ量が少ないため変更モデルのメンテナンス（ユーザに順次対応させていく修正処理）が容易に行える情報提示システム、情報提示方法及びプログラムを提供する。

上述した課題を解決するために、本発明の情報提示システムは、ユーザとの対話において、前記ユーザの各々の音声の聞き取り易さを示す聴取志向を推定し、当該ユーザに対して音声により供給される発話データを、前記ユーザの前記聴取志向に対応して変更する変更モデルを生成及び更新する聴取志向推定部と、前記ユーザ毎に設定されている前記変更モデルに対応し、対話システムからの音声による回答である前記発話データを、前記ユーザの各々の前記聴取志向に基づいて、前記発話データに含まれる擦過音または破裂音を有する単語を、擦過音及び破裂音の無い単語に置き換える提示制御部とを備えることを特徴とする。

本発明の情報提示システムは、前記聴取志向を推定する際に用いる、前記ユーザの各々との前記対話の履歴である対話履歴を対話履歴記憶部に対して、前記ユーザ毎に書き込んで記憶させる、ユーザからの発話に対してルールに基づき応答を決定する対話処理部をさらに備えることを特徴とする。

本発明の情報提示システムは、前記聴取志向推定部が、前記ユーザの前記対話における前記発話データに対する評価から、当該ユーザの前記聴取志向を抽出して、前記ユーザの属性情報及び当該ユーザの前記聴取志向を示す志向情報の各々を、ユーザ属性記憶部に対して、前記ユーザ毎に書き込んで記憶させることを特徴とする。

本発明の情報提示システムは、前記ユーザの各々の前記属性情報に対応して、前記ユーザそれぞれを分類するグルーピングを行い、前記分類毎に含まれる前記ユーザに共通する前記聴取志向により、当該分類それぞれの変更モデルであるテンプレート変更モデルを生成するグルーピング推定部をさらに備えることを特徴とする。

本発明の情報提示システムは、前記聴取志向推定部が、前記変更モデルが用意されていない前記ユーザに対して、当該ユーザに対応する前記分類の前記テンプレート変更モデルを抽出し、前記対話において抽出される前記聴取志向に対応して、当該ユーザに対応する前記変更モデルを生成することを特徴とする。

本発明の情報提示システムは、前記属性情報が、少なくとも、前記ユーザの年齢、性別、居住地を含むデモグラフィックデータの各々の組み合わせとして設定されることを特徴とする。

本発明の情報提示システムは、前記変更モデルが、少なくとも、前記対話処理部により決定されたシステム応答の発話データにおける単語の置き換え、前記発話データを読み上げる際の音声の周波数及び速度、文節の区切りを変更する処理を示すことを特徴とする。

本発明の情報提示システムは、前記提示制御部が、前記変更モデルによる前記発話データを変更した内容である変更内容を、対話行動記憶部に対して、変更履歴として書き込んで記憶させ、前記聴取志向推定部が、前記対話の履歴と前記変更履歴とにより、前記ユーザの前記聴取志向を抽出することを特徴とする。

本発明の情報提示方法は、聴取志向推定部が、ユーザとの対話において、前記ユーザの各々の音声の聞き取り易さを示す聴取志向を推定し、当該ユーザに対して音声により供給される発話データを、前記ユーザの前記聴取志向に対応して変更する変更モデルを生成及び更新する聴取志向推定過程と、提示制御部が、前記ユーザ毎に設定されている前記変更モデルに対応し、ユーザからの発話に対してルールに基づき応答を決定する対話処理部を介して、対話システムからの音声による回答である前記発話データのうち、前記ユーザの各々の前記聴取志向に基づいて、当該発話データに含まれる擦過音または破裂音を有する単語を、擦過音及び破裂音の無い単語に置き換える提示制御過程とを含むことを特徴とする。

本発明のプログラムは、コンピュータを、ユーザとの対話において、前記ユーザの各々の音声の聞き取り易さを示す聴取志向を推定し、当該ユーザに対して音声により供給される発話データを、前記ユーザの前記聴取志向に対応して変更する変更モデルを生成及び更新する聴取志向推定手段、前記ユーザ毎に設定されている前記変更モデルに対応し、対話システムからの音声による回答である前記発話データのうち、前記ユーザの各々の前記聴取志向に基づいて、当該発話データに含まれる擦過音または破裂音を有する単語を、擦過音及び破裂音の無い単語に置き換える提示制御手段として機能させるためのプログラムである。

以上説明したように、本発明によれば、システムが音声により提供する情報を、ユーザの各々が正確に聞き取ることができ、正確に聞き取れるように発話データを変更する変更モデルがユーザ毎に設けられ、ルールベースに比較して事前に対話内容を想定して構築すべき対話シナリオをはじめとしたデータ量が少ないため変更モデルのメンテナンス（ユーザに順次対応させていく修正処理）が容易に行える情報提示システム、情報提示方法及びプログラムを提供することができる。
また、グルーピング推定部があることで、変更モデルが存在しない、あるいは発話データなどの蓄積が不十分なユーザの各々に対して、グループ内で一般化された変更モデルであるテンプレート変更モデルを用いることで、表示情報の最適化を行うことができる。

本発明の一実施形態による、ユーザとシステムとが対話を行う情報提示システムの構成例を示すブロック図である。本実施形態における対話処理部１０２の構成例を示すブロック図である。対話履歴記憶部１０７に記憶されている対話履歴テーブルの構成例を示す図である。本実施形態における聴取志向推定部１０３の構成例を示すブロック図である。ユーザ属性記憶部１０８に記憶されているユーザ属性テーブルの構成例を示す図である。対話行動記憶部１０９に記憶されている対話行動テーブルの構成例を示す図である。図６に示したアクションにおける単語の置き換えの処理を説明する概念図である。グルーピング記憶部１１０に記憶されているグルーピングテーブルの構成例を示す図である。本実施形態の情報提示システムを用いた対話システムの動作例を示すフローチャートである。本発明の一実施形態による、ユーザとシステムとが対話を行う情報提示システムの他の構成例を示す概念図である。

本発明は、例えば、ユーザが質問を行うと、システム側がその質問に対応した回答を、発話データを音声合成した音声により通知する、あるいはユーザ同士で対話する対話システムに関するものである。また、ユーザの聴力及び単語の理解力の各々に対応して、システム側が通知する発話データを変更して、ユーザが対話システムからの回答を聞き易く、また内容を理解し易くする構成に関する。

ユーザの聴力に対応しては、例えば、発話データを音声合成して音声として出力する際における、この音声の周波数、再生速度、再生する文節の区切り、この区切りの時間幅などの変更を行う。ここで、区切りは、発話データを音声として再生する際に、文節と文節との間あるいは単語と単語との間に挿入される無音である。区切りの時間幅は、文節と文節との間あるいは単語と単語との間に挿入される無音の時間の長さを示している。
また、ユーザの単語の理解力に対応しては、例えば、専門用語を一般的に用いている他の同義語（あるいは類義語、類語）である単語に置き換える変更を行う。

以下、本発明の一実施形態について、図面を参照して説明する。図１に対応した以下の説明においては、ユーザとシステムとの対話を例に説明する。
図１は、本発明の一実施形態による、ユーザとシステムとが対話を行う情報提示システムの構成例を示すブロック図である。
図１において、情報提示システム１は、情報提示サーバ１０とユーザ端末１１との各々を備えている。
情報提示サーバ１０とユーザ端末１１との各々は、インターネットを含む情報通信網であるネットワーク５００を介してデータの送受信を行う。

情報提示サーバ１０は、ユーザ端末１１を介して供給されるユーザの質問等に対応した回答を音声データにより、ユーザ端末１１に対して出力する。ここで、音声データは、音声を所定の音声ファイルフォーマット（非圧縮音声フォーマット、非可逆圧縮音声フォーマット及び可逆圧縮音声フォーマットなど）により、デジタル化したデータを示している。情報提示サーバ１０は、例えば、汎用コンピュータあるいはパーソナルコンピュータである。

ユーザ端末１１は、Amazon Alexa（登録商標）、Apple Siri（登録商標）、Googleアシスタント（登録商標）などといった仮想パーソナルアシスタント（VPA：Virtual Personal Assistant）を利用するためのプラットフォームとなる、音声によりユーザと情報提示システム１との対話を行うスマートスピーカなどである。また、ユーザ端末１１は、スマートフォン及びタブレット端末などの携帯端末、あるいはパーソナルコンピュータでも良く、表示部に画像（テキスト文字も含む）を表示させずに、音声のみによりリクエスト及びレスポンスが行われる対話アプリケーションに対して応用しても良い。

情報提示サーバ１０は、データ入出力部１０１、対話処理部１０２、聴取志向推定部１０３、提示制御部１０４、音声合成部１０５、グルーピング推定部１０６、対話履歴記憶部１０７、ユーザ属性記憶部１０８、対話行動記憶部１０９、グルーピング記憶部１１０及び言語知識記憶部１１１の各々を備えている。

データ入出力部１０１は、ユーザがユーザ端末１１に対して入力した音声の音声データを含むデータを、ネットワーク５００を介して入力する外部入力インターフェースである。
また、データ入出力部１０１は、ユーザからの音声データの内容に対する回答などの音声データを含むデータを、ネットワーク５００を介してユーザ端末１１に対して出力する外部出力インターフェースでもある。
また、データ入出力部１０１は、情報提示サーバ１０を操作する制御信号などのデータを、マイクロフォン、キーボード、各種センサを含む入力手段から直接に、データ（音声データを含む）を取得する機能を有している。

対話処理部１０２は、ユーザからの音声データを解析し、ユーザの音声データの内容を推定する。そして、対話処理部１０２は、この推定した内容に対する回答メッセージ（対話における回答）として、テキスト文の発話データを生成する。

図２は、本実施形態における対話処理部１０２の構成例を示すブロック図である。図２において、対話処理部１０２は、解析部１０２１、対話管理部１０２２及び生成部１０２３の各々を備えている。
解析部１０２１は、データ入出力部１０１から供給される音声データを、文字化、すなわちテキスト変換し、対話履歴記憶部１０７に対して書き込んで記憶させる。

また、対話処理部１０２は、テキスト変換したテキスト文の形態素解析を行い、得られた形態素からのキーワード抽出、形態素のベクトル化などの数値化処理を行い、テキスト文の数値データへの変換処理を行う。この変換処理は、自然言語処理技術あるいは機械学習技術を用いて行う。本実施形態において、例えば、ｔｆ（term frequency）－ｉｄｆ（inverse document frequency）法によるキーワード抽出、ｗｏｒｄ２ｖｅｃ及びｄｏｃ２ｖｅｃによるベクトル化などの手法を用いても良い。対話処理部１０２は、抽出されたキーワードあるいはベクトル化された数値データを、対話管理部１０２２に対して出力する。

図３は、対話履歴記憶部１０７に記憶されている対話履歴テーブルの構成例を示す図である。図３において、対話履歴テーブルは、レコード毎に対して、メッセージ時刻、話者ＩＤ（Identification）、メッセージ本文、聴取志向フレーズフラグ、メッセージＩＤ１及びメッセージＩＤ２の各々の欄が設けられている。

ここで、メッセージ時刻は、メッセージのうち音声データを入力した、あるいはメッセージのうち発話データを出力した時刻を示している。話者ＩＤは、音声データあるいは発話データを出力した話者の識別情報（話者がユーザであれば後述するユーザＩＤ）を示している。例えば、話者ＩＤにおいて「Ｕ＿００１」は、話者がユーザであり、このユーザを識別するユーザ識別情報である。また、話者ＩＤにおいて「Ｃ＿００１」は、話者が情報提示サーバ１０（システム）であり、このシステムを識別するシステム識別情報である。話者が情報提示サーバ１０である場合、ユーザの音声データの内容の種別（天気、健康、科学など）毎に、異なるシステムが回答するため、複数の異なるシステム識別情報がある。

また、メッセージ本文は、音声データをテキスト変換した文字データ、あるいは発話データなどのテキストデータが記載されている。聴取志向フレーズフラグは、ユーザからの音声データの内容が質問ではなく、情報提示サーバ１０からの発話データに基づく音声が理解できないことを示しているメッセージ本文に対して付与するフラグである。ここで、聴取志向フレーズフラグが「０」、すなわちフラグが立っていない場合、対応するメッセージ本文が通常の会話のフレーズであることを示している。

一方、聴取志向フレーズフラグが「１」、すなわちフラグが立っている場合、対応するメッセージ本文に対して、ユーザがシステムの音声の内容が判らない（聞き取れない或いは内容が理解できない）ことを示す聴取志向フレーズであることを示している。
例えば、図３において、聴取志向フレーズフラグが「１」とされたメッセージ本文は、「聞き取れなかったから、もう一回御願い」であり、情報提示サーバ１０がユーザ端末１１から出力する音声が聞き取れなかった（周波数、音量、区切りなどの聴取志向におけるパラメータにより）ことを示している。この聴取志向フレーズは、情報提示サーバ１０からのユーザのリクエストに対するレスポンスである音声コンテンツに対して、ユーザが音声コンテンツの聞き取り易さの程度を示す単語（後述するポジティブワード及びネガティブワードに対応）、あるいは同義語（類義語、類語）であり、予め識者により所定のフレーズとして登録されている。

また、メッセージＩＤ１は、同一のレコードにおけるメッセージ本文を指し示す識別情報である。一方、メッセージＩＤ２は、ユーザ及びシステムの各々の間の対話において、メッセージＩＤ１の示すメッセージ本文のメッセージに対して直前のメッセージの識別情報（すなわち、メッセージＩＤ１）である識別情報である。
したがって、ユーザ及びシステムの各々の間の対話における前後の関係を確認する際、確認したいメッセージ本文のレコードにあるメッセージＩＤ２を読み出し、このメッセージＩＤ２と同一のメッセージＩＤ１を検索することにより、確認したいメッセージ本文の直前のメッセージのメッセージ本文を検索することができ、対話の連続したメッセージ本文の各々を容易に確認できる。

例えば、話者ＩＤがＣ＿００１のメッセージＩＤ１：Ｍ１８０１０１００３に対して、メッセージＩＤ２：Ｍ１８０１０１００１となっている。このため、「今週の週末はいかがですか？」を回答とする質問が、メッセージＩＤ１：Ｍ１８０１０１００１の「○○にいきたい」であることが容易に検索できる。メッセージＩＤ１及びメッセージＩＤ２の各々が連続した番号でないのは、途中で他の対話が行われる場合があり、一つの対話におけるメッセージが常に連続して入力されないことを示している。

図２に戻り、対話管理部１０２２は、キーワードや数値データの各々とともに供給されるメッセージＩＤ１により、対話履歴記憶部１０７を参照して、メッセージＩＤ１及びメッセージＩＤ２の各々の関係から、ユーザの状態（会話フレーズか聴取志向フレーズ）であるかを定義する。そして、対話管理部１０２２は、メッセージ本文が会話フレーズである場合、情報提示サーバ１０によるユーザへのシステム応答の指針（例えば、ジャンル指定、場所指定、天気指定、交通の時刻表指定などの対話行為タイプ）を決定する。

すなわち、対話管理部１０２２は、ユーザからの会話フレーズとしてのリクエスト（問いかけ）に対して、システム側からのレスポンス（応答）をデータベース化した構成としても良いし、機械学習あるいは強化学習などの枠組みを用いて、リクエストに対応するレスポンスの内容を出力する対話モデルを生成して構成として用いても良い。この対話管理部１０２２の処理については、一般的な公知の技術である対話システムと同様のため、詳細な説明を省略する。

また、対話管理部１０２２は、メッセージＩＤ１の各々のメッセージ本文のキーワードや数値データそれぞれから、会話フレーズか聴取志向フレーズのいずれかであることを検出すると、対話履歴記憶部１０７の対話記憶履歴テーブルの対応するレコードにおける聴取志向フレーズフラグの操作を行う。このとき、対話管理部１０２２は、メッセージ本文が会話フレーズであると判定した場合、聴取志向フレーズフラグを「０」として、フラグを立てない。一方、対話管理部１０２２は、メッセージ本文が聴取志向フレーズであると判定した場合、聴取志向フレーズフラグを「１」として、フラグを立てる。

生成部１０２３は、対話管理部１０２２の出力するシステム応答の指針に基づき、その指針に対応したシステム応答モデルを用いて、テキストデータの応答文である発話データを生成する。すなわち、生成部１０２３は、リクエストのメッセージ本文から抽出したキーワードやベクトル化した数値データなどを、上記システム応答モデルに対して入力し、リクエストに対応した内容の発話データを生成する。上記システム応答モデルは、公知の技術の教師データ有りの機械学習により、リクエストの内容に対応したレスポンスの発話データが得られるように生成されている。

また、生成部１０２３は、機械学習により得られたシステム応答モデルを用いるのではなく、予め作成しておいた文章の雛形（文章テンプレート）に対して、外部ＡＰＩ（Application Programming Interface）を用いて、必要な情報を入手して当てはめて文章を完成させる手法を用いても良い。
例えば、生成部１０２３は、リクエストが電車の時刻である場合、出発駅と到着駅と、所定の時刻との情報により、時刻表検索の外部ＡＰＩを用いて、電車の時刻を検索し、検索結果を雛形の所定の位置に挿入して、レスポンスの発話データを生成する。

また、本実施形態においては、機械学習によるシステム応答モデルの手法、あるいは、外部ＡＰＩの情報により、文章の雛形（文章テンプレート）を埋める手法のいずれを用いても良い。
また、本実施形態においては、リクエストと、このリクエストに対応したレスポンスとが予め書き込まれたデータベースを有している構成としても良い。この場合には、対話管理部１０２２がリクエストに対応するレスポンスを、データベースから抽出するため、生成部１０２３を備える必要は無い。
生成部１０２３は、生成した発話データとともに、少なくとも聴取志向フレーズフラグのデータを、聴取志向推定部１０３に対して出力する。

図１に戻り、聴取志向推定部１０３は、ユーザの属性情報（ユーザ属性情報）や対話履歴などから、このユーザの聴取志向を推定し、発話データを音声としてユーザに供給する際の提示指針を推定する。
図４は、本実施形態における聴取志向推定部１０３の構成例を示すブロック図である。図４において、モデル構築部１０３１及び聴取志向管理部１０３２の各々を備えている。
モデル構築部１０３１は、ユーザの聴取志向を推定して、提示する際に発話データ及び音声の特性を変更する指針（例えば、聴取志向のパラメータである音量、読み上げ速度及び区切りなどの調整量）を決定する処理を行う聴取志向推定モデルを生成する。本実施形態においては、聴取志向のパラメータを単にパラメータと示す場合もある。

聴取志向推定モデルは、ユーザの属性情報及び発話データのテキストデータを入力することにより、聴取志向における変更対象のパラメータと、この変更対象のパラメータの変更量、あるいは置き換える他の単語を推定結果として出力する。
また、聴取志向テンプレートモデルは、聴取志向推定モデルと同様に、グループの属性情報及び発話データのテキストデータを入力することにより、聴取志向における変更対象のパラメータと、この変更対象のパラメータの変更量、あるいは置き換える他の単語を推定結果として出力する。

ここで、モデル構築部１０３１は、上記聴取志向推定モデルとして、聴取志向を推定するための数式、あるいはルールを生成（構築）し、順次更新していく。本実施形態において、聴取志向は、ユーザの聴力に対応するパラメータとして、ユーザが発話データを音声合成した音声を聞いた際、聞き取り易いやすい音声の周波数、再生速度、再生する文節の区切り、この区切りの時間幅などを示している。

モデル構築部１０３１が聴取志向推定モデルを生成する際、機械学習、教科学習、ニューラルネットワークなどのアルゴリズムを用いて、後述するように、対話履歴記憶部１０７及び対話行動記憶部１０９の各々の対話の内容や聴取志向のパラメータの変更における履歴のデータに基づいて、聴取志向推定モデルにおける聴取志向のパラメータやこのパラメータの変更量を推定する推定アルゴリズムにおける最適化を行う。

すなわち、モデル構築部１０３１は、推定に必要な数式やルールとして、置き換えの単語の候補、発話データ全体の文章における聴取志向に関するパラメータである周波数、読み上げ速度及び区切りなどを推定するためのパラメータ推定用の基底関数を準備し、対話履歴記憶部１０７及び対話行動記憶部１０９の各々の対話の内容や聴取志向のパラメータの変更における履歴のデータを教師データとして、聴取志向推定モデル（あるいは、後述する聴取志向テンプレートモデル）の構築、あるいは更新を行う。

また、聴取志向には、ユーザが単語の意味を理解できるか否かの知識力も含まれ、ユーザが理解できる一般的な同義語（あるいは類義語、類語）の他の単語に置き換える（変更する）こともパラメータの一つとして含まれる。
また、聴取志向には、上述した発話の周波数に対応して、発話データにおける単語に擦過音あるいは破裂音が含まれている場合、読み上げる際の周波数を低くしても、音声となった場合に高い周波数を含むことになるため、同義語（あるいは類義語、類語）であり、擦過音及び破裂音を含まない他の単語に置き換えることもパラメータの一つとして含まれる。

上述した聴取志向推定モデルは、例えば、各ユーザのユーザ属性情報に対応させて、聞き取り易いやすい音声の周波数、再生速度、再生する文節の区切りの頻度、この区切りの時間幅などの各パラメータの調整量を設定した、また専門的或いは難解な単語をユーザに理解可能となるように置き換える、一般的に用いられる同義語であり、理解可能な他の単語の設定、さらに擦過音あるいは破裂音が含まれている単語を、同義語（あるいは類義語、類語）であり、擦過音及び破裂音を含まない他の単語の設定などを、置き換えリストをデータベースとして構成（データベース構成）しても良い。

また、聴取志向推定モデルは、教師データを用いて機械学習を行う機械学習モデルとして構成（機械学習モデル構成）しても良い。この機械学習モデル構成の場合、モデル構築部１０３１は、対話履歴記憶部１０７、ユーザ属性記憶部１０８、対話行動記憶部１０９及びグルーピング記憶部１１０の各々に蓄積されたデータを教師データとして用いた機械学習により、ユーザ毎の聴取志向における各パラメータの変更の処理を推定する聴取志向推定モデルを生成する。

聴取志向管理部１０３２は、モデル構築部１０３１がユーザ毎に生成した（導出した）聴取志向推定モデルを用いて、ユーザの各々に対応した発話データの変更処理の内容を、提示制御部１０４に対して出力する。ここで、変更処理は、上述した音声の周波数、再生速度、再生する文節の区切りの頻度、この区切りの時間幅などの調整、及び聞き取りやすい発音となる単語への置き換えを行う処理を示している。

また、聴取志向管理部１０３２は、リクエストの音声データを入力したユーザに対して、このユーザに対応する聴取志向推定モデルが生成されていない場合がある。この場合、聴取志向管理部１０３２は、予めテンプレートとして準備されている聴取志向テンプレートモデルを用いて、聴取志向推定モデルが生成されていないユーザに対応した発話データの変更処理の内容を、提示制御部１０４に対して出力する。
また、聴取志向管理部１０３２は、後述するグルーピング情報などを用いて類似したユーザ群の聴取志向テンプレートモデルを用いて、聴取志向推定モデルが生成されていないユーザに対応した発話データの変更処理の内容を、提示制御部１０４に対して出力する構成としても良い。

提示制御部１０４は、聴取志向推定部１０３から供給される発話データの変更内容における単語の置き換えに関し、言語知識記憶部１１１に記憶されている置き換えテーブルにより、対象となる単語を置き換える他の表現の単語を抽出する。この置き換えテーブルは、単語と、この単語に置き換える同義の単語との対応関係を示している。例えば、提示制御部１０４は、すでに述べたように、「今週」に対して「今度」、「週末」に対して「土曜日或いは日曜日」など、擦過音や破裂音を有する単語を、擦過音や破裂音の無い単語に置き換える処理を、置き換えテーブルを参照して行う。

そして、提示制御部１０４は、単語の置き換えを行った発話データを、音声合成部１０５に対して出力する。
また、聴取志向推定部１０３は、単語の置き換えのみでなく、破裂音または擦過音を含む文章（文節）を、破裂音及び擦過音を含まない同義（類義）の文章に置き換えるように構成しても良い。

ここで、言語知識記憶部１１１には、聴取志向のパラメータとして、聞き取り易さに対する言語的な知見に基づき、理解しにくい単語の同義語であって一般的に用いられて理解し易い他の単語、擦過音または破裂音を含む単語の同義語であって擦過音及び破裂音を含まない他の単語（上述したように文節でも良い）が蓄積されている。

例えば、医療従事者や介護士が年齢の高い人間（高齢者）と、対話する際に高齢者に理解させるために用いる単語の言い換えに関する知見、コーパス（テキストや発話を大規模に集めてデータベース化した言語資料）、同義語（類義語、類語）の辞書、シソーラス（言葉の上位概念及び下位概念）などを用いて、所定の単語に対して置き換える他の単語との組み合わせとして、言語知識記憶部１１１に対して予め、あるいは追加して書き込んで蓄積する。

音声合成部１０５は、提示制御部１０４から供給される発話データを、変更するパラメータと、このパラメータの調整量に対応して、発話データのテキストデータを音声合成により、ユーザに対するレスポンスとしての音声コンテンツを生成する。このとき、音声合成部１０５は、例えば、ユーザの聴力に対応する聴取志向のパラメータ、及びその調整量として、ユーザが発話データを音声合成した音声を聞いた際、聞き取り易いやすい音声の周波数、再生する際の読み上げ速度、再生する文節の区切り、この区切りの時間幅などを変更して音声合成を行う。
そして、音声合成部１０５は、音声合成により生成した音声コンテンツを、データ入出力部１０１を介して、ユーザ端末１１に対して出力する。

グルーピング推定部１０６は、新たに履歴の発生したユーザの属性データに対応するグループを、グループ属性テーブルにより検索する。
そして、グルーピング推定部１０６は、グルーピング記憶部１１０において、上記ユーザを検索したグループのグループテーブルに追加して書き込んで記憶させる。

図５は、ユーザ属性記憶部１０８に記憶されているユーザ属性テーブルの構成例を示す図である。図５において、ユーザ属性テーブルは、レコード毎に対して、ユーザＩＤ、年齢、性別、音量、読み上げ速度、区切り、設置環境、…などのユーザ属性の項目の欄が設けられている。ユーザＩＤは、ユーザ端末１１を用いて情報提示システム１を利用しているユーザの各々を識別するための識別情報である。年齢は、対応するユーザＩＤで識別されるユーザの年齢を示している。性別は、対応するユーザＩＤで識別されるユーザが男性（ｍａｌｅ）か女性（ｆｅｍａｌｅ）であるかを示している。

また、音量は、対応するユーザＩＤで識別されるユーザが、聞き取り易い（聞き取りが可能な）とする音声の音量のレベル（大、中、小）を示している。読み上げ速度は、対応するユーザＩＤで識別されるユーザが、発話として聞き取り易いとする音声の速度のレベル（早い、普通、遅い）を示している。区切りは、対応するユーザＩＤで識別されるユーザが、聞き取り易いとする発音する文節の区切りを設ける数の量（多い、普通、少ない）を示している。

また、設置環境は、ユーザ端末１１が設置されている場所、すなわち音声を聞き取る際の環境が、部屋が広くて音声が伝搬し易いか、部屋が小さくて反響し易いか、他の音が混入する可能性が低いか、他の音が混入する可能性が高いかなどのユーザの音声の聞き取り環境を示している。また、ユーザ属性記憶部１０８には、ユーザ毎にユーザＩＤに対応して聴取志向推定モデルが書き込まれて記憶されている。

図６は、対話行動記憶部１０９に記憶されている対話行動テーブルの構成例を示す図である。図６において、ユーザ属性テーブルは、レコード毎に対して、時刻、ユーザＩＤ、アクションタイプ、アクションＩＤ、実施内容、メッセージＩＤ、…などの項目の欄が設けられている。時刻は、発話データに対する何らかの変更を加える処理（アクション）が行われた時刻を示している。ユーザＩＤは、ユーザ端末１１を用いて情報提示システム１を利用しているユーザの各々を識別するための識別情報である。アクションタイプは、システム側が主導して行ったシステム主導のアクション（ａｃｔｉｖｅ）か、あるいはユーザ側からの要求に対応して行われたユーザ主導のアクション（ｐａｓｓｉｖｅ）かのいずれであるかを示している。

また、アクションＩＤは、システム主導のアクションあるいはユーザ主導のアクションの各々の変更の種類を識別する識別情報である。図６においては、例えば、アクションＩＤ：Ａ００１が「単語の置き換え」であり、アクションＩＤ：Ａ００３が「読み上げ速度の変更」、アクションＩＤ：Ａ００４が「区切りの変更」を示している。実施内容は、アクションとして実際に発話データに対して実施した変更の内容を示している。図６において、アクションＩＤ：Ａ００１の例としては、「今週→今度」が「今週」という単語を「今度」とする類似単語に置き換え、「週末→土曜、日曜」が「週末」という単語を「土曜、日曜」とする類似単語（意味が類似した単語）に置き換えていることを示している。

ここで、「周」の「ｓｈｕ」の発音は擦過音であり、高い周波数の成分が含まれるため、高い周波数が聞き取り難いユーザに対しては、擦過音を含まない類似単語に置き換える必要がある。また、高い周波数が聞き取り難いユーザに対しては、破裂音を含む単語も高い周波数を含むことになるので、擦過音の場合と同様に、破裂音を含まない類似単語に置き換える必要がある。

また、アクションＩＤ：Ａ００３の例としては、「速度：－」が、発話の読み上げ速度を低下させた処理を示している。また、アクションＩＤ：Ａ００４の例としては、「区切り箇所：＋」が、発話データにおける文節の間に所定の時間を設け、すなわち読み上げる際に一つの文節を読み上げた後に、所定の時間（間）を置いて次の文節を読み上げる頻度を増加させることを示している。
メッセージＩＤは、同一のレコードにおける、アクションが行われたメッセージを指し示す識別情報であり、図３におけるメッセージＩＤ１と同一の識別情報である。

図７は、図６に示したアクションにおける単語の置き換えの処理を説明する概念図である。図７においは、話者であるユーザ及びユーザ端末１１の各々が発話する音声を、文字データとして可視化して説明する。
図７（ａ）は、システム主導のアクションとしての単語の置き換えを示している。ユーザ３０１がユーザ端末１１に対して音声により、ユーザが吹き出し（speech balloon）３５１の「○○は？」というリクエスト（質問）をした際、情報提示サーバ１０が吹き出し４５１の「今週の土曜日…」という発話データをレスポンスとして回答する。このとき、聴取志向管理部１０３２は、ユーザ３０１に対応した聴取志向推定モデルを参照しているが、このユーザ３０１に対して、上記発話データに対して変更の処理を行うことが記載されていないため、対話処理部１０２が供給する発話データをそのままレスポンス（回答）としている。

一方、ユーザ３０２がユーザ端末１１に対して音声により、吹き出し３５１の「○○は？」というリクエスト（質問）をした際、情報提示サーバ１０が上記吹き出し４５１の「今週の土曜日…」という発話データを、吹き出し４５２の「今度の土曜日…」と変更した後にレスポンスとして回答する。このとき、聴取志向管理部１０３２は、ユーザ３０１に対応した聴取志向推定モデルを参照し、このユーザ３０２に対して、上記発話データに対して変更の処理を行うことが記載されているため、対話処理部１０２が供給する発話データを、聴取志向推定モデルに対応して変更処理を行っている。
すなわち、属性情報において、ユーザ３０１（例えば、年齢２０代）に比較してユーザ３０２（例えば、年齢７０代）の年齢が高く、ユーザ３０２は周波数が低い音声の方が聞き易いため、聴取志向推定モデルには破裂音や擦過音を含む単語の置き換えの処理が設定されている。

図７（ｂ）は、ユーザ主導のアクションとしての単語の置き換えを示している。図示はしていないが、ユーザ３０３（例えば、年齢７０代）がユーザ端末１１に対して音声による「○○は？」というリクエスト（質問）をした際、情報提示サーバ１０が上記吹き出し４５３の「今週の土曜日…」という、対話処理部１０２が供給する発話データをそのままレスポンス（回答）としている。しかしながら、「今週の土曜日…」の音声に対して、ユーザ３０３が吹き出し３５３の「えっ？／もう一度」という、聴取志向フレーズのリクエスト（要求）が入力される。

このため、聴取志向管理部１０３２は、ユーザ３０１に対応した聴取志向推定モデルを参照し、このユーザ３０２に対して、上記聴取志向フレーズに対応して、対話処理部１０２が供給する発話データに変更処理を行っている。これにより、情報提示サーバ１０は、発話データの吹き出し４５３の「今週の土曜日…」が、吹き出し４５４の「今度の土曜日…」に変更された音声のデータをユーザ端末１１に対して再度出力する。

図８は、グルーピング記憶部１１０に記憶されているグルーピングテーブルの構成例を示す図である。図８（ａ）は、グループの属性情報を示すグループ属性情報テーブルの構成例を示している。図８（ａ）において、グループ属性情報テーブルは、一例として、レコード毎に対して、グループＩＤ、年代、性別及び居住地などの項目の欄が設けられている。グループＩＤは、グループの各々を識別するための識別情報である。年代は、グループを構成するユーザの年齢の範囲を示している。

例えば、グループＩＤ：Ｇ＿００１は、少なくとも年齢が６０歳から７５歳までの範囲に含まれるユーザの集合体であることを示している。同様に、グループＩＤ：Ｇ＿００２は、少なくとも年齢が１０歳から２０歳までの範囲に含まれるユーザの集合体であることを示している。性別は、対応するグループＩＤで識別されるグループを構成する人間の性別が男性（ｍａｌｅ）か女性（ｆｅｍａｌｅ）であるかを示している。居住地は、対応するグループＩＤで識別されるグループを構成するユーザの居住地がいずれの地方であるかを示している。
また、このグループＩＤで識別されるグループ毎には、それぞれのグループを構成するユーザの上述した属性に対応する聴取志向テンプレートモデルがグルーピング記憶部１１０に対して予め書き込まれて記憶されている。

図８（ｂ）は、グループＩＤの各々に属すユーザが割り当てられているグルーピングテーブルの構成例を示している。各レコードには、グループＩＤ、ユーザＩＤ、年齢、性別、音量、読み上げ速度、区切り、設置環境の各々の欄が設けられている。グループＩＤは、グループの各々を識別するための識別情報である。ユーザＩＤは、同一レコードにおけるグループＩＤの示すグループに分類されたユーザを示す識別情報であり、図５におけるユーザ属性テーブルのユーザＩＤと同一の識別情報である。

また、年齢は、対応するユーザＩＤで識別されるユーザの年齢を示している。性別は、対応するユーザＩＤで識別されるユーザが男性（ｍａｌｅ）か女性（ｆｅｍａｌｅ）であるかを示している。ここで、性別がグルーピングにおける属性に含まれていない場合、そのグループは男性（ｍａｌｅ）か女性（ｆｅｍａｌｅ）の双方のユーザが存在する。

また、設置環境は、ユーザ端末１１が設置されている場所、すなわち音声を聞き取る際の環境が、部屋が広くて音声が伝搬し易いか、部屋が小さくて反響し易いか、他の音が混入する可能性が低いか、他の音が混入する可能性が高いかなどのユーザの音声の聞き取り環境を示している。

上述したように、グループの各々は、グルーピングテーブルにおいて規定されているグループの属性（グループ属性）と同様の属性を有するユーザが分類されている。
そして、上述したグルーピングにおける属性の種類は、人間の音声の聞き取り易さに詳しい学者や医者、あるいは介護施設の職員（看護師や介護士など）の聴取志向に詳しい識者の提示する属性の種類を用いても良い。
また、グルーピングにおける属性の種類は、複数のユーザの属性を特徴量としてクラスタリングなどの処理を行い、最も明確にユーザ動詞を分類できる特徴量の属性の種類を抽出する処理により設定しても良い。

上述したいずれの処理により、グルーピングに用いる属性の種類を抽出したとしても、上記識者の治験に対応して、聴取志向テンプレートモデルの聴取志向における音量、読み上げ速度及び区切りなどのパラメータの変更の要否、変更する際のそれぞれのパラメータの調整量を設定しても良い。
本実施形態における情報提示サーバ１０の利用を開始した直後のユーザに対し、情報提示サーバ１０が上述した聴取志向のパラメータの変更の要否や、変更する際のパラメータの調整量のデータを、音声に対する聴取志向に対するユーザの対応から十分に抽出できていない。

このため、聴取志向推定部１０３は、聴取志向のパラメータのデータが十分に抽出できていないユーザに対し、このユーザの属性に近いグループを上記グルーピングテーブルにおいて検索し、検索して得られたグループの聴取志向テンプレートモデルを用いて、聴取志向のパラメータの要否あるいはパラメータの変更量を推定する。
そして、聴取志向推定部１０３は、ユーザの属性に用いた聴取志向テンプレートモデルを元に、聴取志向における各パラメータの変更の要否及び変更の際の調整量のデータを、ユーザからの音声に対する変更の要求から取得して、ユーザの各々の聴取志向推定モデルとする処理を行う。このとき、聴取志向推定部１０３は、すでに述べたように、聴取志向テンプレートモデルに対して、機械学習による最適化の処理を行うことで聴取志向推定モデルを生成しても良い。

図９は、本実施形態の情報提示システムを用いた対話システムの動作例を示すフローチャートである。この図９のフローチャートの動作は、例えば、情報提示システム１における情報提示サーバ１０に対してアクセスし、ユーザがスマートスピーカなどのユーザ端末１１から音声によるリクエストを音声により情報提示サーバ１０送信して、情報提示サーバ１０との対話を行う際に開始される。以下の図９のフローチャートの動作説明は、グループ毎の聴取志向に対応した聴取志向テンプレートモデルの各々が、聴取志向推定部１０３において、すでに説明したように生成されて、グルーピング記憶部１１０に蓄積されている状態において行う。

ステップＳ１０１：
データ入出力部１０１は、いずれかのユーザ端末１１から音声データが供給されたか否かの判定を行う。そして、データ入出力部１０１は、いずれかのユーザ端末１１から音声データが供給された場合、処理をステップＳ２へ進める。一方、データ入出力部１０１は、いずれのユーザ端末１１からも音声データが供給されない場合、ステップＳ１０１の処理を繰り返す。

このとき、例えば、ユーザがユーザ端末１１に対して音声により、コンサート等が行われる日などの予定を問い合わせるリクエストを入力する。そして、ユーザ端末１１は、音声データとこの音声を入力したユーザのユーザＩＤとの各々を、情報提示サーバ１０にアクセスして送信する。この場合、データ入出力部１０１は、いずれかのユーザ端末１１から音声データが供給されたことを検出し、処理をステップＳ１０２へ進める。
そして、ステップＳ１０２に進める際、データ入出力部１０１は、入力した音声データを対話処理部１０２に対して出力する。また、データ入出力部１０１は、入力したユーザＩＤを聴取志向推定部１０３に対して出力する。

ステップＳ１０２：
聴取志向推定部１０３は、データ入出力部１０１からユーザＩＤが供給された場合、このユーザＩＤの示すユーザに対話の履歴があるか否かの判定を行う。すなわち、聴取志向推定部１０３は、ユーザ属性記憶部１０８を参照して、このユーザＩＤに対応して聴取志向推定モデルが記憶されているか否かの判定を行う。すなわち、ユーザに対話の履歴が無ければ、聴取志向テンプレートモデルから聴取志向推定モデルが生成されていない。
このとき、聴取志向推定部１０３は、ユーザ属性記憶部１０８にユーザに対応する聴取志向推定モデルが記憶されている場合、処理をステップＳ１０３へ進める。一方、聴取志向推定部１０３は、ユーザ属性記憶部１０８にユーザに対応する聴取志向推定モデルが記憶されていない場合、処理をステップＳ１０４へ進める。

ステップＳ１０３：
聴取志向推定部１０３は、ユーザ属性記憶部１０８からユーザＩＤに対応する聴取志向推定モデルを読み出す。

ステップＳ１０４：
聴取志向推定部１０３は、ユーザ属性記憶部１０８を参照し、ユーザＩＤに対応したユーザの属性情報を読み出す。
そして、聴取志向推定部１０３は、読み出した属性情報に近い属性情報を有するグループをグルーピング記憶部１１０のグループ属性情報テーブルから検索し、検索して得られたグループの聴取志向テンプレートモデルを読み出す。
また、グルーピング推定部１０６は、グルーピング記憶部１１０において、上記ユーザを検索したグループのグループテーブルに追加して書き込んで記憶させる。

ステップＳ１０５：
対話処理部１０２は、音声データをテキストデータに変換し、形態素解析を行って、得られた単語あるいは文節から、この音声データが会話フレーズであるか、あるいは聴取志向フレーズであるかの判定を行う。音声データが聴取志向フレーズであるということは、ユーザが発話データ（レスポンス）の音声の最適化（自身の聴取志向に合わせる変更）を要求していることを意味している。

したがって、対話処理部１０２は、このステップＳ１０５において、ユーザが発話データの音声の最適化を要求しているか否かの判定を行っている。
そして、対話処理部１０２は、ユーザが発話データの音声の最適化を要求していない場合、処理をステップＳ１０６へ進める。一方、対話処理部１０２は、ユーザが発話データの音声の最適化を要求している場合、処理をステップＳ１０７へ進める。
このとき、対話処理部１０２は、対話履歴記憶部１０７における対話履歴テーブルに対し、入力された音声データのテキストデータ、聴取志向フレーズの場合に聴取志向フレーズのフラグ、メッセージＩＤの各々の書き込みを行う。

ステップＳ１０６：
入力された音声データが会話フレーズであるため、対話処理部１０２は、このリクエストの音声データに対応した発話データの生成を、音声データのテキスト文を形態素解析した単語の各々を用いて行う。
そして、聴取志向推定部１０３は、聴取志向推定モデルあるいは聴取志向テンプレートモデルにより、システム主導の発話データに対する変更処理の推定、ずなわち、ユーザの聴取志向のパラメータのなかから変更対象のパラメータと、変更量（あるいは単語の置き換え）を推定する。
また、聴取志向推定部１０３は、聴取志向のパラメータのなかから選択した変更対象のパラメータと、このパラメータの変更量（あるいは置き換える単語）とを、提示制御部１０４に対して出力する。

ステップＳ１０７：
入力された音声データが聴取志向フレーズであるため、この時点においては、このフローチャートにおける前回の会話フレーズのループにおいて、リクエストに対するレスポンスとしての会話フレーズはすでに得られている。
このため、聴取志向推定部１０３は、聴取志向推定モデルあるいは聴取志向テンプレートモデルにより、聴取志向のパラメータのなかから変更対象のパラメータと、このパラメータの変更量を調整して、提示制御部１０４に対して出力する。

このとき、聴取志向推定部１０３は、対話行動記憶部１０９の対話行動テーブルに対して、単語の置き換えを行った処理を書き込んで記憶させる。このとき、聴取志向推定部１０３は、アクションタイプとしてシステム主導で行ったか、あるいはユーザ主導で行ったかのいずれかを記載する。また、聴取志向推定部１０３は、予め行動の各々に付されているアクションＩＤを記載し、アクションＩＤに対応した実施内容を記載する（記載例としては図６の対話行動テーブルを参照）。実施内容が単語の置き換え（アクションＩＤ：Ａ００１）の場合、提示制御部１０４がどの単語をどのような単語に置き換えたかを、対話行動テーブルの実施内容の欄に記載する。

ここで、例えば、変更対象のパラメータが音量である場合、予め通常の音量からの変更量と規定されている大きさに対して、より大きい音量を変更量とする（変更量の調整）。また、変更対象のパラメータが読み上げ速度である場合、予め通常の読み上げ速度からの変更量と規定されている遅い速度に対して、より遅い速度を変更量とする。また、変更対象のパラメータが区切りである場合、予め通常の区切りの頻度からの変更量と規定されている区切りの頻度に対して、より多くの区切りの頻度を変更量とする。
また、このパラメータの各々は、一括して変更量を変更してもよいし、フローチャートのループが繰り返される毎に、変更する順番を決めておいて、変更量の調整を行っても良い。

ステップＳ１０８：
提示制御部１０４は、聴取志向推定部１０３から供給される聴取志向における単語の置き換え処理の要求に対応し、発話データのテキストデータに含まれる擦過音及び破裂音を有する単語の各々を抽出する。そして、提示制御部１０４は、抽出した単語の各々に対応した置き換える単語を、言語知識記憶部１１１の置き換えテーブルを参照して、それぞれ抽出する。
そして、提示制御部１０４は、聞き取りやすい単語への置き換えを終了した発話データを、聴取志向のパラメータとそのパラメータの変更量との各々を、音声合成部１０５に対して出力する。

音声合成部１０５は、提示制御部１０４から供給される発話データを、変更するパラメータと、このパラメータの調整量に対応して、発話データのテキストデータを音声合成により、ユーザに対するレスポンスとしての音声コンテンツを生成する。
そして、音声合成部１０５は、音声合成により生成した音声コンテンツを、データ入出力部１０１を介して、ユーザ端末１１に対して出力する。

ステップＳ１０９：
聴取志向推定部１０３は、対話行動記憶部１０９の対話行動テーブルにおけるメッセージＩＤを参照し、このメッセージＩＤに連続するメッセージＩＤを対話履歴記憶部１０７の対話履歴テーブルから抽出する。
そして、聴取志向推定部１０３は、抽出したメッセージに対応するメッセージ本文の聴取志向フレーズフラグが「０」である場合に、聴取志向のパラメータの変更あるいは単語の置き換えが成功したと判定する。一方、聴取志向推定部１０３は、抽出したメッセージに対応するメッセージ本文の聴取志向フレーズフラグが「１」である場合に、聴取志向のパラメータの変更あるいは単語の置き換えが、聞き取り易さを向上させるために不十分であると判定する。

聴取志向推定部１０３は、例えば、上述した聴取志向フレーズフラグが「１」であり、かつユーザ主導により変更した聴取志向におけるパラメータと、このパラメータの変更量とにより、ユーザに対応する聴取志向推定モデルを、よりユーザの聴取志向に適合させる修正処理を行う。
また、聴取志向推定部１０３は、グルーピング記憶部１１０のグループテーブルを参照し、グループを構成するユーザの各々に共通する変更された聴取志向におけるパラメータと、パラメータの変更量とを抽出し、聴取志向テンプレートモデルを、よりグループに含まれるユーザの聴取志向に適合させる修正処理を行う。

このとき、聴取志向推定部１０３は、例えば、聴取志向フレーズフラグが立っているメッセージＩＤに対応するメッセージ本文の形態素解析を行い、ポジティブワードあるいはネガティブワードを抽出し、ポジティブワードの場合、変更に対する評価値に「１」を加算（評価値をインクリメント）する処理を行い、一方、ネガティブワードの場合、変更に対する評価値から「１」を減算（評価値をディクリメント）する処理を行う。そして、聴取志向推定部１０３は、評価値が所定の閾値を超えた場合、変更した聴取志向のパラメータの変更量（あるいは置き換えた単語）を、聴取志向推定モデル及び聴取志向テンプレートモデルに反映させるように構成しても良い。

また、聴取志向推定部１０３は、例えば、ネガティブワードやポジティブワードの抽出を行うのではなく、聴取志向のパラメータを変更して音声コンテンツを出力した後に、「聞き取り易かったですか？「はい」／「いいえ」でお答え下さい」や、「もう少しゆっくり読み上げましょうか？「このまま」／「ゆっくり」でお答え下さい」のテキストデータを、音声合成部１０５により音声合成して確認音声コンテンツに変更する。また、聴取志向推定部１０３は、この確認音声コンテンツをユーザ端末１１に対してデータ入出力部１０１を介して送信する。このアルゴリズムは、ユーザ主導の聴取志向のパラメータの変更に対応している。

そして、聴取志向推定部１０３は、上述した確認音声コンテンツに対するユーザの回答を入力する。このとき、聴取志向推定部１０３は、対話処理部１０２がユーザによる回答の音声データをテキスト変換した回答データを入力する。
そして、聴取志向推定部１０３は、例えば、「聞き取り易かったですか？」の質問に対する回答データが「はい」の場合、聴取志向のパラメータの変更が成功したと判定する。一方、「聞き取り易かったですか？」の質問に対する回答データが「いいえ」の場合、聴取志向のパラメータの変更が成功しなかったと判定する。

これにより、聴取志向推定部１０３は、成功した場合に成功した聴取志向のパラメータの変更処理を、聴取志向推定モデル及び聴取志向テンプレートモデルに反映させる。
一方、聴取志向推定部１０３は、変更が失敗した場合、再度、聴取志向の他のパラメータの変更を行った音声コンテンツを生成して、ユーザに対してレスポンスとして出力する。

また、聴取志向推定部１０３は、例えば、「もう少しゆっくり読み上げましょうか？」の質問に対する回答データが「このまま」の場合、聴取志向のパラメータである読み上げ速度の変更が成功したと判定する。一方、「もう少しゆっくり読み上げましょうか？」の質問に対する回答データが「ゆっくり」の場合、聴取志向のパラメータである読み上げ速度の変更量が少ないため成功しなかったと判定する。
これにより、聴取志向推定部１０３は、成功した場合に成功した聴取志向のパラメータである読み上げ速度の変更処理を、聴取志向推定モデル及び聴取志向テンプレートモデルに反映させる。

一方、聴取志向推定部１０３は、変更が失敗した場合、再度、聴取志向のパラメータである読み上げ速度の変更量を増加させ、すなわちより読み上げ速度を低下させる変更を行った音声コンテンツを生成して、ユーザに対してレスポンスとして出力する。
上述したように、聴取志向のパラメータである周波数、読み上げ速度及び区切りや単語の置き換えなどの変更を行った後に、それぞれの変更が適切であったか否かの質問をユーザに与え、聴取志向のパラメータの変更の成功／不成功の確認を行い、この確認結果を聴取志向推定モデル及び聴取志向テンプレートモデルに反映させる構成としても良い。

また、聴取志向推定部１０３は、聴取志向フレーズフラグが「１」となる発生頻度をカウントし、同様の聴取志向のパラメータの変更を行う発生頻度のカウント数が所定の設定値を超えた場合に、発生頻度が所定の設定値を超えたパラメータに基づき、このパラメータ及びパラメータの変更量を、聴取志向推定モデル及び聴取志向テンプレートモデルに反映させるように構成しても良い。

ステップＳ１１０：
提示制御部１０４は、対話履歴記憶部１０７の対話履歴テーブルに対して、発話データのテキストデータを、メッセージ本文に書き込んでメッセージＩＤ１を付与して書き込んで記憶させる。このとき、提示制御部１０４は、話者ＩＤの欄に対して、レスポンスを行うシステムのシステム識別情報を書き込んで記憶させる。
また、提示制御部１０４は、会話フレーズであるため、聴取志向フレーズフラグを「０」とし、かつ接続されるユーザの音声データのメッセージ本文のメッセージＩＤ１をメッセージＩＤ２の欄に書き込んで記憶させる。

上述した構成及び動作により、本実施形態によれば、ユーザのリクエストに対して、レスポンスを行う情報提示サーバ１０が音声コンテンツにより提供する情報を、ユーザの各々が正確に聞き取ることができるように聴取志向の推定を、ユーザ毎の聴取志向推定モデルまたはグループ毎の聴取志向テンプレートモデルを用いて行うため、従来のようにルールベースで各ユーザあるいは各グループに対して聴取志向の推定を行う構成に比較してデータ量を少なくすることができ、かつデータ量が少ないために聴取志向推定モデル及び聴取志向テンプレートモデルの各々のメンテンス（ユーザに順次対応させていく修正処理）を容易に行うことができる。

また、本実施形態によれば、ユーザの各々の属性情報に対応した聴取志向推定モデルにより、ユーザの聴取志向における聞き取り易さを向上するパラメータの種類と、これらパラメータの変更量（調整量）とが求められ、ユーザのリクエストに対するレスポンスである発話データにおける擦過音あるいは破裂音を含む単語を抽出し、発話データの文脈に対応して同義語（あるいは類義語、類語）である擦過音及び破裂音を含まない他の単語に置き換えるため、発話データを音声合成した音声コンテンツを、ユーザが聞き取り易い音声とすることができる。

また、本実施形態によれば、ユーザの各々の属性情報に対応した聴取志向推定モデルにより、ユーザの聴取志向における聞き取り易さを向上するパラメータの種類と、これらパラメータの変更量（調整量）とが求められ、ユーザのリクエストに対するレスポンスである発話データを音声合成する際、発話される音声の周波数、読み上げ速度、区切りなどの変更を行うため、音声合成された発話データである音声コンテンツを、ユーザが聞き取り易い状態の音声とすることができる。

また、本実施形態によれば、対話の履歴が無いユーザに対して、このユーザと属性情報が類似している他のユーザにより構成されるグループに対応して生成された聴取志向テンプレートモデルを用い、上述した発話データにおける擦過音あるいは破裂音を含む単語を、発話データの文脈に対応して同義語である擦過音及び破裂音を含まない他の単語に置き換えるため、発話データを音声合成した音声コンテンツを、ユーザが聞き取り易い音声とするため、履歴の無いユーザに対しても、レスポンスの音声コンテンツの聞き取り易さを向上させることができる。

また、本実施形態によれば、対話の履歴が無いユーザに対して、このユーザと属性情報が類似している他のユーザにより構成されるグループに対応して生成された聴取志向テンプレートモデルを用い、ユーザのリクエストに対するレスポンスである発話データを音声合成する際、発話される音声の周波数、読み上げ速度、区切りなどの変更を行うため、音声合成された発話データである音声コンテンツを、ユーザが聞き取り易い状態の音声とするため、履歴の無いユーザに対しても、レスポンスの音声コンテンツの聞き取り易さを向上させることができる。

また、本実施形態によれば、上記聴取志向推定モデル及び聴取志向テンプレートモデルの各々を、対話履歴記憶部１０７及び対話行動記憶部１０９に記憶されている、リクエスト側（ユーザ）とレスポンス側（情報提示サーバ１０）との対話における履歴の各データを用いて順次変更を行うため、ユーザあるいはグループの属性情報に対応した音声の聞き取り易さを向上させていくことができる。

本実施形態においては、レスポンス側をコンピュータの対話システムとして説明したが、リクエスト側とレスポンス側との各々がユーザ（人間）である場合、対話するユーザ間における相互の聞き取り易さを向上するように、ユーザそれぞれに対応した聴取志向推定モデルにより、対話におけるレスポンス側の発話データにおける単語の置き換えの処理、及び音声合成の際の聞き取り易さを向上するパラメータの変更処理を行う構成としても良い。

また、図１０は、本発明の一実施形態による、ユーザとシステムとが対話を行う情報提示システムの他の構成例を示す概念図である。
情報提示システム１Ａは、情報提示サーバ１０Ａ、ユーザ端末１１＿１、ユーザ端末１１＿２、ユーザ端末１１＿３、ユーザ端末１１＿４、対話サーバ１２＿１、対話サーバ１２＿２、対話サーバ１２＿３、対話サーバ１２＿３の各々がネットワーク５００を介して接続されている。
ユーザ端末１１＿１及びユーザ端末１１＿２の各々は、すでに説明したスマートスピーカなどであり、ユーザが音声によってリクエストの入力を行い、情報提示サーバ１０Ａからのレスポンスを音声コンテンツとしてユーザに通知する。

一方、ユーザ端末１１＿３はスマートフォンやタブレットコンピュータなどの携帯端末であり、表示画面が備えられている。また、ユーザ端末１１＿４は、パーソナルコンピュータであり、表示画面が設けられている。
情報提示サーバ１０Ａは、表示画面を備えているユーザ端末１１＿３及びユーザ端末１１＿４の各々に対しては、音声コンテンツではなく、視覚（ビジュアル）的に視認できる画像コンテンツ（文字コンテンツ、動画像あるいはスタンプ画像など）に変更して（出力を切替えて）、リクエストに対するレスポンスとして出力するように構成しても良い。

また、情報提示サーバ１０Ａは、すでに説明した図１における情報提示サーバ１０と同様の構成であるが、対話処理部１０２における対話システムの機能を有していない構成である。
対話サーバ１２＿２、対話サーバ１２＿３及び対話サーバ１２＿３の各々は、情報提示サーバ１０における対話処理部１０２の対話システムの機能に換わる装置である。対話サーバ１２＿２、対話サーバ１２＿３及び対話サーバ１２＿３の各々は、例えば、天気予報確認、交通機関の時刻確認、ユーザの計画の確認それぞれを行う対話システムである。

この構成の場合、情報提示サーバ１０Ａは、対話サーバ１２＿２、対話サーバ１２＿３及び対話サーバ１２＿３の各々から、発話データとしてのレスポンスのテキストデータを入力し、すでに述べたように、発話データを音声コンテンツとした際における聞き取り易さを向上する変更を行う。

なお、本発明における図１の情報提示サーバ１０及び図１０の情報提示サーバ１０Ａの各々の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音声コンテンツをユーザがより聞き取り易いように変更する処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。

また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

また、上記プログラムは、図１に記載のシステムおよびプログラムについて、対話サーバ１２を含む情報提示サーバ１０とユーザ端末１１がネットワークを介して伝送を実現している。しかしながら、これに限らずに、例えば、可能であればネットワークを介することなくユーザ端末１１に対話サーバ１２を含む情報提示サーバ１０の機能が搭載されていてもよい。
また、情報提示サーバ１０と対話サーバ１２との各々が独立した装置として設ける構成ではなく、情報提示サーバ１０、対話サーバ１２のそれぞれの機能を、１つのサーバによって実現する構成としても良い。

１，１Ａ…情報提示システム
１０，１０Ａ…情報提示サーバ
１１，１１＿１，１１＿２，１１＿３，１１＿４…ユーザ端末
１２＿１，１２＿２，１２＿３…対話サーバ
１０１…データ入出力部
１０２…対話処理部
１０３…聴取志向推定部
１０４…提示制御部
１０５…音声合成部
１０６…グルーピング推定部
１０７…対話履歴記憶部
１０８…ユーザ属性記憶部
１０９…対話行動記憶部
１１０…グルーピング記憶部
１１１…言語知識記憶部
５００…ネットワーク
１０２１…解析部
１０２２…対話管理部
１０２３…生成部
１０３１…モデル構築部
１０３２…聴取志向管理部
１０２３…生成部

Claims

ユーザとの対話において、前記ユーザの各々の音声の聞き取り易さを示す聴取志向を推定し、当該ユーザに対して音声により供給される発話データを、前記ユーザの前記聴取志向に対応して変更する変更モデルを生成及び更新する聴取志向推定部と、
前記ユーザ毎に設定されている前記変更モデルに対応し、対話システムからの音声による回答である前記発話データを、前記ユーザの各々の前記聴取志向に基づいて、前記発話データに含まれる擦過音または破裂音を有する単語を、擦過音及び破裂音の無い単語に置き換える提示制御部と
を備えることを特徴とする情報提示システム。
前記聴取志向を推定する際に用いる、前記ユーザの各々との前記対話の履歴である対話履歴を対話履歴記憶部に対して、前記ユーザ毎に書き込んで記憶させる、ユーザからの発話に対してルールに基づき応答を決定する対話処理部
をさらに備える
ことを特徴とする請求項１に記載の情報提示システム。
前記聴取志向推定部が、
前記ユーザの前記対話における前記発話データに対する評価から、当該ユーザの前記聴取志向を抽出して、前記ユーザの属性情報及び当該ユーザの前記聴取志向を示す志向情報の各々を、ユーザ属性記憶部に対して、前記ユーザ毎に書き込んで記憶させる
ことを特徴とする請求項１または請求項２に記載の情報提示システム。
前記ユーザの各々の前記属性情報に対応して、前記ユーザそれぞれを分類するグルーピングを行い、前記分類毎に含まれる前記ユーザに共通する前記聴取志向により、当該分類それぞれの変更モデルであるテンプレート変更モデルを生成するグルーピング推定部
をさらに備えることを特徴とする請求項３に記載の情報提示システム。
前記聴取志向推定部が、
前記変更モデルが用意されていない前記ユーザに対して、当該ユーザに対応する前記分類の前記テンプレート変更モデルを抽出し、前記対話において抽出される前記聴取志向に対応して、当該ユーザに対応する前記変更モデルを生成する
ことを特徴とする請求項４に記載の情報提示システム。
前記属性情報が、
少なくとも、前記ユーザの年齢、性別、居住地を含むデモグラフィックデータの各々の組み合わせとして設定される
ことを特徴とする請求項３から請求項５のいずれか一項に記載の情報提示システム。
前記変更モデルが、
少なくとも、前記対話処理部を介して決定した前記発話データにおける単語の置き換え、前記発話データを読み上げる際の音声の周波数及び速度、文節の区切りを変更する処理を示す
ことを特徴とする請求項２に記載の情報提示システム。
前記提示制御部が、
前記変更モデルによる前記発話データを変更した内容である変更内容を、対話行動記憶部に対して、変更履歴として書き込んで記憶させ、
前記聴取志向推定部が、
前記対話の履歴と前記変更履歴とにより、前記ユーザの前記聴取志向を抽出する
ことを特徴とする請求項１から請求項７のいずれか一項に記載の情報提示システム。
聴取志向推定部が、ユーザとの対話において、前記ユーザの各々の音声の聞き取り易さを示す聴取志向を推定し、当該ユーザに対して音声により供給される発話データを、前記ユーザの前記聴取志向に対応して変更する変更モデルを生成及び更新する聴取志向推定過程と、
提示制御部が、前記ユーザ毎に設定されている前記変更モデルに対応し、ユーザからの発話に対してルールに基づき応答を決定する対話処理部を介して、対話システムからの音声による回答である前記発話データのうち、前記ユーザの各々の前記聴取志向に基づいて、当該発話データに含まれる擦過音または破裂音を有する単語を、擦過音及び破裂音の無い単語に置き換える提示制御過程と
を含むことを特徴とする情報提示方法。
コンピュータを、
ユーザとの対話において、前記ユーザの各々の音声の聞き取り易さを示す聴取志向を推定し、当該ユーザに対して音声により供給される発話データを、前記ユーザの前記聴取志向に対応して変更する変更モデルを生成及び更新する聴取志向推定手段、
前記ユーザ毎に設定されている前記変更モデルに対応し、対話システムからの音声による回答である前記発話データのうち、前記ユーザの各々の前記聴取志向に基づいて、当該発話データに含まれる擦過音または破裂音を有する単語を、擦過音及び破裂音の無い単語に置き換える提示制御手段
として機能させるためのプログラム。