JP6836033B2

JP6836033B2 - 判定装置及びこれを備えた音声提供システム

Info

Publication number: JP6836033B2
Application number: JP2017553757A
Authority: JP
Inventors: 政文坂井; 裕美子安田; 村上　大介; 大介村上; 陽子福山; 哲成中
Original assignee: Dentsu Inc
Current assignee: Dentsu Group Inc
Priority date: 2015-12-02
Filing date: 2016-11-16
Publication date: 2021-02-24
Anticipated expiration: 2036-11-16
Also published as: WO2017094500A1; JPWO2017094500A1; TWI717426B; TW201732649A

Description

本発明は、自然言語で構成されたテキストに含まれる非許容単語を判定する判定装置及びこれを備えた音声提供システムに関する。

近年、テキストを音声で読み上げる音声合成技術は、交通情報の放送や、美術館又は博物館の展示ガイダンス音声、カーナビケーションシステムなどに幅広く利用されている。このような音声合成技術においては、自然言語で構成されたテキストを合成音声で読み上げることで実際の利用者の音声を秘匿することができる。このため、嫌がらせや脅迫等の犯罪への悪用が懸念される。従来、音声合成技術の犯罪への悪用防止等を目的とした技術が知られている（例えば、特許文献１参照）。

特許文献１に記載の音声合成装置においては、不適切な単語や不適切な用言パターンを登録した不適切語辞書を備え、読み上げるべきテキストに含まれる不適切な部分の度合いを判定する。そして、そのテキストにおける不適切な表現が含まれる度合いによって、音声透かしの合成や、外部記憶端末であるサーバへの登録を可能としている。これにより、適切なテキストに対して音声を劣化させるデータの挿入等の悪影響を及ぼすことなく、犯罪等への悪用を防止する。

特開２００７−１５６１６９号公報

しかしながら、特許文献１記載の音声合成装置においては、読み上げるべきテキストにおける形態素や係り受けや意味の解析を行い、その解析結果に応じて不適切な部分の度合いを判定する。このため、読み上げるべきテキストの文脈に関わらず、テキスト内に存在する不適切な表現については判定することができないという問題がある。

本発明は、このような問題に鑑みてなされたものであり、テキストの文脈に関わらず、テキストに含まれる非許容単語を精度良く検出することができる判定装置及びこれを備えた音声提供システムを提供することを目的とする。

本発明に係る判定装置は、自然言語で構成されたテキストに含まれる非許容単語を判定する判定装置であって、前記テキストを任意箇所で区切って第１の判定対象を生成する判定対象生成部と、前記第１の判定対象に対応する発音と前記非許容単語に対応する発音との比較により前記非許容単語を判定する判定部と、を具備することを特徴とする。

この構成によれば、テキストを任意箇所で区切って生成される第１の判定対象に対応する発音と非許容単語に対応する発音との比較により非許容単語が判定される。このため、テキストを構成する文字や数字の任意の組み合わせの発音と非許容単語の発音とを比較することができる。これにより、テキストの文脈に関わらず、テキストに含まれる非許容単語を精度良く検出することができる。

特に、上記判定装置において、前記判定部は、前記第１の判定対象に対応する発音と前記非許容単語に対応する発音との部分的な一致により前記非許容単語を判定することが好ましい。この構成によれば、第１の判定対象及び非許容単語の発音が完全に一致する場合に限らず、テキストに含まれる非許容単語と部分的に一致する単語を検出することができる。これにより、テキストに含まれる非許容単語と類似する単語まで検出することができる。

また、上記判定装置において、前記判定対象生成部は、前記テキストを形態素に分割して第２の判定対象を生成し、前記判定部は、前記第１の判定対象に対応する発音と前記非許容単語に対応する発音との比較の前に、前記第２の判定対象と前記非許容単語との比較により前記非許容単語及び前記非許容単語でない許容単語を判定することが好ましい。この構成によれば、第１の判定対象と非許容単語との比較に先立って、テキストを構成する形態素に基づいてテキストに含まれる非許容単語及び許容単語を判定することができる。これにより、第１の判定対象に先立って、第２の判定対象との比較によりテキストに形態素として含まれる非許容単語を確実に検出することができる。また、テキストに含まれる非許容単語を段階的に判定することができるので、非許容単語の検出漏れを低減することができる。

さらに、上記判定装置において、前記判定部は、前記第１の判定対象に対応する発音と前記非許容単語に対応する発音との比較の前に、前記許容単語と判定された前記第２の判定対象に対応する発音と前記非許容単語に対応する発音との比較により前記非許容単語を判定することが好ましい。この構成によれば、許容単語と判定された第２の判定対象に対応する発音と非許容単語に対応する発音との比較により非許容単語が判定される。このため、許容単語と判定された形態素の意味に関わらず、当該形態素に含まれる非許容単語を検出することができる。

本発明に係る判定装置は、自然言語で構成されたテキストに含まれる非許容単語を判定する判定装置であって、前記テキストを任意箇所で区切って第１の判定対象を生成する判定対象生成部と、前記第１の判定対象を構成する文字列と前記非許容単語を構成する文字列との比較により前記非許容単語を判定する判定部と、を具備することを特徴とする。

この構成によれば、テキストを任意箇所で区切って生成される第１の判定対象を構成する文字列と非許容単語を構成する文字列との比較により非許容単語が判定される。このため、テキストを構成する文字や数字の任意の組み合わせを構成する文字列と非許容単語を構成する文字列とを比較することができる。これにより、テキストの文脈に関わらず、テキストに含まれる非許容単語を精度良く検出することができる。

本発明に係る音声提供システムは、上記したいずれかの判定装置を備え、特定の声紋データに基づいて前記テキストに応じた音声を提供する音声提供システムであって、前記判定装置は、前記判定部の判定結果に応じて前記テキストから前記特定の声紋データを用いた音声データを生成する音声生成部を具備することを特徴とする。

この構成によれば、判定装置の判定部の判定結果に応じてテキストから特定の声紋データを用いた音声データが生成される。このため、テキストに含まれる非許容単語の有無に応じて音声データを切り替えて生成することができる。これにより、テキストに含まれる非許容単語の有無に応じて態様の異なる音声データを提供することができる。

例えば、上記音声提供システムにおいて、前記音声生成部は、前記テキストに前記非許容単語が含まれない場合に、当該テキストに対応する音声データを生成する。この構成によれば、音声生成部によって特別な修正等が施されることなく、非許容単語を含まないテキストに対応する音声データが生成される。このため、迅速にテキストに対応する音声データを提供することができる。

一方、上記音声提供システムにおいて、前記音声生成部は、前記テキストに前記非許容単語が含まれる場合に、当該非許容単語に対応する部分を修正した前記テキストに対応する音声データを生成する。この構成によれば、非許容単語に対応する部分を修正した音声データが生成される。このため、非許容単語を含むテキストであっても、当該非許容単語の部分が修正された音声データを提供することができる。

例えば、上記音声提供システムにおいて、前記音声生成部は、前記テキストに含まれる前記非許容単語に対応する部分を削除する。この構成によれば、音声生成部によって非許容単語に対応する部分が削除された音声データが生成される。このため、非許容単語を含むテキストであっても、テキストに含まれる非許容単語が確実に削除された音声データを提供することができる。

また、上記音声提供システムにおいて、前記音声生成部は、前記テキストに含まれる前記非許容単語に対応する部分を置換する。この構成によれば、音声生成部によって非許容単語に対応する部分が置換された音声データが生成される。このため、非許容単語を含む音声データが特定の声紋データを用いてそのまま提供されるのを防止することができる。また、非許容単語に対応する部分が置換されるので、テキストの一部が欠落するのを回避することができる。

例えば、上記音声提供システムにおいて、前記音声生成部は、前記テキストに含まれる前記非許容単語に対応する部分に前記特定の声紋データと異なる声紋データを用いる。この構成によれば、音声生成部によって非許容単語に対応する部分に異なる声紋データを用いた音声データが生成される。このため、ＮＧワードを含むテキストであっても、テキストが有する意味を変更させることなく、これに応じた音声データを提供することができる。

また、上記音声提供システムにおいて、前記音声生成部は、前記テキストに含まれる前記非許容単語に対応する部分を異なる表現の単語に置換する。この構成によれば、音声生成部によって非許容単語を異なる表現の単語に置換された音声データが生成される。このため、非許容単語を含むテキストであっても、テキストが有する意味を大幅に変更させることなく、これに応じた音声データを提供することができる。

上記音声提供システムにおいて、前記判定装置は、前記特定の声紋データを記憶する記憶部を具備し、前記記憶部は、前記特定の声紋データに関連付けられる前記非許容単語を記憶する。この構成によれば、判定部によって特定の声紋データに関連付けられる非許容単語がテキストに含まれるかが判定される。このため、特定の声紋データに関連付けられる非許容単語を含む音声データが提供されるのを防止することができる。

本発明に係る判定方法は、自然言語で構成されたテキストに含まれる非許容単語を判定する判定方法であって、前記テキストを任意箇所で区切って第１の判定対象を生成するステップと、前記第１の判定対象に対応する発音と前記非許容単語に対応する発音との比較により前記非許容単語を判定するステップと、を具備することを特徴とする。

この方法によれば、テキストを任意箇所で区切って生成される第１の判定対象に対応する発音と非許容単語に対応する発音との比較により非許容単語が判定される。このため、テキストを構成する文字や数字の任意の組み合わせの発音と非許容単語の発音とを比較することができる。これにより、テキストの文脈に関わらず、テキストに含まれる非許容単語を精度良く検出することができる。

本発明によれば、テキストの文脈に関わらず、テキストに含まれる非許容単語を精度良く検出することができる。

本実施の形態に係る音声提供システムの概略を示す説明図である。本実施の形態に係る音声提供システムの管理サーバのブロック図である。本実施の形態に係る管理サーバの判定対象生成部により生成される判定対象の一例を示す図である。本実施の形態に係る音声提供システムから音声提供を受ける携帯端末のブロック図である。本実施の形態に係る音声提供システムにおけるテキスト登録時の動作を説明するためのフロー図である。本実施の形態に係る音声提供システムで利用されるテキスト登録画面の一例を示す図である。本実施の形態に係る音声提供システムにおける声紋登録時の動作を説明するためのフロー図である。本実施の形態に係る音声提供システムで利用される声紋登録画面の一例を示す図である。本実施の形態に係る音声提供システムにおける音声提供時の動作を説明するためのフロー図である。本実施の形態に係る音声提供システムで利用される設定入力画面の一例を示す図である。本実施の形態に係る音声提供システムにおけるＮＧ判定処理を説明するためのフロー図である。

以下、本発明の実施の形態に係る音声提供システムについて、添付の図面を参照しながら詳細に説明する。なお、本発明に係る音声提供システムは、以下の実施の形態に限定されるものではなく、本発明の趣旨の範囲で適宜変形して実施することができる。

図１は、本実施の形態に係る音声提供システムの概略を示す説明図である。図１に示すように、音声提供システム１は、判定装置の一例を構成する管理サーバ１０を備える。管理サーバ１０は、インターネット等のネットワークＮＷを介して接続されたテキスト登録端末２０及び声紋登録端末３０から提供されるテキスト及び声紋データ（デジタル声紋データ）を蓄積する一方、ネットワークＮＷを介して接続された外部端末群４０に対してテキスト及び声紋データから生成される音声データを提供する。

なお、図１においては、音声提供システム１がネットワークＮＷを介してテキストや声紋データを受け取り、これらに基づいて生成された音声データを外部端末群４０に提供する場合について説明している。しかしながら、本発明に係る音声提供システム１が適用される環境については、上記環境に限定されるものではなく適宜変更が可能である。例えば、テキストや声紋データは、管理サーバ１０に対して直接登録してもよい。また、音声データは、外部端末群４０に限定されず、管理サーバ１０に直接接続された端末（音声出力端末等）に提供するようしてもよい。

管理サーバ１０は、本実施の形態に係る音声提供システム１を用いた音声提供サービスを提供する企業等に配置される。管理サーバ１０は、例えば、一般的な機能を有するパーソナルコンピュータ（ＰＣ）で構成され、ウェブサーバとしての機能を有する。例えば、管理サーバ１０は、後述するテキスト登録画面（図６参照）、声紋登録画面（図８参照）及び設定入力画面（図１０参照）を、ネットワークＮＷを通じてテキスト登録端末２０、声紋登録端末３０及び外部端末群４０に提供する。

テキスト登録端末２０は、音声提供システム１から提供される音声データの原稿となるテキストを登録する企業等に配置される。テキスト登録端末２０は、例えば、一般的な機能を有するＰＣで構成され、ウェブブラウザ機能を有する。例えば、テキスト登録端末２０は、音声データとして、広告の提供を希望する製造業者や、ニュースの提供を希望する新聞社やテレビ局などに配置される。また、テキスト登録端末２０は、テレビや冷蔵庫などの任意の家電製品等がインターネットに接続される環境において、これらの家電製品等から情報提供（例えば、音声案内）を希望するサービス提供業者に配置されてもよい。なお、テキスト登録端末２０は、テキスト入力端末として必要な構成要素（入力部、表示部や通信部等）を備える。テキスト登録端末２０から登録されるテキストは、自然言語で構成される。

声紋登録端末３０は、音声提供システム１から提供される音声データの音源となる声紋データ（デジタル声紋データ）を登録する企業等に設置される。声紋登録端末３０は、例えば、通常の一般的な機能を有するＰＣで構成され、ウェブブラウザ機能を有する。例えば、声紋登録端末３０は、俳優や声優等が所属するタレント事務所や、スポーツ選手等のマネジメントを行うマネジメント事務所などに配置される。なお、声紋登録端末３０は、声紋入力端末として必要な構成要素（入力部、表示部や通信部等）を備える。

ここで、声紋登録端末３０から登録される声紋データについて説明する。この声紋データには、例えば、特定の人物の発声を録音した音声の断片データや、特定の人物の発声を分析して得られる、スペクトルや基本周波数などの音響・韻律パラメータが含まれる。なお、声紋データは、これらに限定されるものではなく、後述する音声生成部１１２による音声合成技術（例えば、波形接続型音声合成やフォルマント合成など）に必要な任意のデータを含む。

外部端末群４０は、例えば、ネットワーク接続機能を有する任意の端末（機器）で構成される。図１においては、外部端末群４０として、カーナビゲーションシステム（以下、「カーナビ」という）４１、スマートフォン等の携帯端末４２及び冷蔵庫などの家電製品４３を例示している。外部端末群４０を構成するカーナビ４１、携帯端末４２及び家電製品４３は、各端末に特有の機能に加え、管理サーバ１０から提供される音声データを出力する音声出力機能を有する。

図２は、本実施の形態に係る音声提供システム１の管理サーバ１０のブロック図である。なお、図２においては、本発明に関連する管理サーバ１０の構成要素のみを示している。図２に示すように、管理サーバ１０は、管理サーバ１０の全体の制御を行う制御部１０１を有する。制御部１０１には、生成部１０２、記憶部１０３、判定部１０４、通信部１０５、入力部１０６及び表示部１０７が接続されている。なお、管理サーバ１０の構成については、これに限定されるものではなく適宜変更が可能である。

生成部１０２は、判定対象生成部１１１及び音声生成部１１２を有する。判定対象生成部１１１は、記憶部１０３に記憶されたテキストに非許容単語（以下、「ＮＧワード」という）が含まれるか否かを判定する対象（判定対象）を生成する。例えば、判定対象生成部１１１は、記憶部１０３に記憶されたテキストを任意箇所で区切って第１の判定対象（第１判定対象）を生成する。また、判定対象生成部１１１は、記憶部１０３に記憶されたテキストを形態素に分割して第２の判定対象（第２判定対象）を生成する。さらに、判定対象生成部１１１は、記憶部１０３に記憶されたテキスト又は第２判定対象の一部を発音語（例えば、平仮名や韻律）に変換する。

ここで、判定対象生成部１１１により生成される第１判定対象、第２判定対象について具体的に示す。図３Ａ及び図３Ｂは、それぞれ判定対象生成部１１１により生成される第１判定対象及び第２判定対象の一例を示す図である。図３Ａにおいては、日本語を用いたテキスト「今日は良い天気です（ＫＹＯＵＷＡＹＯＩＴＥＮＫＩＤＥＳＵ）」及び英語を用いたテキスト「Ｉｔｉｓｇｏｏｄｗｅａｔｈｅｒｔｏｄａｙ」から第１判定対象を生成する場合について示している。また、図３Ｂにおいては、日本語を用いたテキスト「今日は良い天気です（ＫＹＯＵＷＡＹＯＩＴＥＮＫＩＤＥＳＵ）」及び英語を用いたテキスト「Ｉｔｉｓｇｏｏｄｗｅａｔｈｅｒｔｏｄａｙ」から第２判定対象を生成する場合について示している。なお、英語を用いてテキストでは、発音記号により第１判定対象、第２判定対象を示している。以下では、日本語を用いたテキストを使用して第１判定対象、第２判定対象について説明する。

図３Ａに示すように、第１判定対象は、テキスト「今日は良い天気です（ＫＹＯＵＷＡＹＯＩＴＥＮＫＩＤＥＳＵ）」を発音語に変換し、任意箇所で区切って生成される。例えば、テキスト「今日は良い天気です（ＫＹＯＵＷＡＹＯＩＴＥＮＫＩＤＥＳＵ）」は、「きょ−う−は−よ−い−て−ん−き−で−す（ＫＹＯ−Ｕ−ＷＡ−ＹＯ−Ｉ−ＴＥ−Ｎ−ＫＩ−ＤＥ−ＳＵ）」や「きょう−はよ−いて−んき−です（ＫＹＯＵ−ＷＡＹＯ−ＩＴＥ−ＮＫＩ−ＤＥＳＵ）」に区切って第１判定対象とされる。第１判定対象には、テキスト「今日は良い天気です（ＫＹＯＵＷＡＹＯＩＴＥＮＫＩＤＥＳＵ）」を構成する平仮名の順番を維持した状態において、任意の発音語数（平仮名数）で分割した全ての組み合わせが含まれる。

なお、第１判定対象を生成する際、テキストに複数の発音語が含まれる場合には、全ての発音語を含む第１判定対象が生成される。例えば、図３Ａに示すテキスト内の「良い（ＹＯＩ）」には、「よい（ＹＯＩ）」及び「いい（ＩＩ）」の発音語が存在する。このため、このテキストから生成される第１判定対象には、「きょうはよいてんきです（ＫＹＯＵＷＡＹＯＩＴＥＮＫＩＤＥＳＵ）」を任意箇所で区切ったものと、「きょうはいいてんきです（ＫＹＯＵＷＡＩＩＴＥＮＫＩＤＥＳＵ）」を任意箇所で区切ったものとが含まれる。

一方、図３Ｂに示すように、第２判定対象は、テキスト「今日は良い天気です（ＫＹＯＵＷＡＹＯＩＴＥＮＫＩＤＥＳＵ）」を形態素に分割して生成される。例えば、テキスト「今日は良い天気です（ＫＹＯＵＷＡＹＯＩＴＥＮＫＩＤＥＳＵ）」は、「今日−は−良い−天気−です（ＫＹＯＵ−ＷＡ−ＹＯＩ−ＴＥＮＫＩ−ＤＥＳＵ）」に分割されて第２判定対象とされる。判定対象生成部１１１により生成された判定対象（第１判定対象、第２判定対象）は、後述する記憶部１０３内のテキストデータベース（ＤＢ）１１３にて、生成元のテキストに関連付けて登録される。

音声生成部１１２は、テキストＤＢ１１３に保存されたテキストから、後述する記憶部１０３内の声紋ＤＢ１１４に登録された声紋データを用いて音声データを生成する。音声生成部１１２は、声紋データに基づいて音声波形を生成する、音声合成部と呼ぶこともできる。例えば、音声生成部１１２は、波形接続型音声合成やフォルマント合成等により音声波形を生成することができる。波形型音声合成では、録音された特定の人物等の音声の断片データが連結して合成される。一方、フォルマント合成では、録音された特定の人物等の音声は使用されず、基底周波数、音色、雑音レベルなどのパラメータを調整して波形が形成され、人工的な音声データが生成される。

また、音声生成部１１２は、後述するように、テキストに含まれるＮＧワードの有無に応じて生成する音声データの態様を変更する。テキストにＮＧワードが含まれない場合には、当該テキストを修正することなくテキストに対応する音声データを生成する。一方、テキストにＮＧワードが含まれる場合には、ＮＧワードに対応する部分を修正したテキストに対応する音声データを生成する。例えば、ＮＧワードに対応する部分を修正する際、音声生成部１１２は、当該部分を削除又は置換した音声データを生成することができる。

記憶部１０３は、制御部１０１が管理サーバ１０を制御するために必要な情報が記憶されている。例えば、記憶部１０３には、後述するテキスト登録画面（図６参照）、声紋登録画面（図８参照）及び設定入力画面（図１０参照）を生成するための情報が記憶されている。また、記憶部１０３には、各種の情報が登録されたデータベース（ＤＢ）が記憶されている。具体的には、テキストＤＢ１１３、声紋ＤＢ１１４、第１ＮＧワードＤＢ１１５、第２ＮＧワードＤＢ１１６が記憶されている。

テキストＤＢ１１３には、ネットワークＮＷを介してテキスト登録端末２０から登録されたテキストが登録されている。テキストＤＢ１１３において、テキストは、テキスト登録端末２０の識別情報と関連付けて登録されている。また、テキストＤＢ１１３においては、判定対象生成部１１１により生成された判定対象（第１判定対象、第２判定対象）が生成元のテキストに関連付けて登録されている。

声紋ＤＢ１１４には、ネットワークＮＷを介して声紋登録端末３０から登録された声紋データが登録されている。声紋ＤＢ１１４において、声紋データは、声紋登録端末３０の識別情報と関連付けて登録されている。

第１ＮＧワードＤＢ１１５には、社会通念上、使用することが好ましくない単語や、後述するテキストの属性情報から特定される単語を含む基本ＮＧワードが登録されている。例えば、基本ＮＧワードには、第三者を罵倒する単語、猥褻な単語や反社会的な発言を連想させる単語が含まれる。また、基本ＮＧワードには、テキストの属性情報が「政治」の場合に政治的立場を連想させる単語が含まれる。

第２ＮＧワードＤＢ１１６には、ネットワークＮＷを介して声紋登録端末３０から登録された単語を含む個別ＮＧワードが登録されている。この個別ＮＧワードは、声紋ＤＢ１１６に登録された声紋データと関連付けて登録されている。個別ＮＧワードには、声紋データを提供する人物の印象に悪影響を与える単語が含まれる。例えば、声紋データを提供する人物が「スポーツ選手」である場合に「八百長」や「ドーピング」などの単語が含まれる。

判定部１０４は、テキストＤＢ１１３に登録されるテキストや、このテキストに関連付けられる第１判定対象、第２判定対象にＮＧワード又はＮＧワードでない許容単語（以下、「ＯＫワード」という）が含まれるかを判定する。テキストＤＢ１１３に登録されるテキストにＮＧワードが含まれるかを判定する際、判定部１０４は、第１ＮＧワードＤＢに登録された基本ＮＧワードを参照する。また、テキストＤＢ１１３に登録された第１判定対象、第２判定対象にＮＧワードが含まれるかを判定する際、判定部１０４は、第２ＮＧワードＤＢに登録された個別ＮＧワードを参照する。この場合、判定部１０４は、必要に応じて個別ＮＧワードの発音語（ＮＧ音）を生成し、第１判定対象及び第２判定対象と比較する。

通信部１０５は、制御部１０１の制御の下、テキスト登録端末２０、声紋登録端末３０及び外部端末群４０との間で情報の通信を行う。例えば、通信部１０５は、テキスト登録端末２０及び声紋登録端末３０に対して、それぞれテキスト登録画面（図６参照）及び声紋登録画面（図８参照）に必要な情報を送信する。一方、通信部１０５は、テキスト登録端末２０、声紋登録端末３０及び外部端末群４０から、それぞれテキスト、声紋データ及び設定入力情報を受信する。

入力部１０６は、管理サーバ１０に対する指示を受け付ける。例えば、入力部１０６は、第１ＮＧワードＤＢ１１５における基本ＮＧワードの編集等の指示を受け付ける。表示部１０７は、管理サーバ１０を操作するために必要な情報を表示する。例えば、表示部１０７には、管理サーバ１０のステータスや記憶部１０３に記憶されたテキストや声紋データの登録状況等が表示される。

ここで、本実施の形態に係る音声提供システム１から音声提供を受ける外部端末群４０の構成例について携帯端末４２を代表して説明する。図４は、本実施の形態に係る音声提供システム１から音声提供を受ける携帯端末４２のブロック図である。なお、図４においては、本発明に関連する携帯端末４２の構成要素のみを示している。

図４に示すように、携帯端末４２は、端末全体の制御を行う制御部４２１を備える。制御部４２１には、アプリケーション実行部（以下、「アプリ実行部」という）４２２、音声出力部４２３、通信部４２４、入力部４２５及び表示部４２６が接続されている。なお、携帯端末４２の構成については、図４に示す構成に限定されるものではなく適宜変更が可能である。

アプリ実行部４２２は、管理サーバ１０から提供される音声データを出力するために必要な処理を実行する。例えば、アプリ実行部４２２は、管理サーバ１０から提供される音声データに対する設定を入力する設定入力画面（図１０参照）を生成し、この設定入力画面を表示部４２６で表示する。また、アプリ実行部４２２は、通信部４２４を介して受信した音声データの確認（例えば、設定入力画面での設定と合致してるか否かの確認）を行い、音声出力部４２３に出力する。

音声出力部４２３は、アプリ実行部４２２から受け取った音声データを出力する。例えば、音声出力部４２３は、管理サーバ１０から提供されるテキストに対応する音声データをスピーカから出力する。

通信部４２４は、制御部４２１の制御の下、ネットワークＮＷを介して管理サーバ１０との間で情報を通信する。例えば、通信部４２４は、上述した設定入力画面で入力された情報を管理サーバ１０に対して送信する。また、通信部４２４は、管理サーバ１０から音声データを受信する。

入力部４２５は、携帯端末４２に対する指示を受け付ける。例えば、入力部４２５は、設定入力画面への情報の入力指示を受け付ける。表示部４２６は、携帯端末４２を操作するために必要な情報を表示する。例えば、表示部４２６には、携帯端末４２のステータスや設定入力画面等が表示される。

本実施の形態に係る音声提供システム１において、例えば、管理サーバ１０は、テキスト登録端末２０から新聞記事などのテキストを受信し、声紋登録端末３０から特定の俳優などの声紋データを受信する。一方、管理サーバ１０は、携帯端末４２から、所望のテキスト及び声紋データが指定された設定情報を受信する。管理サーバ１０は、携帯端末４２からの設定情報に基づいて、指定された声紋データを用いてテキストから音声データを生成し、携帯端末４２に提供する。これにより、携帯端末４２においては、新聞記事などのテキストが操作者のお気に入りの俳優の声で読み上げられた音声データを受信し、出力することができる。

以下、このような構成を有する音声提供システム１におけるテキストの登録から音声データの提供までの動作について説明する。まず、テキスト登録端末２０から管理サーバ１０に対してテキストを登録する際の動作について説明する。図５は、本実施の形態に係る音声提供システム１におけるテキスト登録時の動作を説明するためのフロー図である。

図５に示すように、管理サーバ１０にテキストを登録する際、テキスト登録端末２０からテキストの登録が申請される（ステップＳＴ５０１）。このテキスト登録申請を検出すると、記憶部１０３に記憶された情報からテキスト登録画面の生成に必要な情報（登録画面情報）が読み出され、通信部１０５を介してテキスト登録端末２０に出力される（ステップＳＴ５０２）。このテキスト登録画面に必要な情報を受信すると、テキスト登録端末２０にてテキスト登録画面が表示される（ステップＳＴ５０３）。

図６は、本実施の形態に係る音声提供システム１で利用されるテキスト登録画面６００の一例を示す図である。図６に示すテキスト登録画面６００は、テキスト登録端末２０の操作者が提供したいテキストを登録するための画面である。図６に示すように、テキスト登録画面６００には、属性選択部６０１、テキスト入力部６０２、リセットボタン６０３及び終了ボタン６０４が設けられている。

属性選択部６０１は、登録するテキストの属性情報を選択する部分である。例えば、属性選択部６０１には、テキストの属性情報として、「エンタメ」、「スポーツ」、「ニュース」、「経済」等のカテゴリを選択するボックス（カテゴリ選択ボックス）が設けられている。これらのカテゴリ選択ボックスを選択することにより、登録されるテキストの属するカテゴリを特定することができる。なお、属性選択部６０１には、直接的にテキストの属性情報を入力する構成としてもよい。属性選択部６０１は、テキストの属性情報を指定することを前提として任意の構成を採用することができる。

テキスト入力部６０２は、登録するテキストが入力される部分である。テキスト入力部６０２には、テキストを入力する欄（テキスト入力欄）が設けられている。このテキスト入力欄にテキストの文字や数字を入力することにより、管理サーバ１０に登録したいテキストを指定することができる。例えば、テキスト入力欄には、新聞記事、交通情報、音声案内や広告情報に関するテキストが入力される。

リセットボタン６０３は、テキスト登録画面６００で選択、指定した情報をリセットする際に利用される。終了ボタン６０４は、テキスト登録画面６００を用いたテキストの登録処理を終了する際に利用される。終了ボタン６０４を選択することにより、テキスト登録画面６００を介して選択／入力した属性情報及びテキストが管理サーバ１０に送信される。

なお、テキスト登録画面６００は、図６に示す例に限定されるものではなく適宜変更が可能である。テキスト登録画面６００に、登録したテキストに対する取扱いについて指定する部分を設けることは実施の形態として好ましい。例えば、登録したテキストに、声紋データとの関係でＮＧワードが含まれた場合の音声データの修正方法（ＮＧワードの削除、置換）を指定するようにしてもよい。

このようなテキスト登録画面６００が表示されると、属性選択部６０１から属性情報が選択され、テキスト入力部６０２にテキストが入力される。そして、テキスト登録画面６００の終了ボタン６０４が選択されると、これらの属性情報及びテキストが管理サーバ１０に送信される（ステップＳＴ５０４）。

属性情報及びテキストを受け取ると、判定部１０４によりテキストにＮＧワードが含まれているかが判定される（ステップＳＴ５０５）。このとき、判定部１０４は、第１ＮＧワードＤＢに登録された基本ＮＧワードを参照する。これにより、テキスト内に、社会通念上、使用することが好ましくない単語等が含まれるかが検出される。このようにテキストの登録段階で基本ＮＧワードの有無を判定することにより、基本ＮＧワードを含むテキストが管理サーバ１０に登録されるのを防止することができる。

テキストに基本ＮＧワードが含まれる場合（ステップＳＴ５０５：Ｙｅｓ）には、テキスト登録端末２０にその旨を示すエラーメッセージが出力される（ステップＳＴ５０６）。このようにエラーメッセージを出力することにより、テキスト等の不適切性をテキスト登録者に通知することができる。エラーメッセージを受信したテキスト登録者は、再びテキスト登録画面６００からテキスト等を入力し、管理サーバ１０に送信する（ステップＳＴ５０４）。

一方、テキストに基本ＮＧワードが含まれない場合（ステップＳＴ５０５：Ｎｏ）には、ステップＳＴ５０４で送信されたテキストがテキストＤＢ１１３に登録される（ステップＳＴ５０７）。そして、テキストＤＢ１１３への登録処理が完了すると、管理サーバ１０からテキスト登録端末２０に対してテキスト登録の完了が通知される（ステップＳＴ５０８）。このような一連の動作により管理サーバ１０（テキストＤＢ１１３）には、新聞記事等のテキストが登録される。

次に、声紋登録端末３０から管理サーバ１０に対して声紋データを登録する際の動作について説明する。図７は、本実施の形態に係る音声提供システム１における声紋登録時の動作を説明するためのフロー図である。

図７に示すように、管理サーバ１０に声紋データを登録する際、声紋登録端末３０から声紋データの登録が申請される（ステップＳＴ７０１）。この声紋登録申請を検出すると、記憶部１０３に記憶された情報から声紋登録画面の生成に必要な情報（登録画面情報）が読み出され、通信部１０５を介して声紋登録端末３０に出力される（ステップＳＴ７０２）。この声紋登録画面に必要な情報を受信すると、声紋登録端末３０にて声紋登録画面が表示される（ステップＳＴ７０３）。

図８は、本実施の形態に係る音声提供システム１で利用される声紋登録画面８００の一例を示す図である。図８に示す声紋登録画面８００は、声紋登録端末３０の操作者が提供したい声紋データを登録するための画面である。図８に示すように、声紋登録画面８００には、属性選択部８０１、ＮＧワードカテゴリ選択部８０２、ＮＧワード選択／入力部８０３、声紋入力部８０４、リセットボタン８０５及び終了ボタン８０６が設けられている。

属性選択部８０１は、登録する声紋データ（より具体的には、声紋データの人物）の属性情報を選択する部分である。例えば、属性選択部８０１には、声紋データの属性情報として、「俳優」、「アイドル」、「声優」、「アーティスト」等のカテゴリを選択するボックス（カテゴリ選択ボックス）が設けられている。これらのカテゴリ選択ボックスを選択することにより、登録される声紋データの属するカテゴリを特定することができる。なお、属性選択部８０１には、直接的に声紋データの属性情報を入力するようにしてもよい。属性選択部８０１は、声紋データの属性情報を指定することを前提として任意の構成を採用することができる。

ＮＧワードカテゴリ選択部８０２は、ＮＧワード（個別ＮＧワード）のカテゴリを選択する部分である。ＮＧワードカテゴリ選択部８０２には、例えば、「離婚」、「災害」、「反社会」や「広告」などのカテゴリを選択するボックス（カテゴリ選択ボックス）が設けられている。これらのカテゴリ選択ボックスには、各カテゴリに関連付けられるＮＧワードの候補（ＮＧワード候補）が予め登録されている。これらのカテゴリ選択ボックスを選択することにより、登録される声紋データに関連付けられるＮＧワード（個別ＮＧワード）の属するカテゴリを特定することができる。

ＮＧワード選択／入力部８０３は、登録する声紋データに関連付けられるＮＧワード（個別ＮＧワード）を選択又は入力する部分である。ＮＧワード選択／入力部８０３には、上述したＮＧワードカテゴリ選択部８０２からカテゴリを選択することにより、ＮＧワード候補が表示される。声紋登録者は、このようなＮＧワード候補から登録する声紋データに関連付けられるＮＧワードを選択することができる。また、声紋登録者は、ＮＧワード選択／入力部８０３に直接的にＮＧワード（個別ＮＧワード）を入力することもできる。

声紋入力部８０４は、登録する声紋データ（デジタル声紋データ）を入力する部分である。声紋入力部８０４には、声紋データを添付するボックス（声紋添付ボックス）が設けられている。この声紋添付ボックスに声紋データを添付することにより、管理サーバ１０に登録したい声紋データを指定することができる。

リセットボタン８０５は、声紋登録画面８００で選択、指定した情報をリセットする際に利用される。終了ボタン８０６は、声紋登録画面８００を用いた声紋データの登録処理を終了する際に利用される。終了ボタン８０６を選択することにより、声紋登録画面８００を介して選択／入力した属性情報及び声紋データが管理サーバ１０に送信される。

なお、声紋登録画面８００は、図８に示す例に限定されるものではなく適宜変更が可能である。声紋登録画面８００に、登録した声紋データに対する取扱いについて指定する部分を設けることは実施の形態として好ましい。例えば、登録した声紋データを用いて音声データを生成する際、テキストにＮＧワードが含まれた場合の音声データの修正方法（ＮＧワードの削除、置換）を指定するようにしてもよい。

また、声紋登録画面８００において、特定の人物の声紋データに関するＮＧワードを類推して表示させる機能を備えることは実施の形態として好ましい。例えば、特定の人物の過去１年間の言動（例えば、テレビやラジオ等のメディアにより発言等）に基づいてＮＧワードを類推し、ＮＧワード選択／入力部８０３に表示するようにしてもよい。これらのＮＧワードは、声紋登録者からの選択に応じて表示することが好ましい。

このような声紋登録画面８００が表示されると、属性選択部８０１から属性情報が選択され、ＮＧワードカテゴリ選択部８０２からＮＧワードのカテゴリが選択される。これらの情報が選択されると、属性情報及びＮＧワードカテゴリが管理サーバ１０に送信される（ステップＳＴ７０４）。

属性情報及びＮＧワードカテゴリを受け取ると、管理サーバ１０からＮＧワードの候補リスト（ＮＧワード候補リスト）が声紋登録端末３０に送信される（ステップＳＴ７０５）。このＮＧワード候補リストは、声紋登録画面８００のＮＧワード選択／入力部８０３に表示される。

なお、ここでは、ＮＧワードカテゴリ選択部８０２からのカテゴリの選択等に応じてＮＧワード候補リストを声紋登録端末３０に送信する態様について説明しているが、これに限定されない。例えば、ステップＳＴ７０２でＮＧワード候補リストを声紋登録端末３０に送信しておき、属性情報及びカテゴリの選択に応じてこれらをＮＧワード選択／入力部８０３に表示するようにしてもよい。

ＮＧワード選択／入力部８０３にＮＧワードが表示されると、声紋登録者によりＮＧワード選択／入力部８０３からＮＧワード（個別ＮＧワード）が指定され、声紋入力部８０４にて声紋データが添付される。そして、声紋登録画面８００の終了ボタン８０６が選択されると、これらのＮＧワード及び声紋データが管理サーバ１０に送信される（ステップＳＴ７０６）。

ＮＧワード及び声紋データを受信すると、声紋データは声紋ＤＢ１１４に登録され、ＮＧワードは、第２ＮＧワードＤＢ１１６に登録される（ステップＳＴ７０７）。なお、第２ＮＧワードＤＢ１１６において、ＮＧワードは、この声紋データに関連付けて登録されている。そして、声紋ＤＢ１１４、第２ＮＧワードＤＢ１１６への登録処理が完了すると、管理サーバ１０から声紋登録端末３０に対して声紋登録の完了が通知される（ステップＳＴ７０８）。このような一連の動作により、管理サーバ１０（声紋ＤＢ１１４、第２ＮＧワードＤＢ１１６）には、声紋登録者が音声データの生成に利用可能な俳優や女優等の声紋データが登録されると共に、その声紋データのＮＧワードが登録される。

以上のテキスト登録動作及び声紋登録動作により、管理サーバ１０には、音声データを生成するためのテキスト及び声紋データが登録される。管理サーバ１０は、このようなテキスト及び声紋データを用いて音声データを生成し、生成した音声データを携帯端末４２等に提供する。この際、管理サーバ１０は、携帯端末４２等から指定される所望の設定に基づいて、テキスト及び声紋データを選択し、これらのテキスト及び声紋データに基づいて音声データを生成する。

次に、携帯端末４２から管理サーバ１０に所望の設定を指定し、管理サーバ１０から提供された音声データを携帯端末４２にて出力する動作について説明する。図９は、本実施の形態に係る音声提供システム１における音声提供時の動作を説明するためのフロー図である。

携帯端末４２にて管理サーバ１０からの音声データの提供を受ける場合、図９に示すように、携帯端末４２において音声出力アプリが起動される（ステップＳＴ９０１）。この音声出力アプリを起動することにより、管理サーバ１０との間で音声提供システム１に関する情報を通信することが可能となる。音声出力アプリが起動されると、携帯端末４２における所望の設定を入力するための設定入力画面が表示される（ステップＳＴ９０２）。

図１０は、本実施の形態に係る音声提供システム１で利用される設定入力画面１０００の一例を示す図である。図１０に示す設定入力画面１０００は、携帯端末４２の操作者が提供を受けたい音声データを指定するための画面である。図１０に示すように、設定入力画面１０００には、テキスト指定部１００１、声紋指定部１００２、リセットボタン１００３及び終了ボタン１００４が設けられている。

テキスト指定部１００１は、携帯端末４２の操作者が提供を受けたい音声データに対応するテキストを指定する部分である。テキスト指定部１００１には、テキストの種別を示す「エンタメ」、「スポーツ」、「ニュース」、「経済」等のテキストを選択するボックス（テキスト選択ボックス）が設けられている。これらテキスト選択ボックスを選択することにより、管理サーバ１０から提供される音声データに対応するテキストを特定することができる。

図１０においては、説明の便宜上、簡略化しているが、テキスト選択ボックスには様々なジャンルのテキストを含むコンテンツが表示される。また、テキスト選択ボックスを、テキスト登録者を識別可能なアイコンで構成することは実施の形態として好ましい。この場合には、携帯端末４２の操作者は、直感的に所望のテキストを選択することが可能となる。

声紋指定部１００２は、携帯端末４２の操作者が提供を受けたい音声データの音源となる声紋データを指定する部分である。声紋指定部１００２には、声紋データに対応する人物が属するカテゴリを選択するボックス（カテゴリ選択ボックス）が設けられている。これらのカテゴリ選択ボックスを選択することにより、声紋データに対応する人物の候補者を特定していくことができる。特定のカテゴリ選択ボックスが選択されると、声紋指定部１００２には、そのカテゴリに属する複数の人物が表示される。操作者は、声紋指定部１００２に表示される候補者を選択することにより、声紋データに対応する人物を特定することができる。また、声紋指定部１００２には、声紋データに対応する人物を直接入力することができる入力欄が設けられている。

リセットボタン１００３は、設定入力画面１０００で選択、指定した情報をリセットする際に利用される。終了ボタン１００４は、設定入力画面１０００を用いた所望の設定の入力処理を終了する際に利用される。終了ボタン１００４を選択することにより、設定入力画面１０００を介して選択／入力したテキスト及び声紋データが管理サーバ１０に送信される。

なお、設定入力画面１０００は、図１０に示す例に限定されるものではなく適宜変更が可能である。設定入力画面１０００に、設定したテキスト及び声紋データから生成される音声データに対する取扱いについて指定する部分を設けることは実施の形態として好ましい。例えば、設定したテキスト及び声紋データに、ＮＧワードが含まれた場合の音声データの修正方法（ＮＧワードの削除、置換）を指定するようにしてもよい。

このような設定入力画面１０００に対して操作者から所望の設定が入力され、終了ボタン１００４が選択されると、管理サーバ１０に対して設定情報が送信される（ステップＳＴ９０３）。この設定情報には、操作者が選択したテキストと、操作者が選択した声紋データ（より具体的には、声紋データに対応する人物に関する情報）が含まれる。

携帯端末４２から設定情報を受信すると、管理サーバ１０において、この設定情報に含まれるテキスト及び声紋データが選択される（ステップＳＴ９０４）。管理サーバ１０は、テキストＤＢ１１３及び声紋ＤＢ１１４から設定情報に含まれるテキスト及び声紋データを選択する。そして、テキスト及び声紋データを選択した後、その声紋データに関連付けられたＮＧワード（個別ＮＧワード）が、指定されたテキストに含まれるかを判定する判定処理（以下、「ＮＧ判定処理」という）が行われる（ステップＳＴ９０５）。

ここで、このＮＧ判定処理について説明する。図１１は、本実施の形態に係る音声提供システム１におけるＮＧ判定処理を説明するためのフロー図である。このＮＧ判定処理は、主に管理サーバ１０における生成部１０２（判定対象生成部１１１）及び判定部１０４で実行される。

図１１に示すように、ＮＧ判定処理において、まず判定対象生成部１１１は、上述したステップＳＴ９０４で選択されたテキストに対して第２判定対象生成処理（形態素解析処理）を行う（ステップＳＴ１１０１）。第２判定対象生成処理においては、選択されたテキストが形態素に分割される。すなわち、第２判定対象生成処理によりテキストから第２判定対象（図３Ｂ参照）が生成される。テキストから生成された第２判定対象は、記憶部１０３のテキストＤＢ１１３に当該テキストに対応付けて登録される。

第２判定対象が登録されると、判定部１０４は、この第２判定対象にＮＧワード（個別ＮＧワード）が含まれるかを判定する判定処理（以下、「一次判定処理」という）を行う（ステップＳＴ１１０２）。この一次判定処理において、判定部１０４は、ステップＳＴ９０４で選択された声紋データに関連付けられた個別ＮＧワードを第２ＮＧワードＤＢ１１６から読み出す。そして、判定部１０４は、この個別ＮＧワードと第２判定対象とを一つ一つ比較することにより、テキストにおけるＮＧワード及びＯＫワードを判定する（ステップＳＴ１１０３）。これにより、テキストを構成する形態素とＮＧワードとが比較され、テキストに含まれるＮＧワードが検出される。

テキストからＯＫワードが検出されると（ステップＳＴ１１０３：ＯＫ）、判定対象生成部１１１は、そのＯＫワードの発音語を生成する（ステップＳＴ１１０４）。ここで、ＯＫワードが検出される場合とは、テキストからＮＧワードに該当しない第２判定対象が検出された場合に相当する。一方、判定部１０４は、個別ＮＧワードの発音語（以下、「ＮＧ音」という）を生成する（ステップＳＴ１１０５）。この場合、生成されたＯＫワードの発音語はテキストＤＢ１１３に登録され、生成されたＮＧ音は、第２ＮＧワードＤＢ１１６に登録される。

ＯＫワードの発音語及びＮＧ音が生成されると、判定部１０４は、ＯＫワードの発音語にＮＧ音が含まれるかを判定する判定処理（以下、「二次判定処理」という）を行う（ステップＳＴ１１０６）。この二次判定処理において、判定部１０４は、ＯＫワードの発音語とＮＧ音とを一つ一つ比較することにより、ＮＧワード及びＯＫワードを判定する（ステップＳＴ１１０７）。これにより、一次判定処理でＯＫワードと判定された第２判定対象の発音語とＮＧワードの発音語とが比較され、テキストに含まれるＮＧワードが検出される。

二次判定処理においても、ＯＫワードが検出されると、判定対象生成部１１１は、ステップＳＴ９０４で選択されたテキストに対して第１判定対象生成処理を行う（ステップＳＴ１１０８）。第１判定対象生成処理においては、選択されたテキストの発音語が生成され、その発音語を任意箇所で区切った判定対象が生成される。すなわち、第１判定対象生成処理によりテキストから第１判定対象（図３Ａ参照）が生成される。テキストから生成された第１判定対象は、記憶部１０３のテキストＤＢ１１３に当該テキストに関連付けて登録される。

第１判定対象が登録されると、判定部１０４は、この第１判定対象にＮＧ音が含まれるかを判定する判定処理（以下、「三次判定処理」という）を行う（ステップＳＴ１１０９）。この三次判定処理において、判定部１０４は、第１判定対象であるテキストの発音語の任意の組み合わせと、第２ＮＧワードＤＢ１１６に登録された個別ＮＧワードのＮＧ音との合致を一つ一つ比較することにより、ＮＧワードを判定する（ステップＳＴ１１１０）。これにより、テキストの発音語の任意の組み合わせとＮＧ音とが比較され、一次判定処理及び二次判定処理で検出されなかったＮＧワードが検出される。例えば、図３Ａに示す例において、第１判定対象の一つとして「きょう−はよ−いて−んき−です（ＫＹＯＵ−ＷＡＹＯ−ＩＴＥ−ＮＫＩ−ＤＥＳＵ）」が生成されている場合、「きょう（ＫＹＯＵ）」、「はよ（ＷＡＹＯ）」、「いて（ＩＴＥ）」、「んき（ＮＫＩ）」、「です（ＤＥＳＵ）」のそれぞれの発音語とＮＧ音とが比較される。

三次判定処理において、ＮＧワードが検出されなかった場合（ステップＳＴ１１１０：Ｎｏ）、判定部１０４は、ＮＧ判定処理の判定結果として、テキストにＮＧワードが含まれていないことを示す判定（ＯＫ判定）を選択する（ステップＳＴ１１１１）。

一方、三次判定処置において、ＮＧワードが検出された場合（ステップＳＴ１１１０：Ｙｅｓ）、一次判定処理において、ＮＧワードが検出された場合（ステップＳＴ１１０３：ＮＧ）及び二次判定処理においてＮＧワードが検出された場合（ステップＳＴ１１０７：ＮＧ）には、判定部１０４は、テキストにおけるＮＧワードの箇所を記録する（ステップＳＴ１１１２)。そして、判定部１０４は、ＮＧ判定処理の判定結果として、テキストにＮＧワードが含まれていることを示す判定（ＮＧ判定）を選択する（ステップＳＴ１１１３）。

ステップＳＴ１１１１にてＯＫ判定を選択し、或いは、ステップＳＴ１１１３にてＮＧ判定を選択すると、判定部１０４は、ＮＧ判定処理を終了する。このようなＮＧ判定処理により、ステップＳＴ９０４で選択された声紋データに関連付けられたＮＧワード（個別ＮＧワード）が、選択されたテキストに含まれるか否かが判定される。

このようなＮＧ判定処理においては、三次判定処理において、テキストを任意箇所で区切って生成される第１判定対象に対応する発音と個別ＮＧワードに対応する発音（ＮＧ音）との比較によりＮＧワードが判定される。このため、テキストを構成する文字や数字の任意の組み合わせの発音とＮＧ音とを比較することができる。これにより、テキストの文脈に関わらず、テキストに含まれるＮＧワードを精度良く検出することができる。

また、ＮＧ判定処理においては、第１判定対象とＮＧワードとの比較（三次判定処理）に先立って、テキストを構成する形態素（第２判定対象）に基づいてテキストに含まれるＮＧワード及びＯＫワードが判定される（一次判定処理）。これにより、第１判定対象に先立って、第２判定対象との比較によりテキストに形態素として含まれるＮＧワードを確実に検出することができる。また、テキストに含まれるＮＧワードを段階的に判定することができるので、ＮＧワードの検出漏れを低減することができる。

さらに、ＮＧ判定処理においては、第１判定対象とＮＧワードとの比較（三次判定処理）に先立って、一次判定処理にてＯＫワードと判定された第２判定対象に対応する発音とＮＧワードに対応する発音との比較によりＮＧワードが判定される（二次判定処理）。このため、ＯＫワードと判定された形態素の意味に関わらず、当該形態素に含まれるＮＧワードを検出することができる。

ＮＧ判定処理を終了すると、判定部１０４により、図９に示すように、ＮＧ判定処理の判定結果がＯＫ判定か、ＮＧ判定かが判定される（ステップＳＴ９０６）。ここで、ＯＫ判定の場合（ステップＳＴ９０６：ＯＫ）、音声生成部１１２により音声データが生成される（ステップＳＴ９０７）。この場合、音声生成部１１２は、ステップＳＴ９０４で選択されたテキストに修正等の処理を施すことなく、ステップＳＴ９０４で選択された声紋データを用いてテキストに対応する音声データを生成する。そして、生成された音声データは、管理サーバ１０から携帯端末４２に出力される（ステップＳＴ９０８）。

一方、ＮＧ判定処理の判定結果がＮＧ判定の場合（ステップＳＴ９０６：ＮＧ）、音声生成部１１２によりテキストの一部を修正した音声データ（修正音声データ）が生成される（ステップＳＴ９０９）。この場合、音声生成部１１２は、ステップＳＴ９０４で選択されたテキストにおけるＮＧワードに対応する部分を修正したテキストに対応する音声データを生成する。なお、テキストにおけるＮＧワードに対応する部分以外の部分は、ステップＳＴ９０４で選択された声紋データを用いて音声データが生成される。

ＮＧワードに対応する部分を修正する際、音声生成部１１２は、テキストにおけるＮＧワードに対応する部分を削除した音声データを生成することができる。また、音声生成部１１２は、テキストにおけるＮＧワードに対応する部分を置換した音声データを生成することができる。ＮＧワードを置換する態様として、音声生成部１１２は、例えば、ステップＳＴ９０４で選択した声紋データと異なる声紋データを用いた音声データを生成することができる。例えば、ＮＧワードに対応する部分のみを、予め定めた声紋データを用いて音声データを生成することができる。また、音声生成部１１２は、テキストにおけるＮＧワードに対応する部分を他の表現の単語に置換した音声データを生成することができる。なお、ＮＧワードに対応する部分に対する修正の態様は、テキスト登録者や声紋登録者の意向を考慮して選択することが好ましい。

ＮＧワードに対応する部分を修正して生成された音声データ（修正音声データ）は、管理サーバ１０から携帯端末４２に出力される（ステップＳＴ９１０）。ステップＳＴ９０８又はステップＳＴ９１０にて管理サーバ１０から音声データを受け取ると、携帯端末４２にて、スピーカ等を介して音声出力される（ステップＳＴ９１１）。この音声出力により音声提供システム１における音声提供時の動作が終了する。

以上説明したように、本実施の形態に係る音声提供システム１において、管理サーバ１０の音声生成部１１２は、判定部１０４の判定結果に応じて、記憶部１０３に登録されたテキストから特定の声紋データを用いた音声データを生成する。これにより、判定部１０４の判定結果に応じてテキストから特定の声紋データを用いた音声データが生成される。このため、テキストに含まれるＮＧワードの有無に応じて音声データを切り替えて生成することができる。これにより、テキストに含まれるＮＧワードの有無に応じて態様の異なる音声データを携帯端末４２に提供することができる。

ここで、記憶部１０３に登録されたテキストにＮＧワードが含まれない場合、音声生成部１１２は、テキストに対応する音声データを生成する。これにより、特別な修正等が施されることなく、ＮＧワードを含まないテキストに対応する音声データが生成される。このため、迅速にテキストに対応する音声データを携帯端末４２に提供することができる。

一方、記憶部１０３に登録されたテキストにＮＧワードが含まれる場合、音声生成部１１２は、ＮＧワードに対応する部分を修正したテキストに対応する音声データを生成する。これにより、ＮＧワードを含むテキストであっても、当該ＮＧワードの部分が修正された音声データを携帯端末４２に提供することができる。

例えば、記憶部１０３に登録されたテキストにＮＧワードが含まれる場合、音声生成部１１２は、テキストに含まれるＮＧワードに対応する部分を削除又は置換することができる。ＮＧワードに対応する部分を削除する場合には、ＮＧワードを含むテキストであっても、テキストに含まれるＮＧワードが確実に削除された音声データを携帯端末４２に提供することができる。一方、ＮＧワードに対応する部分を置換する場合には、ＮＧワードを含む音声データが特定の声紋データを用いてそのまま携帯端末４２に提供されるのを防止することができる。

ＮＧワードに対応する部分を置換する際には、当該部分を特定の声紋データと異なる声紋データを用いることができる。この場合には、ＮＧワードを含むテキストであっても、テキストが有する意味を変更させることなく、これに応じた音声データを携帯端末４２に提供することができる。また、ＮＧワードに対応する部分を置換する際には、当該部分を異なる表現の単語に置換することができる。この場合には、ＮＧワードを含むテキストであっても、テキストが有する意味を大幅に変更させることなく、これに応じた音声データを携帯端末４２に提供することができる。

また、本実施の形態に係る音声提供システム１において、管理サーバ１０の記憶部１０３（より具体的には、第２ＮＧワードＤＢ１１６）には、声紋登録端末３０から登録された声紋データに関連付けられるＮＧワードが登録される。このため、判定部１０４によって特定の声紋データに関連付けられるＮＧワード（個別ＮＧワード）がテキストに含まれるかが判定される。これにより、特定の声紋データに関連付けられるＮＧワードを含む音声データが携帯端末４２に提供されるのを確実に防止することができる。

さらに、本実施の形態に係る音声提供システム１において、管理サーバ１０の判定部１０４は、テキスト登録端末２０からのテキスト登録時に、当該テキストに含まれるＮＧワード（一般ＮＧワード）の有無を判定する。これにより、テキスト登録端末２０からのテキストの登録段階において、ＮＧワードを含むテキストが登録されるのを防止することができる。

この場合において、判定部１０４は、テキストの属性情報に関連付けられるＮＧワード（一般ＮＧワード）の有無を判定する。これにより、テキスト登録端末２０からのテキストの登録段階において、属性情報から特定されるＮＧワードを含むテキストが登録されるのを防止することができる。

なお、本発明は上記実施の形態に限定されず、さまざまに変更して実施可能である。上記実施の形態において、添付図面に図示されている構成要素については、これに限定されず、本発明の効果を発揮する範囲内で適宜変更が可能である。その他、本発明の目的の範囲を逸脱しない限りにおいて適宜変更して実施可能である。

例えば、上記実施の形態においては、図１１に示すＮＧ判定処理における三次判定処理において、判定部１０４が、第１判定対象であるテキストの発音語の任意の組み合わせと、第２ＮＧワードＤＢ１１６に登録されたＮＧワード（個別ＮＧワード）のＮＧ音との合致を一つ一つ比較する場合について説明している。しかしながら、三次判定処理における比較方法については、これに限定されるものではなく適宜変更が可能である。例えば、判定部１０４は、第１の判定対象に対応する発音と、ＮＧワードに対応する発音との部分的な一致によりＮＧワードを判定するようにしてもよい。この場合には、第１の判定対象及びＮＧワードの発音が完全に一致する場合に限らず、テキストに含まれるＮＧワードと部分的に一致する単語を検出することができる。これにより、テキストに含まれるＮＧワードと類似する単語まで検出することができる。なお、ＮＧワードに対応する発音との部分的な一致に関する割合は、予め定めてもよいし、実績に基づく機械学習やベイズ統計により定めてもよい。

また、上記実施の形態においては、図１１に示すＮＧ判定処理における三次判定処理において、判定部１０４が、第１の判定対象に対応する発音とＮＧワード（個別ＮＧワード）に対応する発音との比較によりＮＧワードを判定する場合について説明している。しかしながら、判定部１０４による判定方法は、これに限定されるものではなく適宜変更が可能である。例えば、第１の判定対象を構成する文字列とＮＧワードを構成する文字列との比較によりＮＧワードを判定するようにしてもよい。この場合には、テキストを任意箇所で区切って生成される第１判定対象を構成する文字列とＮＧワードを構成する文字列との比較によりＮＧワードが判定される。このため、テキストを構成する文字や数字の任意の組み合わせとＮＧワードとを比較することができる。これにより、テキストの文脈に関わらず、テキストに含まれるＮＧワードを精度良く検出することができる。

さらに、上記実施の形態においては、管理サーバ１０が、記憶部１０３に登録されたテキストから特定の声紋データを用いた音声データを生成し、生成した音声データを携帯端末４２等に提供する場合について説明している。しかしながら、携帯端末４２等に提供される情報については、音声データのみに限定されるものではなく適宜追加することが可能である。例えば、音声データに加え、その生成に用いたテキストを一緒に提供するようにしてもよい。また、音声データに加え、画像データ、動画データ又はコンピュータグラフィックス（ＣＧ）を提供するようにしてもよい。この場合、音声データに関連する画像データや動画データ等を提供することは実施の形態として好ましい。

さらに、上記実施の形態においては、記憶部１０３に登録されたテキストにＮＧワードが含まれる場合、音声生成部１１２により、ＮＧワードに対応する部分を置換することができる。このようなテキストの一部の置換は、ＮＧワード以外のテキストの一部に適用することもできる。例えば、テキストに含まれる特定の単語を、予め用意された異なる単語に置換するようにしてもよい。この場合、例えば、判定部１０４によってテキストから特定の単語が検出されると、音声生成部１１２は、予め用意された異なる単語に置換することができる。

このような置換の態様について具体例を示す。例えば、図３Ａに示すテキスト「今日は良い天気です（ＫＹＯＵＷＡＹＯＩＴＥＮＫＩＤＥＳＵ）」のうち、「です（ＤＥＳＵ）」が置換対象となる単語（以下、「置換対象ワード」という）として登録されているものとする。また、この置換対象ワードに置換される単語（以下、「置換ワード」という）として、「にゃん（ＮＹＡＮ）」が予め登録されているものとする。例えば、これらの置換対象ワードや置換ワードは、声紋登録端末３０から登録することができる。

このようにテキストに含まれる特定の単語を置換する実施の形態において、判定部１０４は、テキスト「今日は良い天気です（ＫＹＯＵＷＡＹＯＩＴＥＮＫＩＤＥＳＵ）」に置換対象ワードである「です（ＤＥＳＵ）」が含まれるか判定する（置換判定処理）。この置換判定処理は、例えば、図９に示すステップＳＴ９０５のＮＧ判定処理に置き換えられる。この置換判定処理における判定対象は、上述した第１判定対象（テキストを発音語に変換し、任意箇所で区切った判定対象）や、第２判定対象（テキストを形態素に分割した判定対象）とすることができる。置換判定処理において、判定部１０４は、第２判定対象及び／又は第１判定対象に置換対象ワードが含まれるかを判定する。

置換判定処理により、置換対象ワードである「です（ＤＥＳＵ）」が検出されると、音声生成部１１２は、この置換対象ワードを置換ワードである「にゃん（ＮＹＡＮ）」に置換した音声データ（置換音声データ）を生成する。これにより、置換音声データとして、「今日は良い天気にゃん（ＫＹＯＵＷＡＹＯＩＴＥＮＫＩＮＹＡＮ）」というテキストに対応する音声データが生成される。そして、生成された置換音声データは、管理サーバ１０から携帯端末４２に送信される。携帯端末４２においては、この置換音声データをスピーカ等で音声出力する。これにより、「今日は良い天気にゃん（ＫＹＯＵＷＡＹＯＩＴＥＮＫＩＮＹＡＮ）」という音声データが携帯端末４２から出力される。

このようにテキストに含まれる特定の単語を置換する実施の形態においては、例えば、アニメ等の特定のキャラクターの声紋データが設定入力画面（図１０参照）から選択された場合において、新聞記事等のテキストに基づいて当該キャラクターの話し方に合わせた音声データを携帯端末４２に提供することができる。これにより、例えば、特定のキャラクターによって新聞記事等を読み上げる音声提供サービスを提供することができる。

さらに、上記実施の形態においては、日本語を用いたテキストが判定対象となる場合におけるＮＧワードの判定を中心に説明している。しかしながら、ＮＧワードの判定対象は、日本語に限定されることなく、世界各国で用いられる任意の言語に適用することができる。また、複数の言語に跨ってＮＧワードの有無を判定するようにしてもよい。例えば、英語を用いたテキストに対応する発音が、日本語のＮＧワードに対応する発音に一致又は類似する場合、英語を用いたテキストの一部をＮＧワードと判定することができる。

本発明の判定装置及びこれを用いた音声提供システムによれば、テキストの文脈に関わらず、テキストに含まれる非許容単語を精度良く検出することができるという効果を奏し、特に、特定の声紋データを用いてテキストを読み上げる音声提供サービス等に好適に用いることができる。

本出願は、２０１５年１２月２日出願の特願２０１５−２３５７０３に基づく。この内容は、全てここに含めておく。

Claims

自然言語で構成されたテキストに含まれる非許容単語を判定する判定装置であって、
前記テキストを任意箇所で区切って第１の判定対象を生成する判定対象生成部と、
前記第１の判定対象に対応する発音と前記非許容単語に対応する発音との比較により前記非許容単語を判定する判定部と、
を具備し、
前記判定対象生成部は、前記テキストを形態素に分割して第２の判定対象を生成し、
前記判定部は、前記第１の判定対象に対応する発音と前記非許容単語に対応する発音との比較の前に、前記第２の判定対象と前記非許容単語との比較により前記非許容単語及び前記非許容単語でない許容単語を判定することを特徴とする判定装置。
前記判定部は、前記第１の判定対象に対応する発音と前記非許容単語に対応する発音との部分的な一致により前記非許容単語を判定することを特徴とする請求項１に記載の判定装置。
前記判定部は、前記第１の判定対象に対応する発音と前記非許容単語に対応する発音との比較の前に、前記許容単語と判定された前記第２の判定対象に対応する発音と前記非許容単語に対応する発音との比較により前記非許容単語を判定することを特徴とする請求項１又は請求項２に記載の判定装置。
自然言語で構成されたテキストに含まれる非許容単語を判定する判定装置であって、
前記テキストを任意箇所で区切って第１の判定対象を生成する判定対象生成部と、
前記第１の判定対象を構成する文字列と前記非許容単語を構成する文字列との比較により前記非許容単語を判定する判定部と、
を具備し、
前記判定対象生成部は、前記テキストを形態素に分割して第２の判定対象を生成し、
前記判定部は、前記第１の判定対象に対応する文字列と前記非許容単語に対応する文字列との比較の前に、前記第２の判定対象と前記非許容単語との比較により前記非許容単語及び前記非許容単語でない許容単語を判定することを特徴とする判定装置。
請求項１又は請求項２、請求項４又は請求項５のいずれかに記載の判定装置を備え、特定の声紋データに基づいて前記テキストに応じた音声を提供する音声提供システムであって、
前記判定装置は、前記判定部の判定結果に応じて前記テキストから前記特定の声紋データを用いた音声データを生成する音声生成部を具備することを特徴とする音声提供システム。
前記音声生成部は、前記テキストに前記非許容単語が含まれない場合に、当該テキストに対応する音声データを生成することを特徴とする請求項６に記載の音声提供システム。
前記音声生成部は、前記テキストに前記非許容単語が含まれる場合に、当該非許容単語に対応する部分を修正した前記テキストに対応する音声データを生成することを特徴とする請求項６又は請求項７に記載の音声提供システム。
前記音声生成部は、前記テキストに含まれる前記非許容単語に対応する部分を削除することを特徴とする請求項８に記載の音声提供システム。
前記音声生成部は、前記テキストに含まれる前記非許容単語に対応する部分を置換することを特徴とする請求項８に記載の音声提供システム。
前記音声生成部は、前記テキストに含まれる前記非許容単語に対応する部分に前記特定の声紋データと異なる声紋データを用いることを特徴とする請求項１０に記載の音声提供システム。
前記音声生成部は、前記テキストに含まれる前記非許容単語に対応する部分を異なる表現の単語に置換することを特徴とする請求項１０に記載の音声提供システム。
前記判定装置は、前記特定の声紋データを記憶する記憶部を具備し、前記記憶部は、前記特定の声紋データに関連付けられる前記非許容単語を記憶することを特徴とする請求項６に記載の音声提供システム。
自然言語で構成されたテキストに含まれる非許容単語を判定する判定方法であって、
前記テキストを任意箇所で区切って第１の判定対象を生成するステップと、
前記第１の判定対象に対応する発音と前記非許容単語に対応する発音との比較により前記非許容単語を判定するステップと、を具備し、
前記テキストを形態素に分割して第２の判定対象を生成し、
前記第１の判定対象に対応する発音と前記非許容単語に対応する発音との比較の前に、前記第２の判定対象と前記非許容単語との比較により前記非許容単語及び前記非許容単語でない許容単語を判定することを特徴とする判定方法。