JP2017107198A - 音声採取方法および音声移植方法 - Google Patents

音声採取方法および音声移植方法 Download PDF

Info

Publication number
JP2017107198A
JP2017107198A JP2016234607A JP2016234607A JP2017107198A JP 2017107198 A JP2017107198 A JP 2017107198A JP 2016234607 A JP2016234607 A JP 2016234607A JP 2016234607 A JP2016234607 A JP 2016234607A JP 2017107198 A JP2017107198 A JP 2017107198A
Authority
JP
Japan
Prior art keywords
voice
speech
segment data
output device
server device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016234607A
Other languages
English (en)
Other versions
JP6598379B2 (ja
Inventor
悠之介 北
Yunosuke Kita
悠之介 北
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=59059703&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP2017107198(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Individual filed Critical Individual
Publication of JP2017107198A publication Critical patent/JP2017107198A/ja
Application granted granted Critical
Publication of JP6598379B2 publication Critical patent/JP6598379B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

【課題】音声出力機能を具備する装置に対し、人間らしく且つ飽きにくい音声(声質)を与えることを可能にし、また、音声出力機能を具備する装置で利用可能な多種多様な声質の音声を簡単に集めることを可能にする音声出力装置に対し音声素片データを移植する音声移植方法を提供する。
【解決手段】音声出力装置は、ヒトの音声に由来する音声素片データに基づいて合成された当該ヒトの音声を出力できるように構成された装置であって、且つ、サーバー装置との間で情報の送受信をする。音声移植方法では、音声素片データの移植対象である音声出力装置から、音声素片データの移植に用いるサーバー装置へアクセスする。続いて、移植可能な音声素片データのリストに関する音声選択メニュー情報を、サーバー装置から音声出力装置へ送信する。そして、音声出力装置において、移植可能な音声素片データを選択可能に表示する。
【選択図】図2

Description

本発明は、ヒトの音声を合成する際に用いる音声素片データ(当該ヒトの音声に由来する音声素片データ)をインターネットとサーバー装置を利用して採取する方法と、この方法を利用して収集した音声素片データを音声出力装置に移植する方法に関するものである。
コンピュータなどを利用した簡易会話システムが提供されているが、従来型の会話システムは、音声そのものが単調で人工的(機械的)であったため、人間らしさをほとんど感じることができなかった。
また、従来型の会話システムが出力する会話音声(声質など)は、あらかじめ決められた音声だったため、極めて短期間で飽きてしまうといった問題があった。
また、本願発明者によって、出力音声そのものを自由自在に変えることができる装置が検討されているが、音声出力機能を有する装置のユーザ等の好み(音声の好み)は様々であるのに対し、従来技術で用意できる音声の数(種類)には限度があるため、多種多様な声質の音声を簡単に集めることができる方法が検討されてきた。
上述した従来技術の問題点に鑑み、本発明の目的は、音声出力機能を具備する装置に対し、人間らしく且つ飽きにくい音声(声質)を与えることを可能にし、また、音声出力機能を具備する装置で利用可能な多種多様な声質の音声を簡単に集めることを可能にする、新たな方法を提供することにある。
上記目的は、例えば、
ヒトの音声を合成する際に用いる音声素片データであって、当該ヒトの音声に由来する音声素片データを、インターネットとサーバー装置を利用して採取する方法において、
音声提供者の音声を入力できるように構成された音声提供者用端末から、インターネットを介して、音声素片データの収集に用いるサーバー装置へアクセスし、
前記音声提供者用端末に接続された音声入力手段を介して、音声提供者の音声をサンプリングし、
サンプリングした前記音声に関する音声サンプリングデータを、音声提供者用端末からサーバー装置へ送信し、
前記サーバー装置において、前記音声サンプリングデータに基づいて音声素片データを生成し、
前記音声提供者に関する提供者識別情報と前記音声素片データとを関連付けした状態で、前記サーバー装置の情報記録手段に保存する、ことによって達成される。
また上記目的は、例えば、
ヒトの音声を合成する際に用いる音声素片データであって、当該ヒトの音声に由来する音声素片データを、インターネットとサーバー装置を利用して採取する方法において、
音声提供者の音声を入力できるように構成された音声提供者用端末から、インターネットを介して、音声素片データの収集に用いるサーバー装置へアクセスし、
前記音声提供者用端末に接続された音声入力手段を介して、音声提供者の音声をサンプリングし、
前記音声提供者用端末において、サンプリングした前記音声に関する音声サンプリングデータに基づいて、音声素片データを生成し、
生成した前記音声素片データを音声提供者用端末からサーバー装置へ送信し、
前記音声提供者に関する提供者識別情報と前記音声素片データとを関連付けした状態で、前記サーバー装置の情報記録手段に保存する、ことによって達成される。
また上記目的は、例えば、
ヒトの音声に由来する音声素片データに基づいて合成された当該ヒトの音声を出力できるように構成された音声出力装置であって、サーバー装置との間で情報の送受信ができるように構成された音声出力装置に対し、前述した方法を利用して収集した音声素片データを移植する方法であって、
音声素片データの移植対象である音声出力装置から、インターネットを介して、音声素片データの移植に用いるサーバー装置へアクセスし、
移植可能な音声素片データのリストに関する音声選択メニュー情報を、サーバー装置から音声出力装置へ送信し、
音声出力装置において、移植可能な音声素片データを前記音声選択メニュー情報に基づいて選択可能に表示し、
ユーザが選択した音声素片データに対応する音声識別情報を、音声出力装置からサーバー装置へ送信し、
前記音声識別情報に対応する音声素片データを、サーバー装置から音声出力装置へ送信し、
サーバー装置から受信した前記音声素片データを、音声出力装置の情報記録媒体にインストールする、ことによって達成される。
また上記目的は、例えば、
ヒトの音声に由来する音声素片データに基づいて合成された当該ヒトの音声を出力できるように構成された音声出力装置であって、サーバー装置との間で情報の送受信ができるように構成された音声出力装置に対し、前述した方法を利用して収集した音声素片データを移植する方法であって、
音声素片データの利用者であるユーザが使用するユーザ端末から、インターネットを介して、音声素片データの移植に用いるサーバー装置へアクセスし、
移植可能な音声素片データのリストに関する音声選択メニュー情報を、サーバー装置からユーザ端末へ送信し、
ユーザ端末において、移植可能な音声素片データを前記音声選択メニュー情報に基づいて選択可能に表示し、
ユーザが選択した音声素片データに対応する音声識別情報と、当該音声素片データの移植対象である音声出力装置に対応する装置識別情報を、ユーザ端末からサーバー装置へ送信し、
前記音声識別情報に対応する音声素片データを、サーバー装置から、前記装置識別情報に対応する音声出力装置へ送信し、
サーバー装置から受信した前記音声素片データを、音声出力装置の情報記録媒体にインストールする、ことによって達成される。
また上記目的は、例えば、
ヒトの音声に由来する音声素片データに基づいて合成された当該ヒトの音声を出力できるように構成された音声出力装置であって、ユーザ端末から情報を受信できるように構成された音声出力装置に対し、前述した方法を利用して収集した音声素片データを移植する方法であって、
音声素片データの利用者であるユーザが使用するユーザ端末から、インターネットを介して、音声素片データの移植に用いるサーバー装置へアクセスし、
移植可能な音声素片データのリストに関する音声選択メニュー情報を、サーバー装置からユーザ端末へ送信し、
ユーザ端末において、移植可能な音声素片データを前記音声選択メニュー情報に基づいて選択可能に表示し、
ユーザが選択した音声素片データに対応する音声識別情報を、ユーザ端末からサーバー装置へ送信し、
前記音声識別情報に対応する音声素片データを、サーバー装置からユーザ端末へ送信し、
サーバー装置から受信した前記音声素片データを、ユーザ端末から音声出力装置へ送信し、
ユーザ端末から受信した前記音声素片データを、音声出力装置の情報記録媒体にインストールする、ことによって達成される。
請求項1または2に記載の本発明によれば、音声出力機能を具備する装置で利用可能な多種多様な声質の音声(あらゆる声質の音声)を、インターネット等を利用して簡単に集めることができる。
請求項3ないし5に記載の本発明によれば、音声出力装置の利用者等は、自己の好みに応じた音声(声質)を当該音声出力装置にインストールすることができ、また、自己の好みの変化や広がり等に応じて出力音声(声質)を変えることができる。すなわち、音声出力機能を具備する装置に対し、人間らしく且つ飽きにくい音声(声質)を与えることが可能になる。
本発明によれば、実在・架空のヒトの音声を商材として利用できるようになる。また、商材としての音声をコンピュータで管理できるようになる。
本発明に係る「音声採取方法」の概要を示す図である。 本発明に係る「音声移植方法/第1実施形態」の概要を示す図である。 本発明に係る「音声移植方法/第2実施形態」の概要を示す図である。 本発明に係る「音声移植方法/第3実施形態」の概要を示す図である。 本発明における「音声採取処理」の一例を示すフローチャートである。 本発明における「音声移植処理/第1実施形態」の一例を示すフローチャートである。 本発明における「音声移植処理/第2実施形態」の一例を示すフローチャートである。 本発明における「音声移植処理/第3実施形態」の一例を示すフローチャートである。 本発明を利用して採取・移植した音声を使って音声を合成する際の処理例を示すフローチャートである。 本発明の実施に利用する「利用可能音声情報」のデータ構成の一例を示す図である。 本発明の実施に利用する「音声選択メニュー情報」のデータ構成の一例を示す図である。 本発明の実施に利用する「音声提供者別・利用情報」のデータ構成の一例を示す図である。 本発明の実施に利用する「ユーザ別・利用情報」のデータ構成の一例を示す図である。
(音声採取方法の概要)
この出願の第1の発明の概要は、図1に示すとおりである。すなわち当該第1の発明は、ヒト(人間)の音声を合成する際に用いる音声素片データであって、当該ヒトの音声に由来する音声素片データを、インターネットとサーバー装置を利用して採取する方法に関するものである。採取した音声素片データは、その音声を提供した者の音声を合成するときに用いられる。
この第1の発明では、図1に示すとおり、
音声提供者の音声を入力できるように構成された音声提供者用端末(音声登録用端末)から、インターネットを介して、音声素片データの収集に用いる音声採取サーバ(サーバ装置)へアクセスし、
前記音声提供者用端末(音声登録用端末)に接続された音声入力手段を介して、音声提供者の音声をサンプリングし、
サンプリングした前記音声に関する音声サンプリングデータを、音声提供者用端末から音声採取サーバへ送信し、
前記音声採取サーバにおいて、前記音声サンプリングデータに基づいて音声素片データを生成し、
前記音声提供者に関する提供者識別情報と前記音声素片データとを関連付けした状態で、前記音声採取サーバの情報記録手段に保存する。
なお、この出願において「音声提供者用端末(音声登録用端末)」とは、例えば図1に示すとおり、インターネットにアクセス可能なコンピュータや、携帯型情報端末(例えばスマートフォンや携帯電話)などが挙げられる。
また、「音声入力手段」とは、例えば、コンピュータに接続されたマイクや、携帯型情報端末が内蔵するマイクなどが挙げられる。
また、「音声素片データ」とは、例えば、ヒト音声を構成する短い区間のデータ(五十音、濁音、半濁音などの発音一つ一つの音のデータ)である。例えば、五十音、濁音、半濁音などの発音一つ一つ(音声素片)をつなぎ合わせることで、音声(当該音声素片を発した本人の声)を合成することができる。つまり、音声素片データを利用することで、その音声素片データが由来するヒトの音声(あらゆる内容の音声)を合成することができる。
また、「サーバー装置」や「音声提供者用端末」は、インターネットを介して通信を行うための有線または無線の通信手段を具備している。
(音声移植方法の概要)
この出願の第2の発明の概要は、図2に示すとおりである。すなわち当該第2の発明は、ヒトの音声に由来する音声素片データに基づいて合成された当該ヒトの音声を出力できるように構成された音声出力装置であって、音声採取サーバ(サーバー装置)との間で情報の送受信ができるように構成された音声出力装置に対し、前述した音声採取方法を利用して収集した音声素片データを移植(インストール)する方法に関するものである。音声出力装置に音声素片データを移植(インストール)することで、当該音声出力装置は、その音声素片データが由来するヒトの音声(あらゆる内容の音声)を出力できるようになる。
この第2の発明では、図2に示すとおり、
音声素片データの移植対象である音声出力装置から、インターネットを介して、音声素片データの移植に用いる音声採取サーバ(サーバー装置)へアクセスし、
移植可能な音声素片データのリストに関する音声選択メニュー情報を、音声採取サーバから音声出力装置へ送信し、
音声出力装置において、移植可能な複数の音声素片データを前記音声選択メニュー情報に基づいて選択可能に表示し、
ユーザが選択した音声素片データに対応する音声識別情報(音声ID)を、音声出力装置から音声採取サーバへ送信し、
前記音声識別情報(音声ID)に対応する音声素片データを、音声採取サーバから音声出力装置へ送信し、
音声採取サーバから受信した前記音声素片データを、音声出力装置の情報記録媒体(例えばROMなどのメモリ)にインストールする。
なお、この出願において「音声出力装置(音声出力端末)」とは、音声ガイダンスや会話音声などの音声(ヒトまたはヒトのような音声)を出力する機能を備えた装置であり、その具体例として例えば図2に示すとおり、テレビ、冷蔵庫、タブレット端末・スマートフォン・携帯電話などの携帯型情報端末、ロボット、自動改札機、自動販売機などが挙げられる。また、自動車に搭載するナビゲーションシステムやガイダンスシステムなどであってもよい。
また、「利用可能音声情報」とは、例えば図10に例示するようなデータ構成の情報が挙げられる。
また、「ユーザ」とは、音声出力装置の利用者、より具体的には、音声出力装置によって出力される音声を聞く者である。
なお、図2は、本発明に係る音声移植方法の第1実施形態を示しており、図3は、音声移植方法の第2実施形態を示しており、図4は、音声移植方法の第3実施形態を示している。
(音声採取方法の具体的実施形態)
次に、図1に示す音声採取方法の実施形態についてフローチャートに基づいて説明する。
図5は、音声採取方法(インターネットを介して音声素片データを取得するための方法)の処理の一例を示すフローチャートである。
はじめに、音声採取サーバ(サーバ装置)は、音声提供者が使用する音声提供者用端末からインターネット経由でアクセスがあるまでスタンバイ状態で待機している<図5のステップS11, S15のNo>。音声採取サーバは、例えば図1に示すとおりであり、音声素片データの収集に用いられる。音声提供者用端末は、音声提供者の音声を入力できるように構成されている。音声採取サーバと音声提供者用端末は、インターネットを介して双方向通信を行うことができる。
そして、音声提供者用端末から音声採取サーバにアクセスがあって、かつ、音声提供者用端末が音声採取サーバに対し「音声採取処理のリクエスト」を送信すると<S13>、それに応じて<S15のYes>、音声採取サーバは、音声提供者用端末に対し、例えば次の情報の送信を要求する<S17>。
1)端末ID
2)音声タイトル情報
3)音声タイプ情報
4)音声提供者情報
「端末ID」とは、通信相手の音声提供者用端末を識別するための識別情報である。端末IDは、各音声提供者用端末に対して個別に割り当てられている固有の情報である。端末IDが分かることで、音声採取サーバは通信相手を判別することができる。
「音声タイトル情報」とは、採取する音声(または採取した音声)の概要を示す情報であり、例えば、図10中の「音声タイトル情報」の欄に示すような情報である。この情報は、例えば、音声提供者によってあらかじめ音声提供者用端末に入力されている。音声タイトル情報が分かることで、例えば後述するユーザが自分の好みの音声を選びやすくなる。
「音声タイプ情報」とは、採取する音声(または採取した音声)を発した者、すなわち音声提供者の性別、年代、音声タイプ(声質のタイプ)などを示す情報である。この情報は、例えば、音声提供者によってあらかじめ音声提供者用端末に入力されている。音声タイプ情報が分かることで、例えば後述するユーザが自分の好みの音声を選びやすくなる。
「音声提供者情報」とは、採取する音声(または採取した音声)を発した者、すなわち音声提供者の住所、氏名、性別、年齢、メールアドレス、銀行口座などの個人情報を示す情報である。この情報は、例えば、音声提供者によってあらかじめ音声提供者用端末に入力されている。音声提供者情報が分かることで例えば、その者が提供者した音声(音声素片データ)の利用料を、その者に対して支払うことができる。
音声提供者用端末は、音声採取サーバからの要求<S17>に応じて、端末ID、音声タイトル情報、音声タイプ情報、音声提供者情報などの各種情報を音声採取サーバに対して送信する<S19, S21>。
続いて、音声採取サーバは音声提供者用端末に対し、音声提供者に対する音声サンプリングに使う読み上げ用データを送信する<S23>。「読み上げ用データ」とは、音声提供者が目で見てそれを声に出して読み上げるための文章データであって、音声素片データの抽出に適した文章データである。音声提供者がこの読み上げ用データを声に出して読み上げるとともに、その際に発声された音声をサンプリングすることで、音声データ(音声サンプリングデータ)を生成する。この音声データ(音声サンプリングデータ)に対して所定のデジタル処理を実行することで、当該音声データから音声素片データを抽出することができる。
音声提供者用端末は、音声採取サーバから読み上げ用データを受信すると<S25>、サンプリング開始までスタンバイ状態で待機する<S27>。
そして、音声提供者に対する音声サンプリングの準備が整うと<S29のYes>、受信済の読み上げ用データ(読み上げ用の文章)を音声提供者用端末の画面に表示する<S31>とともに、音声提供者が発声した音声のサンプリングを行う<S33>。このときの音声サンプリングは、音声提供者用端末が具備するマイクなどの音声入力手段を通じて行われる。すなわち、音声提供者用端末に接続された音声入力手段を介して、音声提供者の音声をサンプリングする。なお、音声提供者とは、採取する音声の提供者であって、具体的には、音声素片データのもととなる音声を提供する者である。
そして、画面に表示されている読み上げ用データを音声提供者がすべて適切に読み終えると、音声サンプリングが終了する<S35のYes>。続いて音声提供者用端末は、サンプリングによって得られた音声データ(音声サンプリングデータ)に対して音質チェックを実行し<S37>、サンプリングが成功したか否かの判断を行う<S39>。なお、音質チェックとは、具体的には、後述する音声素片データの抽出(生成)に適した音質か否かについての判断である。
上記処理を経て音声サンプリングが成功したら<S39のYes>、音声提供者用端末でのサンプリングによって得られた音声データ(音声サンプリングデータ)を、音声提供者用端末から音声採取サーバに送信する<S41>。
音声採取サーバは、音声提供者用端末から音声データ(音声サンプリングデータ)を受信すると<S43>、当該受信したサンプリング音声のデータから音声素片データを抽出する<S45>。すなわち、音声採取サーバにおいて、音声データ(音声サンプリングデータ)に基づいて音声素片データを生成する。
そして音声採取サーバは、音声データ(音声サンプリングデータ)から抽出した音声素片データと、音声提供者用端末から既に受信済の次の情報を、図10の各行に示す如く紐づけし、更に、それぞれに音声IDを割り当てて、「利用可能音声情報」として音声採取サーバの情報記録手段に保存する<S47>。
1)音声タイトル情報
2)音声タイプ情報
3)音声提供者情報
「利用可能音声情報」とは、図10に示すように、音声ID、音声タイトル情報、音声タイプ情報、音声提供者情報、音声素片データの組合せで構成される情報であり、例えば図10に示す一つ一つ(一行一行)が「利用可能音声情報」を指している。
また、上述した利用可能音声情報は、後述する処理で利用する音声移植サーバにも保存される。音声移植サーバにも保存することで、該当する音声素片データを、音声移植サーバから音声出力装置へ送信することができる。
以上の処理を経て、音声提供者用端末と音声採取サーバを利用した音声素片データの採取処理が終了する<S49>。
(音声採取方法の第2実施形態)
前述した実施形態では、サンプリングで得られた音声データ(音声サンプリングデータ)を、音声提供者用端末から音声採取サーバへ送信し、そして、音声採取サーバにおいて音声素片データを生成しているが、この音声素片データの生成処理を(音声採取サーバ側ではなく)音声提供者用端末側で実行してもよい。
すなわち、音声採取方法の第2実施形態では、
・前述した実施形態と同様に、音声提供者用端末が具備する音声入力手段を介して、音声提供者の音声をサンプリングし、
・その後、音声提供者用端末において、サンプリングした音声に関する音声サンプリングデータに基づいて、音声素片データを生成し(主にこの点において前述した実施形態と相違する)、
・そして、生成した音声素片データを音声提供者用端末から音声採取サーバへ送信し、
・その後、前述した実施形態と同様に、音声提供者に関する提供者識別情報と音声素片データなどを関連付けした状態で、音声採取サーバの情報記録手段に保存する。
(音声移植方法の具体的実施形態)
次に、図2に示す音声移植方法の実施形態についてフローチャートに基づいて説明する。
図6は、音声移植方法(音声素片データを音声出力装置にインストールするための方法)の処理の一例を示すフローチャートである。
はじめに、音声移植サーバ(サーバ装置)は、ユーザが使用する音声出力装置からインターネット経由でアクセスがあるまでスタンバイ状態で待機している<図6のステップS101, S105のNo>。音声移植サーバは、音声出力装置に対する音声素片データの移植に用いられる。音声出力装置は、音声素片データの移植対象(インストール対象)の装置である。音声移植サーバと音声出力装置は、インターネットを介して双方向通信を行うことができる。
そして、音声出力装置から音声移植サーバにアクセスがあって、かつ、音声出力装置が音声移植サーバに対し「音声移植処理のリクエスト」を送信すると<S103>、それに応じて<S105のYes>、音声移植サーバは、音声出力装置に対し、例えば次の情報の送信を要求する<S107>。
1)端末ID
2)ユーザ情報
「端末ID」とは、通信相手の音声出力装置(音声素片データのインストール対象の音声出力装置)を識別するための識別情報である。端末IDは、各音声出力装置に対して個別に割り当てられている固有の情報である。この端末IDが分かることで、音声移植サーバは、音声素片データのインストール対象(音声素片データの送信先)を判別することができる。
「ユーザ情報」とは、音声出力装置を使うユーザを識別するための識別情報である。ユーザ情報は、各ユーザに対して個別に割り当てられている固有の情報である。また、ユーザ情報は、音声出力装置に対してユーザが入力する情報である。このユーザ情報が分かることで、例えば音声素片データの利用料金を、ユーザ情報に基づいて当該ユーザに対して課金することができる。
音声出力装置は、音声移植サーバからの要求<S107>に応じて、端末ID、ユーザ情報などを音声移植サーバに対して送信する<S109, S111>。
続いて、音声移植サーバは音声出力装置に対し、移植可能な音声素片データのリストに関する音声選択メニュー情報を送信する<S113>。ここでいう「音声選択メニュー情報」とは、音声出力装置に対し移植(インストール)可能な音声素片データの一覧、すなわち利用可能な音声素片データのリストに関する情報である。音声選択メニュー情報のデータ構成の一例を図11に示す。図11に示すような簡易情報(利用可能な音声素片データの一覧を示す情報)が「音声選択メニュー情報」として音声移植サーバから音声出力装置に対し送信される。
音声出力装置は、音声移植サーバから音声選択メニュー情報を受信すると<S115>、その受信情報に基づいて音声選択メニューを音声出力装置の画面に選択可能に表示する<S117>。「音声選択メニュー」とは、音声出力装置にインストール可能な音声素片データを選択するために表示される一覧情報である。ユーザは、画面に表示された音声選択メニューのなかから、利用したい好みの音声を選択することができる。選択は、例えばユーザによるタッチ操作やクリックなどの入力操作によって行われる。
ユーザが、音声出力装置の画面に表示されている音声選択メニューのなかから、好みの音声(任意の音声)を選択し終えると<S119のYes>、当該ユーザが選択した音声に対応する音声IDを音声出力装置が音声移植サーバへ送信する<S121>。
そして、音声移植サーバが音声出力装置から音声IDを受信すると<S123>、音声移植サーバは、当該音声IDに対応する音声素片データを情報記録手段から抽出し<S125>、さらに、抽出した当該音声素片データを音声出力装置へインターネット経由で送信する<S127>。なお、図1に示すように、音声素片データを含む利用可能音声情報は、音声採取サーバのみならず音声移植サーバにも保存されている。また図10に示すように、音声IDは音声素片データに紐付されてサーバ装置に保存されているので、音声IDが分かればそれに対応する音声素片データを瞬時に抽出することができる。
音声出力装置は、音声移植サーバから該当する音声素片データを受信すると<S129>、その音声素片データを自身にインストールする<S131>。すなわち、音声出力装置に対する声(音声素片データ)の移植が実行される。
一方、音声移植サーバは、音声素片データを音声出力装置へ送信し終えると<S127>、音声利用情報を更新して<S133>、音声移植の処理を終了する<S135>。
ここでいう「音声利用情報」とは、例えば、音声素片データの利用頻度(インストール頻度)や、利用回数(インストール回数)などに関するデータを含む情報である。「音声利用情報」の具体例としては、例えば図12や図13に示すようなデータ構成の情報が挙げられる。この「音声利用情報」(図12や図13に示すようなデータ構成の情報)は、例えば、音声素片データの利用履歴の管理や、音声素片データの利用者に対する課金、音声提供者に対する報酬の支払い、統計などに利用することができる。
(音声移植方法の第2実施形態)
次に、図3に示す音声移植方法の第2実施形態についてフローチャートに基づいて説明する。
図7は、音声移植方法(音声素片データを音声出力装置にインストールするための方法)の処理の別の例を示すフローチャートである。
音声移植方法の第2実施形態は、多くの部分において前述した第1実施形態(図2、図6)と共通しており、要するに、音声移植方法を次のように実行する。
すなわち、音声移植方法の第2実施形態では、図3、図7に示すとおり、
・音声素片データの利用者であるユーザが使用するユーザ端末から、インターネットを介して、音声素片データの移植に用いる音声移植サーバへアクセスし<S203>、
・移植可能な音声素片データのリストに関する音声選択メニュー情報を、音声移植サーバからユーザ端末へ送信し<S213>、
・ユーザ端末において、移植可能な音声素片データを前記音声選択メニュー情報に基づいて選択可能に表示し<S217>、
ユーザが選択した音声素片データに対応する音声IDと、当該音声素片データの移植対象である音声出力装置に対応する装置IDを、ユーザ端末から音声移植サーバへ送信し<S221>、
・前記音声IDに対応する音声素片データを、音声移植サーバから、前記装置識別情報に対応する音声出力装置へ送信し<S227>、
・音声移植サーバから受信した前記音声素片データを、音声出力装置(ユーザ端末とは異なる別の装置)の情報記録媒体にインストールするようになっている。
なお、前述した第1実施形態では、ユーザ端末と音声出力装置は同じ装置(端末)であったが、第2実施形態では、ユーザ端末と音声出力装置は異なる別々の装置(端末)である。この点で第1実施形態と第2実施形態は大きく異なる。
(音声移植方法の第3実施形態)
次に、図4に示す音声移植方法の第3実施形態についてフローチャートに基づいて説明する。
図8は、音声移植方法(音声素片データを音声出力装置にインストールするための方法)の処理の別の例を示すフローチャートである。
音声移植方法の第3実施形態は、多くの部分において前述した第1実施形態(図2、図6)と共通しており、要するに、音声移植方法を次のように実行する。
すなわち、音声移植方法の第3実施形態では、図4、図8に示すとおり、
・音声素片データの利用者であるユーザが使用するユーザ端末から、インターネットを介して、音声素片データの移植に用いる音声移植サーバへアクセスし<S303>、
・移植可能な音声素片データのリストに関する音声選択メニュー情報を、音声移植サーバからユーザ端末へ送信し<S313>、
・ユーザ端末において、移植可能な音声素片データを前記音声選択メニュー情報に基づいて選択可能に表示し<S317>、
・ユーザが選択した音声素片データに対応する音声IDを、ユーザ端末から音声移植サーバへ送信し<S321>、
・前記音声IDに対応する音声素片データを、音声移植サーバからユーザ端末へ送信し<S327>、
・音声移植サーバから受信した前記音声素片データを、ユーザ端末から音声出力装置へ送信し<S331>、
・ユーザ端末から受信した前記音声素片データを、音声出力装置の情報記録媒体にインストールするようになっている。
なお、前述した第1実施形態では、ユーザ端末と音声出力装置は同じ装置(端末)でああったが、第3実施形態では、ユーザ端末と音声出力装置は異なる別々の装置(端末)である。この点で第1実施形態と第3実施形態は大きく異なる。
また、前述した第2実施形態では、音声素片データを、音声移植サーバから直接、音声出力装置へ送信して<S227>、該音声素片データを音声出力装置にインストールしているが、第3実施形態では、音声素片データを、いったん音声移植サーバからユーザ端末へ送信し<S327>、その後、当該音声素片データをユーザ端末から音声出力装置へ送信して<S331>、音声出力装置にインストールするようになっている。この点で第3実施形態は前述した実施形態と大きく異なる。
(音声出力装置での音声合成処理)
次に、音声素片データを移植(インストール)した音声出力装置での音声合成処理(音声出力処理)について説明する。
図9は、ユーザが利用する音声出力装置での音声合成処理(インストール済みの音声素片データを利用した音声合成処理)の処理の一例を示すフローチャートである。
はじめに、音声出力装置はスタンバイ状態で待機し<図9のステップS401>、その状態で周囲の人のアクション(例えばユーザの問いかけ、独り言、会話、動作など)の検出処理を実行する<S403>。周囲におけるアクションの検出は、例えば、赤外線センサー、音感センサー、近接センサー、マイク、カメラなどの各種センサーを利用して実行される。また、音声出力装置は、アクションを検出するための各種センサー手段を具備している。
そして、音声出力装置が周囲の人のアクションを検出すると<S403のYes>、次に音声出力装置は、検出した当該アクションに対してリアクションが必要か否かについて判断する<S405>。ここでいうリアクションとは、例えば、帰宅した動作に対して「おかえりなさい」という音声を出力する処理や、また例えば、起床してきたユーザに対して「おはよう」という音声を出力する処理などが該当する。あるいは例えば、自動販売機に近づいてきたユーザに対して「いらっしゃいませ」という音声を出力する処理などが該当する。
こういった音声出力処理(リアクション)が必要か否かについての判断を、検出したアクションの内容に基づいて判断する。
音声出力装置が「検出したアクションに対してリアクションが必要」と判断した場合には<S405のYes>、検出されたユーザのアクションの内容に応じた発話用基礎データ(文章データ/テキストデータ)を生成する<S407>。例えば、帰宅動作が検出された場合には、「おかえりなさい」という音声を出力するための発話用基礎データを生成する。また例えば、午前中に起床動作が検出された場合には、「おはよう」という音声を出力するための発話用基礎データを生成する。また例えば、購入が予想される動作が検出された場合には、「いらっしゃいませ」という音声を出力するための発話用基礎データを生成する。このように、音声出力装置は、検出されたアクションの内容(行動内容)に応じた発話用基礎データを生成する。
次に音声出力装置は、生成した発話用基礎データと、インストール済みの音声素片データに基づいて、出力用音声データを合成する<S409>。例えば、「おかえりなさい」という音声を出力する場合には、発話用基礎データと音声素片データに基づいて、「おかえりなさい」の音声を合成する。この「おかえりなさい」の音声は、ユーザが選択している好みの音声(インストール済みの音声素片データが由来する音声提供者の音声)で出力される<S411>。すなわち、ユーザがあらかじめ選んだ声で、あらゆる音声が出力される。
以上の処理を音声合成プログラムが終了するまで継続する<S413>。

Claims (5)

  1. ヒトの音声を合成する際に用いる音声素片データであって、当該ヒトの音声に由来する音声素片データを、インターネットとサーバー装置を利用して採取する方法において、
    音声提供者の音声を入力できるように構成された音声提供者用端末から、インターネットを介して、音声素片データの収集に用いるサーバー装置へアクセスするステップと、
    前記音声提供者用端末に接続された音声入力手段を介して、音声提供者の音声をサンプリングするステップと、
    サンプリングした前記音声に関する音声サンプリングデータを、音声提供者用端末からサーバー装置へ送信するステップと、
    前記サーバー装置において、前記音声サンプリングデータに基づいて音声素片データを生成するステップと、
    前記音声提供者に関する提供者識別情報と前記音声素片データとを関連付けした状態で、前記サーバー装置の情報記録手段に保存するステップと、
    を含むことを特徴とする音声採取方法。
  2. ヒトの音声を合成する際に用いる音声素片データであって、当該ヒトの音声に由来する音声素片データを、インターネットとサーバー装置を利用して採取する方法において、
    音声提供者の音声を入力できるように構成された音声提供者用端末から、インターネットを介して、音声素片データの収集に用いるサーバー装置へアクセスするステップと、
    前記音声提供者用端末に接続された音声入力手段を介して、音声提供者の音声をサンプリングするステップと、
    前記音声提供者用端末において、サンプリングした前記音声に関する音声サンプリングデータに基づいて、音声素片データを生成するステップと、
    生成した前記音声素片データを音声提供者用端末からサーバー装置へ送信するステップと、
    前記音声提供者に関する提供者識別情報と前記音声素片データとを関連付けした状態で、前記サーバー装置の情報記録手段に保存するステップと、
    を含むことを特徴とする音声採取方法。
  3. ヒトの音声に由来する音声素片データに基づいて合成された当該ヒトの音声を出力できるように構成された音声出力装置であって、サーバー装置との間で情報の送受信ができるように構成された音声出力装置に対し、請求項1または請求項2に記載の方法を利用して収集した音声素片データを移植する方法であって、
    音声素片データの移植対象である音声出力装置から、インターネットを介して、音声素片データの移植に用いるサーバー装置へアクセスするステップと、
    移植可能な音声素片データのリストに関する音声選択メニュー情報を、サーバー装置から音声出力装置へ送信するステップと、
    音声出力装置において、移植可能な音声素片データを前記音声選択メニュー情報に基づいて選択可能に表示するステップと、
    ユーザが選択した音声素片データに対応する音声識別情報を、音声出力装置からサーバー装置へ送信するステップと、
    前記音声識別情報に対応する音声素片データを、サーバー装置から音声出力装置へ送信するステップと、
    サーバー装置から受信した前記音声素片データを、音声出力装置の情報記録媒体にインストールするステップと、
    を含むことを特徴とする音声移植方法。
  4. ヒトの音声に由来する音声素片データに基づいて合成された当該ヒトの音声を出力できるように構成された音声出力装置であって、サーバー装置との間で情報の送受信ができるように構成された音声出力装置に対し、請求項1または請求項2に記載の方法を利用して収集した音声素片データを移植する方法であって、
    音声素片データの利用者であるユーザが使用するユーザ端末から、インターネットを介して、音声素片データの移植に用いるサーバー装置へアクセスするステップと、
    移植可能な音声素片データのリストに関する音声選択メニュー情報を、サーバー装置からユーザ端末へ送信するステップと、
    ユーザ端末において、移植可能な音声素片データを前記音声選択メニュー情報に基づいて選択可能に表示するステップと、
    ユーザが選択した音声素片データに対応する音声識別情報と、当該音声素片データの移植対象である音声出力装置に対応する装置識別情報を、ユーザ端末からサーバー装置へ送信するステップと、
    前記音声識別情報に対応する音声素片データを、サーバー装置から、前記装置識別情報に対応する音声出力装置へ送信するステップと、
    サーバー装置から受信した前記音声素片データを、音声出力装置の情報記録媒体にインストールするステップと、
    を含むことを特徴とする音声移植方法。
  5. ヒトの音声に由来する音声素片データに基づいて合成された当該ヒトの音声を出力できるように構成された音声出力装置であって、ユーザ端末から情報を受信できるように構成された音声出力装置に対し、請求項1または請求項2に記載の方法を利用して収集した音声素片データを移植する方法であって、
    音声素片データの利用者であるユーザが使用するユーザ端末から、インターネットを介して、音声素片データの移植に用いるサーバー装置へアクセスするステップと、
    移植可能な音声素片データのリストに関する音声選択メニュー情報を、サーバー装置からユーザ端末へ送信するステップと、
    ユーザ端末において、移植可能な音声素片データを前記音声選択メニュー情報に基づいて選択可能に表示するステップと、
    ユーザが選択した音声素片データに対応する音声識別情報を、ユーザ端末からサーバー装置へ送信するステップと、
    前記音声識別情報に対応する音声素片データを、サーバー装置からユーザ端末へ送信するステップと、
    サーバー装置から受信した前記音声素片データを、ユーザ端末から音声出力装置へ送信するステップと、
    ユーザ端末から受信した前記音声素片データを、音声出力装置の情報記録媒体にインストールするステップと、
    を含むことを特徴とする音声移植方法。
JP2016234607A 2015-12-02 2016-12-02 音声移植方法 Active JP6598379B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015236163 2015-12-02
JP2015236163 2015-12-02

Publications (2)

Publication Number Publication Date
JP2017107198A true JP2017107198A (ja) 2017-06-15
JP6598379B2 JP6598379B2 (ja) 2019-10-30

Family

ID=59059703

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016234607A Active JP6598379B2 (ja) 2015-12-02 2016-12-02 音声移植方法

Country Status (1)

Country Link
JP (1) JP6598379B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111210826A (zh) * 2019-12-26 2020-05-29 深圳市优必选科技股份有限公司 语音信息处理方法、装置、存储介质和智能终端

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11143483A (ja) * 1997-08-15 1999-05-28 Hiroshi Kurita 音声発生システム
JP2001272992A (ja) * 2000-03-27 2001-10-05 Ricoh Co Ltd 音声処理システムおよびテキスト読上げシステムおよび音声認識システムおよび辞書獲得方法および辞書登録方法および端末装置および辞書サーバーおよび記録媒体
JP2002109559A (ja) * 2000-10-02 2002-04-12 Canon Inc キャラクタ生成システム、装置、方法、及びコンピュータ読み取り可能な記憶媒体
JP2003114692A (ja) * 2001-10-05 2003-04-18 Toyota Motor Corp 音源データの提供システム、端末、玩具、提供方法、プログラム、および媒体
JP2003216186A (ja) * 2002-01-21 2003-07-30 Arcadia:Kk 音声データ配信管理システムおよびその方法
JP2004013122A (ja) * 2002-06-11 2004-01-15 Fujitsu Ltd テキスト読み上げシステム及び方法
JP2014021136A (ja) * 2012-07-12 2014-02-03 Yahoo Japan Corp 音声合成システム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11143483A (ja) * 1997-08-15 1999-05-28 Hiroshi Kurita 音声発生システム
JP2001272992A (ja) * 2000-03-27 2001-10-05 Ricoh Co Ltd 音声処理システムおよびテキスト読上げシステムおよび音声認識システムおよび辞書獲得方法および辞書登録方法および端末装置および辞書サーバーおよび記録媒体
JP2002109559A (ja) * 2000-10-02 2002-04-12 Canon Inc キャラクタ生成システム、装置、方法、及びコンピュータ読み取り可能な記憶媒体
JP2003114692A (ja) * 2001-10-05 2003-04-18 Toyota Motor Corp 音源データの提供システム、端末、玩具、提供方法、プログラム、および媒体
JP2003216186A (ja) * 2002-01-21 2003-07-30 Arcadia:Kk 音声データ配信管理システムおよびその方法
JP2004013122A (ja) * 2002-06-11 2004-01-15 Fujitsu Ltd テキスト読み上げシステム及び方法
JP2014021136A (ja) * 2012-07-12 2014-02-03 Yahoo Japan Corp 音声合成システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111210826A (zh) * 2019-12-26 2020-05-29 深圳市优必选科技股份有限公司 语音信息处理方法、装置、存储介质和智能终端
CN111210826B (zh) * 2019-12-26 2022-08-05 深圳市优必选科技股份有限公司 语音信息处理方法、装置、存储介质和智能终端

Also Published As

Publication number Publication date
JP6598379B2 (ja) 2019-10-30

Similar Documents

Publication Publication Date Title
US10334301B2 (en) Providing content responsive to multimedia signals
US20210217413A1 (en) Voice activated interactive audio system and method
CN110199350A (zh) 用于感测语音结束的方法和实现该方法的电子设备
CN109243444B (zh) 语音交互方法、设备及计算机可读存储介质
CN108604179A (zh) 设备上语音助理的实现
CN110751940B (zh) 一种生成语音包的方法、装置、设备和计算机存储介质
US20200090214A1 (en) Server for enabling voice-responsive content as part of a media stream to an end user on a remote device
CN107680581A (zh) 用于名称发音的系统和方法
KR20160141595A (ko) 메시지를 출력하는 전자 장치 및 그 제어 방법
CN110462647B (zh) 电子设备及执行电子设备的功能的方法
CN112185389A (zh) 语音生成方法、装置、存储介质和电子设备
EP3540603B1 (en) Reproduction terminal and reproduction method
CN110718239A (zh) 音频处理方法、装置、电子设备及存储介质
JP2007334732A (ja) ネットワークシステム及びネットワーク情報送受信方法
JP5877405B2 (ja) リングデータを用いたars連動データ提供システム及びその方法
KR101376292B1 (ko) 통화 중 감정 분석 서비스 제공 방법 및 장치
KR20150090357A (ko) 실시간 다국어 번역 서비스 시스템
EP3893087A1 (en) Response processing device, response processing method, and response processing program
JP6598379B2 (ja) 音声移植方法
CN107122456A (zh) 展示视频搜索结果的方法和装置
EP3123355B1 (en) System comprising an audio device and a mobile device for displaying information concerning the audio device
WO2011037507A1 (en) Personalised items in mobile devices based on user behaviour
KR20200060331A (ko) 음성 인식을 이용한 주문 처리 시스템 및 그 주문 처리 방법
CN103888617A (zh) 输出通知消息的方法及装置
EP2733659A1 (en) Apparatus for sensing socially-related parameters at spatial locations and associated method

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20171110

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20171114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181206

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190327

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190730

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190930

R150 Certificate of patent or registration of utility model

Ref document number: 6598379

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150