JP2024008314A

JP2024008314A - 音声合成ガイドシステム

Info

Publication number: JP2024008314A
Application number: JP2022110078A
Authority: JP
Inventors: 一輝大塚; Kazuki Otsuka
Original assignee: Thinkx; Thinkx Co Ltd
Current assignee: Thinkx; Thinkx Co Ltd
Priority date: 2022-07-07
Filing date: 2022-07-07
Publication date: 2024-01-19
Anticipated expiration: 2042-07-07
Also published as: JP7242010B1

Abstract

【課題】高速、かつ、低コストに多言語音声ガイドを提供する。【解決手段】ユーザー端末が所定の地点の付近に存在するときに、ユーザー端末に当該地点に関する地点情報を音声データで提供する音声合成ガイドシステムにおいて、情報提供者端末から地図上の任意の地点に関連し、その地点付近を通過したユーザーに提供したい地点情報をテキスト情報として受信可能な管理サーバーは、翻訳部、音声合成部及び記憶領域を有する。翻訳部は、テキスト情報を受信すると、直ちに１又は２以上の言語に翻訳し、その翻訳結果を管理サーバーの記憶領域に記憶する。音声合成部は、翻訳が実行されると直ちに翻訳結果から音声データを作成し、音声データを管理サーバーの記憶領域に記憶する。【選択図】図１

Description

本発明は、音声合成ガイドシステムに関する。

携帯電話をはじめとした移動型電子端末を用い地理空間情報を提供する方法はこれまでにいろいろな手法が採用されてきた。

例えば，人気の観光拠点においては，史跡や風物や文化について説明する案内板が設置されていることが多い。案内板の説明文は日本語だけでなく外国語（英語など）で記載されていることもある。テキストだけでなく音声で提供される場合には，各言語ごとのボタンを押すことで音声が流れる仕組みもあるが，録音再生技術の小型化により携帯可能なガイド端末を配布し，利用者は選択した言語による案内を各自が端末のボタンを押すことで個々人が自由に視聴する仕組みが生まれた。地理空間情報を提供する場面は観光拠点だけでなく，都市部の商業空間やテーマパーク，自然地帯，駅や空港といった，旅行者の通過地点に広がる．

近年はスマートフォンやカーナビゲーション装置などの情報端末が広く普及しているため、ユーザーが所持する情報端末と連携したさまざまな観光ガイドシステムが発案されている。例えば、特許文献１の観光情報表示装置（カーナビゲーションシステム）では、移動体の現在位置に対応する観光情報を表示装置に表示している。

特開２００９－０６８８６６号公報（クラリオン株式会社）

これまでのガイドシステムではユーザーに提供する情報を予めサービス提供者が準備する必要があり非常に煩雑であった。インターネットなどのネットワークを通じて提供する場合であってもシステム事業者などの専門家に依頼し情報をサーバーに格納してもらう必要があった。外国人観光客（旅行者）に観光案内情報を提供する場合は事前に文章の翻訳作業をしておく必要があり非常に手間がかかっていた。また、案内ガイドのメンテナンスも手間がかかるものであった。そのためサービス提供者は事前に観光案内情報を準備しておく観光拠点を多くすることができないという問題があった。

本発明の音声合成ガイドシステムは、インターネットを介して複数の情報提供者端末及びユーザー端末に接続可能とされた管理サーバーを備え、ユーザー端末が所定の地点の付近に存在するときにユーザー端末に当該地点に関する地点情報を音声データで提供し、
前記管理サーバーは翻訳部及び音声合成部を有し、
前記管理サーバーは情報提供者端末から地図上の任意の地点に関連しその地点付近を通過したユーザーに提供したい地点情報をテキスト情報として受信可能になっており、
前記翻訳部は、前記テキスト情報を受信すると、直ちに１又は２以上の言語に翻訳し、その翻訳結果を前記管理サーバーの記憶領域に記憶し、
前記音声合成部は、前記翻訳が実行されると直ちに前記翻訳結果から音声データを作成し、前記音声データを前記管理サーバーの記憶領域に記憶する。

音声ガイドのためのテキスト情報をインターネットを介し情報提供者より収集、即座に自動翻訳及び自動合成した翻訳文および多言語音声情報を地理座標空間上にマッピングすることで高速かつ低コストに多言語音声ガイドを提供することができる。

音声合成ガイドシステムの概略図音声合成ガイドシステムの使用例音声合成ガイドシステムの概要

本発明で想定されている情報提供者端末及びユーザー端末は予めインストールされているアプリケーション等を通じて本発明の管理サーバーと情報のやりとりを行う。
情報提供者端末には世界中又は特定地域の地図情報が表示されるようになっており、地図上の任意の地点に関連しその地点付近を通過したユーザーに提供したい地点情報をテキスト情報として管理サーバーに提供できる。逆に、管理サーバーは情報提供者端末から地図上の任意の地点に関連しその地点付近を通過したユーザーに提供したい地点情報をテキスト情報として受信可能になっている。

図１は本発明の概略図である。破線で囲まれた部分が音声合成ガイドシステムに該当する。
本発明における具体的な手順の例を以下に示す。
（１）情報提供者は情報提供者端末のブラウザに表示された地図上の任意の一点を指定する。これは地理座標(緯度経度)が指定されたことに相当する。
（２）当該緯度経度地点が保持された状態で、情報提供者はその地点に関連し尚且つその地点付近を通過したユーザーに提供したい情報をテキストで入力する。
（３）テキスト情報はインターネットを介し直ちに管理サーバーに送信され、管理サーバーの翻訳部（又は翻訳サーバー）で１又は２以上の言語で翻訳される。
（４）翻訳部は任意の翻訳サーバーを介して当該テキスト情報を１又は２以上の言語に翻訳する。例えば他社が提供する機械翻訳ＡＰＩを利用することができる。翻訳部は自動翻訳のための機械学習モデルに接続使用できる。翻訳結果は管理サーバーの記憶領域に記憶される。
（５）管理サーバーの音声合成部では翻訳結果が音声データ（音声シグナル）に変換される。音声合成部は音声自動合成のための機械学習モデルを有しており、翻訳結果が機械学習モデルに入力されることで音声自動合成が実行される。音声合成部では翻訳部での翻訳が実行されしだい直ちに翻訳結果をもとに音声合成が行われる。合成された音声データは管理サーバーの記憶領域に記憶される。
（６）本発明の音声ガイドシステムのサービスを利用する情報利用者は予め自己が移動の際に携帯するユーザー端末にサービスを利用するためのアプリケーションがインストールしておく。
（７）情報利用者のユーザー端末は端末の位置情報を取得できるようになっている。現在の端末の位置が所定の地点の近辺に到達すると、上記（５）で合成され管理サーバーに格納されているその所定の地点に関する情報の音声データ（音声シグナル）がユーザー端末に配信され再生される。当該音声データの言語は情報利用者が予め指定した言語とすることができる。例えばユーザーが予め英語の音声ガイドを希望する場合は英語の音声シグナルが提供される。

より具体的には次のような手順にしたがって、音声シグナルを提供するようにしてもよい。
・日本語で送信されたテキストは形態素解析のモデルを介して語句単位でカタカナに変換される。日本語のカタカナは５４字ありこれが対応する音素列に変換される。
・さらに予め割り当てられた音素／インデックス対応テーブルにしたがってインデックスの列に変換される。
・インデックスの配列が音声合成モデルに入力される。
・音声合成モデルは内部的には複数のモデルから構成され、主に、音素時間長予測モデルや音素列からピッチの変動を予測するモデル、音素列から音量の変動を予測するモデル、音素列からメル周波数スペクトルを生成するモデル、メル周波数スペクトルから音声シグナルを生成するぽコーダーモデルから構成されるようにしてもよい。
・音声合成モデルはｗａｖシグナルを出力する。

本発明で用いられる主な発明特定事項を説明する。
＜情報提供者＞
本発明の情報提供者は、所定の地点に関する情報を提供する者であればどのような者であっても構わない。本発明の音声ガイドシステムを特定の観光地に適用する場合は、当該観光地の観光事業者が情報提供者の１つの選択肢であるが、観光事業者と関係ない者が情報提供者になることも可能である。むしろ本発明は簡便な方法で所定の地点に関する情報を提供することができるので様々な者が情報提供者になることができる。
また本発明の音声ガイドシステムは観光地だけでなく、さまざまな場所に適用することができる。例えば、遊園地、テーマパーク、文化的な施設、学校、ショッピングモール、商業施設、商店街、家屋、ビル、地方自治体、公園、橋、河川、山、山頂、山岳地帯、電車内などであるがこれらに限られない。その地（地点）を訪れた者に何らかの情報を提供する場面があればあらゆる場面に適用することができる。

＜ユーザー端末＞
本発明のユーザー端末は、本発明の管理サーバーと情報の送受信が可能な電子デバイスであればどのようなものでも構わない。例えば、携帯型の端末又は任意の移動式の計算機を採用できる。例えば、スマートフォン、タブレット、ウエアラブル端末、ヘッドマウントディスプレイなどの端末、車載の電子デバイスなどであるがこれに限られない。また、当該デバイスを用いて位置情報を取得できることが望ましい。
＜情報提供者端末＞
本発明の情報提供者端末は、ユーザー端末のように必ずしも端末が存在している位置情報を取得する必要がないため、上記ユーザー端末で利用可能な電子デバイスに加えて、据え置き型の固定ＰＣなどさらに各種の情報端末、電子デバイスを使用することができる。

＜ユーザー端末が所定の地点の付近に存在するとき＞
ユーザー端末が所定の地点とどの程度の距離であれば「所定の地点の付近に存在するとき」と言えるか？これは本発明の利用者が任意に設定することができる。本発明を適用する場面によって数メートルの場合もあれば数百メートルなどの場合もありえる。

＜地点情報＞
本発明の地点情報はその地点に関する情報であればどのようなものでも構わない。
例えば、観光地の地点情報であれば、観光案内文を選択することができる。当該地点から見渡すことができる建造物や史跡などの歴史的背景や文化的意義などの情報なのであるが、これに限られない。当該地点を訪れた旅行者がより楽しむためのアドバイスなどの情報であってもよい。地理的に隣接する地点の情報を提供するようにしてもよい。
例えば、テーマパークや展示会場などの商業施設の場合は、施設内のさまざまな拠点（地点）に関する情報を地点情報とすることができる。

＜管理サーバー＞
本発明の管理サーバーは、情報提供者端末やユーザー端末とインターネットを介して接続し情報の送受信が可能なサーバーであればどのようなものでも構わない。

＜管理サーバーの翻訳部＞
本発明の管理サーバーの翻訳部は、自動翻訳のための翻訳用機械学習モデルを有し、テキスト情報を受信すると翻訳用機械学習モデル（翻訳モデル）を用いて１又は２以上の言語に翻訳し、その翻訳結果を管理サーバーの記憶領域に記憶することができる。翻訳用機械学習モデルは必ずしも管理サーバー内部にある必要はなく，管理サーバーとネットワークで接続された外部サーバーに置かれた翻訳用機械学習モデル（翻訳モデル）の出力結果を用いてもよい。

＜管理サーバーの音声合成部＞
本発明の管理サーバーの音声合成部は、自動音声合成のための音声合成用機械学習モデルを有し、翻訳結果を前記音声合成用機械学習モデルを用いて音声データを作成し、音声データを管理サーバーの記憶領域に記憶することができる。音声合成用機械学習モデルは必ずしも管理サーバー内にある必要はなく，管理サーバーとネットワークで接続された外部サーバーに置かれた音声合成用機械学習モデル（音声合成モデル）の出力結果を用いてもよい。

本発明の具体的な実施例を示す。図１に発明の概要を表すイラスト、図３に音声データ（シグナル）が提供されるまでのプロセスを示す。

1. 情報提供者は情報提供者端末において地図上のある地点を指定してその地点付近を通過したユーザーに提供したい情報をテキスト情報として提供する。図１の例ではつくば市の高エネルギー加速器研究機構の地図上の位置に紐づけるように「この地下に衝突型加速器が埋め込まれている」という地点情報をテキスト情報として入力する。テキスト情報は直ちに管理サーバーに送信される。
2. 管理サーバーの翻訳部では管理サーバーとネットワークで接続された外部サーバーに置かれた翻訳モデル（例：機械翻訳ＡＰＩなど）を用いて直ちに当該テキストを「The Collider is embedded in this basement.」などと英語で翻訳し、その結果を管理サーバーの記憶領域に保存する。なお、翻訳は英語に限られないし複数以上の言語の翻訳を実行するようにしてもよい。仏語の翻訳の場合は例えば「Le collisionneur est integre dans ce sous-sol.」などの文字列が翻訳結果となる。
3. 管理サーバーの音声合成部では翻訳が実行されると、直ちに翻訳結果から音声合成が行われ、音声合成データが管理サーバーの記憶領域に保存される。
4. その後、ユーザーが上記地点付近を通過すると、管理サーバーから上記音声合成データがユーザー端末に送信され、ユーザー端末はその地点の音声による説明を受けることができる。その際、合成音声データだけでなく翻訳文のテキスト情報をユーザー端末に表示されるようにしてもよい。

本発明は上記のとおり、情報提供者の情報提供者端末からある地点に関するテキスト情報が入力されると直ちに翻訳と音声合成が実行されるため、複数言語への翻訳と収録及び追加の編集による再翻訳と再収録の手間を大幅に削減し、極めて高効率的に多くの地点に対するモバイル(多言語)音声ガイドを作成することができる。作業効率が従来の方法に比べ大幅に上昇，少しの手間で大量に作成できることで，広いエリアをカバーするガイディングの作成が可能となる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これらの実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これらの実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

Claims

インターネットを介して複数の情報提供者端末及びユーザー端末に接続可能とされた管理サーバーを備え、ユーザー端末が所定の地点の付近に存在するときにユーザー端末に当該地点に関する地点情報を音声データで提供する音声合成ガイドシステムにおいて、
前記管理サーバーは翻訳部及び音声合成部を有し、
前記管理サーバーは情報提供者端末から地図上の任意の地点に関連しその地点付近を通過したユーザーに提供したい地点情報をテキスト情報として受信可能になっており、
前記翻訳部は、前記テキスト情報を受信すると、直ちに１又は２以上の言語に翻訳し、その翻訳結果を前記管理サーバーの記憶領域に記憶し、
前記音声合成部は、前記翻訳が実行されると直ちに前記翻訳結果から音声データを作成し、前記音声データを前記管理サーバーの記憶領域に記憶する、
ことを特徴とする音声合成ガイドシステム。
前記翻訳部は管理サーバーとネットワークで接続された外部サーバーに置かれた翻訳モデルの出力結果を用いて前記テキスト情報を１又は２以上の言語に翻訳することを特徴とする請求項１に記載の音声合成ガイドシステム。
前記音声合成部は管理サーバーとネットワークで接続された外部サーバーに置かれた音声合成モデルの出力結果を用いて前記翻訳結果から音声データを作成することを特徴とする請求項１に記載の音声合成ガイドシステム。
前記情報提供者端末から前記管理サーバーに送信されるテキスト情報は、前記情報提供者端末に表示された地図上の所定の地点を選択したことで指定され入力されることを特徴とする請求項１乃至３のいずれかに記載の音声合成ガイドシステム。
インターネットを介して複数の情報提供者端末及びユーザー端末に接続可能とされた管理サーバーを備え、ユーザー端末が所定の地点の付近に存在するときにユーザー端末に当該地点に関する地点情報を音声データで提供する音声合成ガイドシステムにおいて、
前記管理サーバーは音声合成部を有し、
前記管理サーバーは情報提供者端末から地図上の任意の地点に関連しその地点付近を通過したユーザーに提供したい地点情報をテキスト情報として受信可能になっており、
前記音声合成部は、前記テキスト情報に対応する音声データを作成し、前記音声データを前記管理サーバーの記憶領域に記憶する、
ことを特徴とする音声合成ガイドシステム。