JP2024008314A - 音声合成ガイドシステム - Google Patents

音声合成ガイドシステム Download PDF

Info

Publication number
JP2024008314A
JP2024008314A JP2022110078A JP2022110078A JP2024008314A JP 2024008314 A JP2024008314 A JP 2024008314A JP 2022110078 A JP2022110078 A JP 2022110078A JP 2022110078 A JP2022110078 A JP 2022110078A JP 2024008314 A JP2024008314 A JP 2024008314A
Authority
JP
Japan
Prior art keywords
management server
information
point
translation
speech synthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022110078A
Other languages
English (en)
Other versions
JP7242010B1 (ja
Inventor
一輝 大塚
Kazuki Otsuka
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thinkx
Thinkx Co Ltd
Original Assignee
Thinkx
Thinkx Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thinkx, Thinkx Co Ltd filed Critical Thinkx
Priority to JP2022110078A priority Critical patent/JP7242010B1/ja
Application granted granted Critical
Publication of JP7242010B1 publication Critical patent/JP7242010B1/ja
Publication of JP2024008314A publication Critical patent/JP2024008314A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】高速、かつ、低コストに多言語音声ガイドを提供する。【解決手段】ユーザー端末が所定の地点の付近に存在するときに、ユーザー端末に当該地点に関する地点情報を音声データで提供する音声合成ガイドシステムにおいて、情報提供者端末から地図上の任意の地点に関連し、その地点付近を通過したユーザーに提供したい地点情報をテキスト情報として受信可能な管理サーバーは、翻訳部、音声合成部及び記憶領域を有する。翻訳部は、テキスト情報を受信すると、直ちに1又は2以上の言語に翻訳し、その翻訳結果を管理サーバーの記憶領域に記憶する。音声合成部は、翻訳が実行されると直ちに翻訳結果から音声データを作成し、音声データを管理サーバーの記憶領域に記憶する。【選択図】図1

Description

本発明は、音声合成ガイドシステムに関する。
携帯電話をはじめとした移動型電子端末を用い地理空間情報を提供する方法はこれまでにいろいろな手法が採用されてきた。
例えば,人気の観光拠点においては,史跡や風物や文化について説明する案内板が設置されていることが多い。案内板の説明文は日本語だけでなく外国語(英語など)で記載されていることもある。テキストだけでなく音声で提供される場合には,各言語ごとのボタンを押すことで音声が流れる仕組みもあるが,録音再生技術の小型化により携帯可能なガイド端末を配布し,利用者は選択した言語による案内を各自が端末のボタンを押すことで個々人が自由に視聴する仕組みが生まれた。地理空間情報を提供する場面は観光拠点だけでなく,都市部の商業空間やテーマパーク,自然地帯,駅や空港といった,旅行者の通過地点に広がる.
近年はスマートフォンやカーナビゲーション装置などの情報端末が広く普及しているため、ユーザーが所持する情報端末と連携したさまざまな観光ガイドシステムが発案されている。例えば、特許文献1の観光情報表示装置(カーナビゲーションシステム)では、移動体の現在位置に対応する観光情報を表示装置に表示している。
特開2009-068866号公報(クラリオン株式会社)
これまでのガイドシステムではユーザーに提供する情報を予めサービス提供者が準備する必要があり非常に煩雑であった。インターネットなどのネットワークを通じて提供する場合であってもシステム事業者などの専門家に依頼し情報をサーバーに格納してもらう必要があった。外国人観光客(旅行者)に観光案内情報を提供する場合は事前に文章の翻訳作業をしておく必要があり非常に手間がかかっていた。また、案内ガイドのメンテナンスも手間がかかるものであった。そのためサービス提供者は事前に観光案内情報を準備しておく観光拠点を多くすることができないという問題があった。
本発明の音声合成ガイドシステムは、インターネットを介して複数の情報提供者端末及びユーザー端末に接続可能とされた管理サーバーを備え、ユーザー端末が所定の地点の付近に存在するときにユーザー端末に当該地点に関する地点情報を音声データで提供し、
前記管理サーバーは翻訳部及び音声合成部を有し、
前記管理サーバーは情報提供者端末から地図上の任意の地点に関連しその地点付近を通過したユーザーに提供したい地点情報をテキスト情報として受信可能になっており、
前記翻訳部は、前記テキスト情報を受信すると、直ちに1又は2以上の言語に翻訳し、その翻訳結果を前記管理サーバーの記憶領域に記憶し、
前記音声合成部は、前記翻訳が実行されると直ちに前記翻訳結果から音声データを作成し、前記音声データを前記管理サーバーの記憶領域に記憶する。
音声ガイドのためのテキスト情報をインターネットを介し情報提供者より収集、即座に自動翻訳及び自動合成した翻訳文および多言語音声情報を地理座標空間上にマッピングすることで高速かつ低コストに多言語音声ガイドを提供することができる。
音声合成ガイドシステムの概略図 音声合成ガイドシステムの使用例 音声合成ガイドシステムの概要
本発明で想定されている情報提供者端末及びユーザー端末は予めインストールされているアプリケーション等を通じて本発明の管理サーバーと情報のやりとりを行う。
情報提供者端末には世界中又は特定地域の地図情報が表示されるようになっており、地図上の任意の地点に関連しその地点付近を通過したユーザーに提供したい地点情報をテキスト情報として管理サーバーに提供できる。逆に、管理サーバーは情報提供者端末から地図上の任意の地点に関連しその地点付近を通過したユーザーに提供したい地点情報をテキスト情報として受信可能になっている。
図1は本発明の概略図である。破線で囲まれた部分が音声合成ガイドシステムに該当する。
本発明における具体的な手順の例を以下に示す。
(1)情報提供者は情報提供者端末のブラウザに表示された地図上の任意の一点を指定する。これは地理座標(緯度経度)が指定されたことに相当する。
(2)当該緯度経度地点が保持された状態で、情報提供者はその地点に関連し尚且つその地点付近を通過したユーザーに提供したい情報をテキストで入力する。
(3)テキスト情報はインターネットを介し直ちに管理サーバーに送信され、管理サーバーの翻訳部(又は翻訳サーバー)で1又は2以上の言語で翻訳される。
(4)翻訳部は任意の翻訳サーバーを介して当該テキスト情報を1又は2以上の言語に翻訳する。例えば他社が提供する機械翻訳APIを利用することができる。翻訳部は自動翻訳のための機械学習モデルに接続使用できる。翻訳結果は管理サーバーの記憶領域に記憶される。
(5)管理サーバーの音声合成部では翻訳結果が音声データ(音声シグナル)に変換される。音声合成部は音声自動合成のための機械学習モデルを有しており、翻訳結果が機械学習モデルに入力されることで音声自動合成が実行される。音声合成部では翻訳部での翻訳が実行されしだい直ちに翻訳結果をもとに音声合成が行われる。合成された音声データは管理サーバーの記憶領域に記憶される。
(6)本発明の音声ガイドシステムのサービスを利用する情報利用者は予め自己が移動の際に携帯するユーザー端末にサービスを利用するためのアプリケーションがインストールしておく。
(7)情報利用者のユーザー端末は端末の位置情報を取得できるようになっている。現在の端末の位置が所定の地点の近辺に到達すると、上記(5)で合成され管理サーバーに格納されているその所定の地点に関する情報の音声データ(音声シグナル)がユーザー端末に配信され再生される。当該音声データの言語は情報利用者が予め指定した言語とすることができる。例えばユーザーが予め英語の音声ガイドを希望する場合は英語の音声シグナルが提供される。
より具体的には次のような手順にしたがって、音声シグナルを提供するようにしてもよい。
・日本語で送信されたテキストは形態素解析のモデルを介して語句単位でカタカナに変換される。日本語のカタカナは54字ありこれが対応する音素列に変換される。
・さらに予め割り当てられた音素/インデックス対応テーブルにしたがってインデックスの列に変換される。
・インデックスの配列が音声合成モデルに入力される。
・音声合成モデルは内部的には複数のモデルから構成され、主に、音素時間長予測モデルや音素列からピッチの変動を予測するモデル、音素列から音量の変動を予測するモデル、音素列からメル周波数スペクトルを生成するモデル、メル周波数スペクトルから音声シグナルを生成するぽコーダーモデルから構成されるようにしてもよい。
・音声合成モデルはwavシグナルを出力する。
本発明で用いられる主な発明特定事項を説明する。
<情報提供者>
本発明の情報提供者は、所定の地点に関する情報を提供する者であればどのような者であっても構わない。本発明の音声ガイドシステムを特定の観光地に適用する場合は、当該観光地の観光事業者が情報提供者の1つの選択肢であるが、観光事業者と関係ない者が情報提供者になることも可能である。むしろ本発明は簡便な方法で所定の地点に関する情報を提供することができるので様々な者が情報提供者になることができる。
また本発明の音声ガイドシステムは観光地だけでなく、さまざまな場所に適用することができる。例えば、遊園地、テーマパーク、文化的な施設、学校、ショッピングモール、商業施設、商店街、家屋、ビル、地方自治体、公園、橋、河川、山、山頂、山岳地帯、電車内などであるがこれらに限られない。その地(地点)を訪れた者に何らかの情報を提供する場面があればあらゆる場面に適用することができる。
<ユーザー端末>
本発明のユーザー端末は、本発明の管理サーバーと情報の送受信が可能な電子デバイスであればどのようなものでも構わない。例えば、携帯型の端末又は任意の移動式の計算機を採用できる。例えば、スマートフォン、タブレット、ウエアラブル端末、ヘッドマウントディスプレイなどの端末、車載の電子デバイスなどであるがこれに限られない。また、当該デバイスを用いて位置情報を取得できることが望ましい。
<情報提供者端末>
本発明の情報提供者端末は、ユーザー端末のように必ずしも端末が存在している位置情報を取得する必要がないため、上記ユーザー端末で利用可能な電子デバイスに加えて、据え置き型の固定PCなどさらに各種の情報端末、電子デバイスを使用することができる。
<ユーザー端末が所定の地点の付近に存在するとき>
ユーザー端末が所定の地点とどの程度の距離であれば「所定の地点の付近に存在するとき」と言えるか?これは本発明の利用者が任意に設定することができる。本発明を適用する場面によって数メートルの場合もあれば数百メートルなどの場合もありえる。
<地点情報>
本発明の地点情報はその地点に関する情報であればどのようなものでも構わない。
例えば、観光地の地点情報であれば、観光案内文を選択することができる。当該地点から見渡すことができる建造物や史跡などの歴史的背景や文化的意義などの情報なのであるが、これに限られない。当該地点を訪れた旅行者がより楽しむためのアドバイスなどの情報であってもよい。地理的に隣接する地点の情報を提供するようにしてもよい。
例えば、テーマパークや展示会場などの商業施設の場合は、施設内のさまざまな拠点(地点)に関する情報を地点情報とすることができる。
<管理サーバー>
本発明の管理サーバーは、情報提供者端末やユーザー端末とインターネットを介して接続し情報の送受信が可能なサーバーであればどのようなものでも構わない。
<管理サーバーの翻訳部>
本発明の管理サーバーの翻訳部は、自動翻訳のための翻訳用機械学習モデルを有し、テキスト情報を受信すると翻訳用機械学習モデル(翻訳モデル)を用いて1又は2以上の言語に翻訳し、その翻訳結果を管理サーバーの記憶領域に記憶することができる。翻訳用機械学習モデルは必ずしも管理サーバー内部にある必要はなく,管理サーバーとネットワークで接続された外部サーバーに置かれた翻訳用機械学習モデル(翻訳モデル)の出力結果を用いてもよい。
<管理サーバーの音声合成部>
本発明の管理サーバーの音声合成部は、自動音声合成のための音声合成用機械学習モデルを有し、翻訳結果を前記音声合成用機械学習モデルを用いて音声データを作成し、音声データを管理サーバーの記憶領域に記憶することができる。音声合成用機械学習モデルは必ずしも管理サーバー内にある必要はなく,管理サーバーとネットワークで接続された外部サーバーに置かれた音声合成用機械学習モデル(音声合成モデル)の出力結果を用いてもよい。
本発明の具体的な実施例を示す。図1に発明の概要を表すイラスト、図3に音声データ(シグナル)が提供されるまでのプロセスを示す。

1. 情報提供者は情報提供者端末において地図上のある地点を指定してその地点付近を通過したユーザーに提供したい情報をテキスト情報として提供する。図1の例ではつくば市の高エネルギー加速器研究機構の地図上の位置に紐づけるように「この地下に衝突型加速器が埋め込まれている」という地点情報をテキスト情報として入力する。テキスト情報は直ちに管理サーバーに送信される。
2. 管理サーバーの翻訳部では管理サーバーとネットワークで接続された外部サーバーに置かれた翻訳モデル(例:機械翻訳APIなど)を用いて直ちに当該テキストを「The Collider is embedded in this basement.」などと英語で翻訳し、その結果を管理サーバーの記憶領域に保存する。なお、翻訳は英語に限られないし複数以上の言語の翻訳を実行するようにしてもよい。仏語の翻訳の場合は例えば「Le collisionneur est integre dans ce sous-sol.」などの文字列が翻訳結果となる。
3. 管理サーバーの音声合成部では翻訳が実行されると、直ちに翻訳結果から音声合成が行われ、音声合成データが管理サーバーの記憶領域に保存される。
4. その後、ユーザーが上記地点付近を通過すると、管理サーバーから上記音声合成データがユーザー端末に送信され、ユーザー端末はその地点の音声による説明を受けることができる。その際、合成音声データだけでなく翻訳文のテキスト情報をユーザー端末に表示されるようにしてもよい。
本発明は上記のとおり、情報提供者の情報提供者端末からある地点に関するテキスト情報が入力されると直ちに翻訳と音声合成が実行されるため、複数言語への翻訳と収録及び追加の編集による再翻訳と再収録の手間を大幅に削減し、極めて高効率的に多くの地点に対するモバイル(多言語)音声ガイドを作成することができる。作業効率が従来の方法に比べ大幅に上昇,少しの手間で大量に作成できることで,広いエリアをカバーするガイディングの作成が可能となる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これらの実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これらの実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

Claims (5)

  1. インターネットを介して複数の情報提供者端末及びユーザー端末に接続可能とされた管理サーバーを備え、ユーザー端末が所定の地点の付近に存在するときにユーザー端末に当該地点に関する地点情報を音声データで提供する音声合成ガイドシステムにおいて、
    前記管理サーバーは翻訳部及び音声合成部を有し、
    前記管理サーバーは情報提供者端末から地図上の任意の地点に関連しその地点付近を通過したユーザーに提供したい地点情報をテキスト情報として受信可能になっており、
    前記翻訳部は、前記テキスト情報を受信すると、直ちに1又は2以上の言語に翻訳し、その翻訳結果を前記管理サーバーの記憶領域に記憶し、
    前記音声合成部は、前記翻訳が実行されると直ちに前記翻訳結果から音声データを作成し、前記音声データを前記管理サーバーの記憶領域に記憶する、
    ことを特徴とする音声合成ガイドシステム。
  2. 前記翻訳部は管理サーバーとネットワークで接続された外部サーバーに置かれた翻訳モデルの出力結果を用いて前記テキスト情報を1又は2以上の言語に翻訳することを特徴とする請求項1に記載の音声合成ガイドシステム。
  3. 前記音声合成部は管理サーバーとネットワークで接続された外部サーバーに置かれた音声合成モデルの出力結果を用いて前記翻訳結果から音声データを作成することを特徴とする請求項1に記載の音声合成ガイドシステム。
  4. 前記情報提供者端末から前記管理サーバーに送信されるテキスト情報は、前記情報提供者端末に表示された地図上の所定の地点を選択したことで指定され入力されることを特徴とする請求項1乃至3のいずれかに記載の音声合成ガイドシステム。
  5. インターネットを介して複数の情報提供者端末及びユーザー端末に接続可能とされた管理サーバーを備え、ユーザー端末が所定の地点の付近に存在するときにユーザー端末に当該地点に関する地点情報を音声データで提供する音声合成ガイドシステムにおいて、
    前記管理サーバーは音声合成部を有し、
    前記管理サーバーは情報提供者端末から地図上の任意の地点に関連しその地点付近を通過したユーザーに提供したい地点情報をテキスト情報として受信可能になっており、
    前記音声合成部は、前記テキスト情報に対応する音声データを作成し、前記音声データを前記管理サーバーの記憶領域に記憶する、
    ことを特徴とする音声合成ガイドシステム。





JP2022110078A 2022-07-07 2022-07-07 音声合成ガイドシステム Active JP7242010B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022110078A JP7242010B1 (ja) 2022-07-07 2022-07-07 音声合成ガイドシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022110078A JP7242010B1 (ja) 2022-07-07 2022-07-07 音声合成ガイドシステム

Publications (2)

Publication Number Publication Date
JP7242010B1 JP7242010B1 (ja) 2023-03-20
JP2024008314A true JP2024008314A (ja) 2024-01-19

Family

ID=85641187

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022110078A Active JP7242010B1 (ja) 2022-07-07 2022-07-07 音声合成ガイドシステム

Country Status (1)

Country Link
JP (1) JP7242010B1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11232284A (ja) * 1998-02-10 1999-08-27 Toshiba Corp 情報送受信装置および情報交換方法
JP2016040567A (ja) * 2014-08-12 2016-03-24 日本電信電話株式会社 サーバ装置、音声コンテンツ提供方法、プログラム
JP2021086264A (ja) * 2019-11-26 2021-06-03 凸版印刷株式会社 翻訳管理システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11232284A (ja) * 1998-02-10 1999-08-27 Toshiba Corp 情報送受信装置および情報交換方法
JP2016040567A (ja) * 2014-08-12 2016-03-24 日本電信電話株式会社 サーバ装置、音声コンテンツ提供方法、プログラム
JP2021086264A (ja) * 2019-11-26 2021-06-03 凸版印刷株式会社 翻訳管理システム

Also Published As

Publication number Publication date
JP7242010B1 (ja) 2023-03-20

Similar Documents

Publication Publication Date Title
JP4356745B2 (ja) 機械翻訳システム、機械翻訳方法及びプログラム
EP3176782B1 (en) Apparatus and method for outputting obtained pieces of related information
US20200326197A1 (en) Method, apparatus, computer device and storage medium for determining poi alias
CN105704675A (zh) 一种景区信息的处理方法及装置
RU2425329C2 (ru) Навигационное устройство и способ для приема и воспроизведения звуковых образцов
CA2795812A1 (en) Method and system for name pronunciation guide services
EP3176783B1 (en) Information management system and information management method
JPH0894369A (ja) 移動体誘導装置
CN103699528B (zh) 翻译译文的提供方法、装置和系统
CN101751838A (zh) 复合定位自助导游机
CN107577819A (zh) 一种文本内容展现方法、装置、计算机设备和存储介质
Boye et al. Walk this way: Spatial grounding for city exploration
Gleason et al. FootNotes: Geo-referenced audio annotations for nonvisual exploration
Chandu et al. Speech Synthesis for Mixed-Language Navigation Instructions.
US20050192714A1 (en) Travel assistant device
Liu et al. A collective data generation method for speech language models
JP7242010B1 (ja) 音声合成ガイドシステム
KR20180009304A (ko) 현지 언어 기반의 여행용 외국어 안내 프로그램을 저장하는 컴퓨터로 판독 가능한 기록매체
St Clair Stories that walk with you: Opportunities in locative audio for feature journalism
JP2008021235A (ja) 読み登録システム及び読み登録プログラム
Blundell et al. Early Austronesian historical voyaging in monsoon Asia: Heritage and knowledge for museum displays utilizing texts, archaeology, digital interactive components, and GIS approaches
KR20180135212A (ko) 해외여행자를 위한 여행정보 제공 및 외국어 학습 시스템
JP3266215B2 (ja) 目的地案内方法および装置
Kovanen et al. A client-server architecture for audio-supported mobile route guiding for hiking
JP2002297027A (ja) 地図情報提供方法、地図情報提供システム、及びコンピュータ読取可能なプログラム。

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220905

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20220905

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221019

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230224

R150 Certificate of patent or registration of utility model

Ref document number: 7242010

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150