JP2024008314A - 音声合成ガイドシステム - Google Patents
音声合成ガイドシステム Download PDFInfo
- Publication number
- JP2024008314A JP2024008314A JP2022110078A JP2022110078A JP2024008314A JP 2024008314 A JP2024008314 A JP 2024008314A JP 2022110078 A JP2022110078 A JP 2022110078A JP 2022110078 A JP2022110078 A JP 2022110078A JP 2024008314 A JP2024008314 A JP 2024008314A
- Authority
- JP
- Japan
- Prior art keywords
- management server
- information
- point
- translation
- speech synthesis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 48
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 48
- 238000013519 translation Methods 0.000 claims abstract description 52
- 238000010801 machine learning Methods 0.000 description 11
- 230000005236 sound signal Effects 0.000 description 5
- 238000000034 method Methods 0.000 description 4
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
Description
前記管理サーバーは翻訳部及び音声合成部を有し、
前記管理サーバーは情報提供者端末から地図上の任意の地点に関連しその地点付近を通過したユーザーに提供したい地点情報をテキスト情報として受信可能になっており、
前記翻訳部は、前記テキスト情報を受信すると、直ちに1又は2以上の言語に翻訳し、その翻訳結果を前記管理サーバーの記憶領域に記憶し、
前記音声合成部は、前記翻訳が実行されると直ちに前記翻訳結果から音声データを作成し、前記音声データを前記管理サーバーの記憶領域に記憶する。
情報提供者端末には世界中又は特定地域の地図情報が表示されるようになっており、地図上の任意の地点に関連しその地点付近を通過したユーザーに提供したい地点情報をテキスト情報として管理サーバーに提供できる。逆に、管理サーバーは情報提供者端末から地図上の任意の地点に関連しその地点付近を通過したユーザーに提供したい地点情報をテキスト情報として受信可能になっている。
本発明における具体的な手順の例を以下に示す。
(1)情報提供者は情報提供者端末のブラウザに表示された地図上の任意の一点を指定する。これは地理座標(緯度経度)が指定されたことに相当する。
(2)当該緯度経度地点が保持された状態で、情報提供者はその地点に関連し尚且つその地点付近を通過したユーザーに提供したい情報をテキストで入力する。
(3)テキスト情報はインターネットを介し直ちに管理サーバーに送信され、管理サーバーの翻訳部(又は翻訳サーバー)で1又は2以上の言語で翻訳される。
(4)翻訳部は任意の翻訳サーバーを介して当該テキスト情報を1又は2以上の言語に翻訳する。例えば他社が提供する機械翻訳APIを利用することができる。翻訳部は自動翻訳のための機械学習モデルに接続使用できる。翻訳結果は管理サーバーの記憶領域に記憶される。
(5)管理サーバーの音声合成部では翻訳結果が音声データ(音声シグナル)に変換される。音声合成部は音声自動合成のための機械学習モデルを有しており、翻訳結果が機械学習モデルに入力されることで音声自動合成が実行される。音声合成部では翻訳部での翻訳が実行されしだい直ちに翻訳結果をもとに音声合成が行われる。合成された音声データは管理サーバーの記憶領域に記憶される。
(6)本発明の音声ガイドシステムのサービスを利用する情報利用者は予め自己が移動の際に携帯するユーザー端末にサービスを利用するためのアプリケーションがインストールしておく。
(7)情報利用者のユーザー端末は端末の位置情報を取得できるようになっている。現在の端末の位置が所定の地点の近辺に到達すると、上記(5)で合成され管理サーバーに格納されているその所定の地点に関する情報の音声データ(音声シグナル)がユーザー端末に配信され再生される。当該音声データの言語は情報利用者が予め指定した言語とすることができる。例えばユーザーが予め英語の音声ガイドを希望する場合は英語の音声シグナルが提供される。
・日本語で送信されたテキストは形態素解析のモデルを介して語句単位でカタカナに変換される。日本語のカタカナは54字ありこれが対応する音素列に変換される。
・さらに予め割り当てられた音素/インデックス対応テーブルにしたがってインデックスの列に変換される。
・インデックスの配列が音声合成モデルに入力される。
・音声合成モデルは内部的には複数のモデルから構成され、主に、音素時間長予測モデルや音素列からピッチの変動を予測するモデル、音素列から音量の変動を予測するモデル、音素列からメル周波数スペクトルを生成するモデル、メル周波数スペクトルから音声シグナルを生成するぽコーダーモデルから構成されるようにしてもよい。
・音声合成モデルはwavシグナルを出力する。
<情報提供者>
本発明の情報提供者は、所定の地点に関する情報を提供する者であればどのような者であっても構わない。本発明の音声ガイドシステムを特定の観光地に適用する場合は、当該観光地の観光事業者が情報提供者の1つの選択肢であるが、観光事業者と関係ない者が情報提供者になることも可能である。むしろ本発明は簡便な方法で所定の地点に関する情報を提供することができるので様々な者が情報提供者になることができる。
また本発明の音声ガイドシステムは観光地だけでなく、さまざまな場所に適用することができる。例えば、遊園地、テーマパーク、文化的な施設、学校、ショッピングモール、商業施設、商店街、家屋、ビル、地方自治体、公園、橋、河川、山、山頂、山岳地帯、電車内などであるがこれらに限られない。その地(地点)を訪れた者に何らかの情報を提供する場面があればあらゆる場面に適用することができる。
本発明のユーザー端末は、本発明の管理サーバーと情報の送受信が可能な電子デバイスであればどのようなものでも構わない。例えば、携帯型の端末又は任意の移動式の計算機を採用できる。例えば、スマートフォン、タブレット、ウエアラブル端末、ヘッドマウントディスプレイなどの端末、車載の電子デバイスなどであるがこれに限られない。また、当該デバイスを用いて位置情報を取得できることが望ましい。
<情報提供者端末>
本発明の情報提供者端末は、ユーザー端末のように必ずしも端末が存在している位置情報を取得する必要がないため、上記ユーザー端末で利用可能な電子デバイスに加えて、据え置き型の固定PCなどさらに各種の情報端末、電子デバイスを使用することができる。
ユーザー端末が所定の地点とどの程度の距離であれば「所定の地点の付近に存在するとき」と言えるか?これは本発明の利用者が任意に設定することができる。本発明を適用する場面によって数メートルの場合もあれば数百メートルなどの場合もありえる。
本発明の地点情報はその地点に関する情報であればどのようなものでも構わない。
例えば、観光地の地点情報であれば、観光案内文を選択することができる。当該地点から見渡すことができる建造物や史跡などの歴史的背景や文化的意義などの情報なのであるが、これに限られない。当該地点を訪れた旅行者がより楽しむためのアドバイスなどの情報であってもよい。地理的に隣接する地点の情報を提供するようにしてもよい。
例えば、テーマパークや展示会場などの商業施設の場合は、施設内のさまざまな拠点(地点)に関する情報を地点情報とすることができる。
本発明の管理サーバーは、情報提供者端末やユーザー端末とインターネットを介して接続し情報の送受信が可能なサーバーであればどのようなものでも構わない。
本発明の管理サーバーの翻訳部は、自動翻訳のための翻訳用機械学習モデルを有し、テキスト情報を受信すると翻訳用機械学習モデル(翻訳モデル)を用いて1又は2以上の言語に翻訳し、その翻訳結果を管理サーバーの記憶領域に記憶することができる。翻訳用機械学習モデルは必ずしも管理サーバー内部にある必要はなく,管理サーバーとネットワークで接続された外部サーバーに置かれた翻訳用機械学習モデル(翻訳モデル)の出力結果を用いてもよい。
本発明の管理サーバーの音声合成部は、自動音声合成のための音声合成用機械学習モデルを有し、翻訳結果を前記音声合成用機械学習モデルを用いて音声データを作成し、音声データを管理サーバーの記憶領域に記憶することができる。音声合成用機械学習モデルは必ずしも管理サーバー内にある必要はなく,管理サーバーとネットワークで接続された外部サーバーに置かれた音声合成用機械学習モデル(音声合成モデル)の出力結果を用いてもよい。
1. 情報提供者は情報提供者端末において地図上のある地点を指定してその地点付近を通過したユーザーに提供したい情報をテキスト情報として提供する。図1の例ではつくば市の高エネルギー加速器研究機構の地図上の位置に紐づけるように「この地下に衝突型加速器が埋め込まれている」という地点情報をテキスト情報として入力する。テキスト情報は直ちに管理サーバーに送信される。
2. 管理サーバーの翻訳部では管理サーバーとネットワークで接続された外部サーバーに置かれた翻訳モデル(例:機械翻訳APIなど)を用いて直ちに当該テキストを「The Collider is embedded in this basement.」などと英語で翻訳し、その結果を管理サーバーの記憶領域に保存する。なお、翻訳は英語に限られないし複数以上の言語の翻訳を実行するようにしてもよい。仏語の翻訳の場合は例えば「Le collisionneur est integre dans ce sous-sol.」などの文字列が翻訳結果となる。
3. 管理サーバーの音声合成部では翻訳が実行されると、直ちに翻訳結果から音声合成が行われ、音声合成データが管理サーバーの記憶領域に保存される。
4. その後、ユーザーが上記地点付近を通過すると、管理サーバーから上記音声合成データがユーザー端末に送信され、ユーザー端末はその地点の音声による説明を受けることができる。その際、合成音声データだけでなく翻訳文のテキスト情報をユーザー端末に表示されるようにしてもよい。
Claims (5)
- インターネットを介して複数の情報提供者端末及びユーザー端末に接続可能とされた管理サーバーを備え、ユーザー端末が所定の地点の付近に存在するときにユーザー端末に当該地点に関する地点情報を音声データで提供する音声合成ガイドシステムにおいて、
前記管理サーバーは翻訳部及び音声合成部を有し、
前記管理サーバーは情報提供者端末から地図上の任意の地点に関連しその地点付近を通過したユーザーに提供したい地点情報をテキスト情報として受信可能になっており、
前記翻訳部は、前記テキスト情報を受信すると、直ちに1又は2以上の言語に翻訳し、その翻訳結果を前記管理サーバーの記憶領域に記憶し、
前記音声合成部は、前記翻訳が実行されると直ちに前記翻訳結果から音声データを作成し、前記音声データを前記管理サーバーの記憶領域に記憶する、
ことを特徴とする音声合成ガイドシステム。 - 前記翻訳部は管理サーバーとネットワークで接続された外部サーバーに置かれた翻訳モデルの出力結果を用いて前記テキスト情報を1又は2以上の言語に翻訳することを特徴とする請求項1に記載の音声合成ガイドシステム。
- 前記音声合成部は管理サーバーとネットワークで接続された外部サーバーに置かれた音声合成モデルの出力結果を用いて前記翻訳結果から音声データを作成することを特徴とする請求項1に記載の音声合成ガイドシステム。
- 前記情報提供者端末から前記管理サーバーに送信されるテキスト情報は、前記情報提供者端末に表示された地図上の所定の地点を選択したことで指定され入力されることを特徴とする請求項1乃至3のいずれかに記載の音声合成ガイドシステム。
- インターネットを介して複数の情報提供者端末及びユーザー端末に接続可能とされた管理サーバーを備え、ユーザー端末が所定の地点の付近に存在するときにユーザー端末に当該地点に関する地点情報を音声データで提供する音声合成ガイドシステムにおいて、
前記管理サーバーは音声合成部を有し、
前記管理サーバーは情報提供者端末から地図上の任意の地点に関連しその地点付近を通過したユーザーに提供したい地点情報をテキスト情報として受信可能になっており、
前記音声合成部は、前記テキスト情報に対応する音声データを作成し、前記音声データを前記管理サーバーの記憶領域に記憶する、
ことを特徴とする音声合成ガイドシステム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022110078A JP7242010B1 (ja) | 2022-07-07 | 2022-07-07 | 音声合成ガイドシステム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022110078A JP7242010B1 (ja) | 2022-07-07 | 2022-07-07 | 音声合成ガイドシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP7242010B1 JP7242010B1 (ja) | 2023-03-20 |
JP2024008314A true JP2024008314A (ja) | 2024-01-19 |
Family
ID=85641187
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022110078A Active JP7242010B1 (ja) | 2022-07-07 | 2022-07-07 | 音声合成ガイドシステム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7242010B1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11232284A (ja) * | 1998-02-10 | 1999-08-27 | Toshiba Corp | 情報送受信装置および情報交換方法 |
JP2016040567A (ja) * | 2014-08-12 | 2016-03-24 | 日本電信電話株式会社 | サーバ装置、音声コンテンツ提供方法、プログラム |
JP2021086264A (ja) * | 2019-11-26 | 2021-06-03 | 凸版印刷株式会社 | 翻訳管理システム |
-
2022
- 2022-07-07 JP JP2022110078A patent/JP7242010B1/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11232284A (ja) * | 1998-02-10 | 1999-08-27 | Toshiba Corp | 情報送受信装置および情報交換方法 |
JP2016040567A (ja) * | 2014-08-12 | 2016-03-24 | 日本電信電話株式会社 | サーバ装置、音声コンテンツ提供方法、プログラム |
JP2021086264A (ja) * | 2019-11-26 | 2021-06-03 | 凸版印刷株式会社 | 翻訳管理システム |
Also Published As
Publication number | Publication date |
---|---|
JP7242010B1 (ja) | 2023-03-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4356745B2 (ja) | 機械翻訳システム、機械翻訳方法及びプログラム | |
EP3176782B1 (en) | Apparatus and method for outputting obtained pieces of related information | |
US20200326197A1 (en) | Method, apparatus, computer device and storage medium for determining poi alias | |
CN105704675A (zh) | 一种景区信息的处理方法及装置 | |
RU2425329C2 (ru) | Навигационное устройство и способ для приема и воспроизведения звуковых образцов | |
CA2795812A1 (en) | Method and system for name pronunciation guide services | |
EP3176783B1 (en) | Information management system and information management method | |
JPH0894369A (ja) | 移動体誘導装置 | |
CN103699528B (zh) | 翻译译文的提供方法、装置和系统 | |
CN101751838A (zh) | 复合定位自助导游机 | |
CN107577819A (zh) | 一种文本内容展现方法、装置、计算机设备和存储介质 | |
Boye et al. | Walk this way: Spatial grounding for city exploration | |
Gleason et al. | FootNotes: Geo-referenced audio annotations for nonvisual exploration | |
Chandu et al. | Speech Synthesis for Mixed-Language Navigation Instructions. | |
US20050192714A1 (en) | Travel assistant device | |
Liu et al. | A collective data generation method for speech language models | |
JP7242010B1 (ja) | 音声合成ガイドシステム | |
KR20180009304A (ko) | 현지 언어 기반의 여행용 외국어 안내 프로그램을 저장하는 컴퓨터로 판독 가능한 기록매체 | |
St Clair | Stories that walk with you: Opportunities in locative audio for feature journalism | |
JP2008021235A (ja) | 読み登録システム及び読み登録プログラム | |
Blundell et al. | Early Austronesian historical voyaging in monsoon Asia: Heritage and knowledge for museum displays utilizing texts, archaeology, digital interactive components, and GIS approaches | |
KR20180135212A (ko) | 해외여행자를 위한 여행정보 제공 및 외국어 학습 시스템 | |
JP3266215B2 (ja) | 目的地案内方法および装置 | |
Kovanen et al. | A client-server architecture for audio-supported mobile route guiding for hiking | |
JP2002297027A (ja) | 地図情報提供方法、地図情報提供システム、及びコンピュータ読取可能なプログラム。 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220905 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20220905 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221019 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221111 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230117 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230224 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7242010 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |