JP6729494B2 - 情報管理システムおよび情報管理方法 - Google Patents

情報管理システムおよび情報管理方法 Download PDF

Info

Publication number
JP6729494B2
JP6729494B2 JP2017105418A JP2017105418A JP6729494B2 JP 6729494 B2 JP6729494 B2 JP 6729494B2 JP 2017105418 A JP2017105418 A JP 2017105418A JP 2017105418 A JP2017105418 A JP 2017105418A JP 6729494 B2 JP6729494 B2 JP 6729494B2
Authority
JP
Japan
Prior art keywords
character string
information
voice
registered
specified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017105418A
Other languages
English (en)
Other versions
JP2017161937A (ja
Inventor
貴裕 岩田
貴裕 岩田
優樹 瀬戸
優樹 瀬戸
友美子 越智
友美子 越智
石田 哲朗
哲朗 石田
翔太 森口
翔太 森口
岩瀬 裕之
裕之 岩瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Publication of JP2017161937A publication Critical patent/JP2017161937A/ja
Application granted granted Critical
Publication of JP6729494B2 publication Critical patent/JP6729494B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/009Teaching or communicating with deaf persons
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B61RAILWAYS
    • B61LGUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
    • B61L15/00Indicators provided on the vehicle or train for signalling purposes
    • B61L15/0018Communication with or on the vehicle or train
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B61RAILWAYS
    • B61LGUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
    • B61L15/00Indicators provided on the vehicle or train for signalling purposes
    • B61L15/0072On-board train data handling
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B61RAILWAYS
    • B61LGUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
    • B61L15/00Indicators provided on the vehicle or train for signalling purposes
    • B61L15/009On-board display devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L2021/065Aids for the handicapped in understanding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、利用者に提供される情報を管理する技術に関する。
発話音声に対する音声認識の結果に応じて各種の情報を利用者に提供する技術が従来から提案されている。例えば特許文献1には、利用者の発話音声に対する音声認識を実行して、音声認識の結果として特定された目標地点を中心として地図の表示領域または表示縮尺等を指示する構成が開示されている。
特開平03―175478号公報
ところで、例えば電車およびバス等の交通機関で放送される案内音声を音声認識し、認識結果の文字列またはその翻訳文等の関連情報を乗客の端末装置に提供できれば、案内音声の聴取が困難な難聴者または案内音声の言語を理解できない外国人にとって便利である。しかし、完全な音声認識の実現は実際には困難であり、例えば個々の発話者に特有の発話の特徴(くせ)または収音時の背景雑音等に起因して誤認識が発生する場合がある。誤認識が発生した場合には、案内音声に応じた適切な関連情報を利用者に提供できない可能性がある。なお、以上の説明では、案内音声を音声認識する場合を想定したが、例えば案内音声が表す文字列を案内者が入力する場合にも同様の問題が発生し得る。例えば、案内者が入力した文字列またはその翻訳文を関連情報として提供する場面では、案内者の入力ミス等に起因して、案内音声に応じた適切な関連情報を利用者に提供できない可能性がある。以上の事情を考慮して、本発明は、案内音声に応じた適切な関連情報を利用者に提供することを目的とする。
以上の課題を解決するために、本発明の好適な態様に係る情報管理システムは、案内音声に関連する関連情報を利用者に提示する端末装置に対して当該関連情報を指示するための配信情報を生成するシステムであって、相異なる複数の登録文字列のうち前記案内音声を表す入力文字列に類似する登録文字列を特定する文字列特定部と、前記文字列特定部が特定した登録文字列とは部分的に相違する補正文字列に対応する前記関連情報を前記端末装置に指示する配信情報を生成する情報生成部とを具備する。
本発明の他の態様に係る情報管理システムは、案内音声に関連する関連情報を利用者に提示する端末装置に対して当該関連情報を指示するための配信情報を生成するシステムであって、相異なる複数の登録文字列のうち前記案内音声を表す入力文字列に類似する登録文字列を特定する文字列特定部と、前記文字列特定部が特定した登録文字列を前記端末装置に指示する配信情報を生成する情報生成部とを具備し、前記登録文字列は、複数の挿入句が選択的に挿入される挿入区間を包含し、前記文字列特定部は、前記複数の登録文字列のうち前記入力文字列に類似する登録文字列を特定する第1処理と、前記複数の挿入句のうち前記入力文字列に対応する挿入句を探索する第2処理とを実行し、前記情報生成部は、前記入力文字列に対応する挿入句が前記第2処理で特定された場合に、前記第1処理で特定した登録文字列の挿入区間に前記第2処理で特定された挿入句を挿入した文字列に対応する前記関連情報を指示する配信情報を生成する一方、前記入力文字列に対応する挿入句が前記第2処理で特定されない場合に、前記登録文字列のうち前記挿入区間を除去した文字列に対応する前記関連情報を指示する配信情報を生成する。
本発明の他の態様に係る情報管理システムは、案内音声に関連する関連情報を生成するシステムであって、相異なる複数の登録文字列のうち前記案内音声を表す入力文字列に類似する登録文字列を特定する文字列特定部と、前記文字列特定部が特定した登録文字列とは部分的に相違する補正文字列に対応する前記関連情報を生成する情報生成部とを具備する。
また、前述の課題を解決するために、本発明の好適な態様に係る情報管理方法は、案内音声に関連する関連情報を利用者に提示する端末装置に対して当該関連情報を指示するための配信情報を生成する方法であって、相異なる複数の登録文字列のうち前記案内音声を表す入力文字列入力文字列に類似する登録文字列を特定し、前記特定した登録文字列とは部分的に相違する補正文字列に対応する前記関連情報を前記端末装置に指示する配信情報を生成する。
本発明の他の態様に係る情報管理方法は、案内音声に関連する関連情報を利用者に提示する端末装置に対して当該関連情報を指示するための配信情報を生成する方法であって、相異なる複数の登録文字列のうち前記案内音声を表す入力文字列に類似する登録文字列を特定し、前記特定した登録文字列を前記端末装置に指示する配信情報を生成する一方、前記登録文字列は、複数の挿入句が選択的に挿入される挿入区間を包含し、前記登録文字列の特定においては、前記複数の登録文字列のうち前記入力文字列に類似する登録文字列を特定する第1処理と、前記複数の挿入句のうち前記入力文字列に対応する挿入句を探索する第2処理とを実行し、前記配信情報の生成においては、前記入力文字列に対応する挿入句が前記第2処理で特定された場合に、前記第1処理で特定した登録文字列の挿入区間に前記第2処理で特定された挿入句を挿入した文字列に対応する前記関連情報を指示する配信情報を生成する一方、前記入力文字列に対応する挿入句が前記第2処理で特定されない場合に、前記登録文字列のうち前記挿入区間を除去した文字列に対応する前記関連情報を指示する配信情報を生成する。
本発明の他の態様に係る情報管理方法は、案内音声に関連する関連情報を生成する方法であって、相異なる複数の登録文字列のうち前記案内音声を表す入力文字列に類似する登録文字列を特定し、前記特定した登録文字列とは部分的に相違する補正文字列に対応する前記関連情報を生成する。
本発明の第1実施形態に係る情報管理システムの構成図である。 音声案内システムおよび管理装置の構成図である。 案内テーブルの模式図である。 文字列特定部および情報生成部の動作のフローチャートである。 端末装置の構成図である。 情報管理システムの全体的な動作のフローチャートである。 第2実施形態における案内テーブルの模式図である。 第2実施形態における文字列特定部および情報生成部の動作のフローチャートである。 第3実施形態における案内テーブルの模式図である。 第3実施形態における文字列特定部および情報生成部の動作のフローチャートである。
<第1実施形態>
図1は、第1実施形態の情報管理システム100の構成図である。第1実施形態の情報管理システム100は、電車およびバス等の交通機関の利用者UAに情報を提供するためのコンピュータシステムであり、音声案内システム10と管理装置20とを具備する。音声案内システム10は、例えば電車およびバス等の車輌200に設置され、インターネット等を含む通信網300を介して管理装置20と通信する。管理装置20は、例えば通信網300に接続されたサーバ(例えばウェブサーバ)である。利用者UAは、端末装置30を携帯して車輌200に乗車する。端末装置30は、例えば携帯電話機およびスマートフォン等の可搬型の通信端末である。なお、実際には車輌200内の多数の利用者UAが情報管理装置20のサービスを利用し得るが、以下の説明では便宜的に1個の端末装置30に着目する。
車輌200を運用する運転手および車掌等の案内者UBは、交通機関を案内する音声(以下「案内音声」という)Gを随時に発音する。例えば次の停車地点(駅またはバス停)の名称または他路線への乗換を案内する音声、次の停車地点の周辺に位置する各種の施設を案内する音声(例えば観光案内)、交通機関の運行状況(例えば停止信号の発生または遅延状況等)を通知する音声、乗車中または降車時の注意事項を通知する音声、および、緊急事態の発生を通知する音声など、交通機関の運行に関する各種の音声が案内音声Gとして発音される。
第1実施形態の情報管理システム100は、案内者UBが発音した案内音声Gに応じた配信情報Qを生成して端末装置30に送信する。配信情報Qは、案内音声Gに関連する情報(以下「関連情報」という)を端末装置30が利用者UAに提示するための情報である。第1実施形態の端末装置30は、案内音声Gの発音内容を表現する文字列を関連情報として利用者UAに提示する。したがって、例えば案内音声Gの聴取が困難な難聴者が案内音声Gの内容を把握することが可能である。
図2は、音声案内システム10および管理装置20の構成図である。図2に例示される通り、第1実施形態の音声案内システム10は、配信端末12と収音装置14と音響装置16と放音装置18とを具備する。収音装置14は、周囲の音響を収音する音響機器(マイクロホン)である。具体的には、収音装置14は、案内者UBが発音した案内音声Gを収音して当該案内音声Gの波形を表す音響信号SGを生成する。なお、収音装置14が生成した音響信号SGをアナログからデジタルに変換するA/D変換器の図示は便宜的に省略した。第1実施形態の案内者UBは、事前に用意された複数の文字列(以下「登録文字列」という)の何れかを案内音声Gとして発音する。例えば、複数の登録文字列が収録されたアナウンスブックを参照して、案内者UBは、交通機関の実際の運行状況に応じた登録文字列を選択的に案内音声Gとして発音する。すなわち、案内音声Gは、基本的には、案内者UBが内容を任意に決定できるものではなく、事前に用意された既知の内容である。
収音装置14が生成した音響信号SGは、音響装置16を経由して音響信号SAとして放音装置18に供給される。音響装置16は、増幅処理および調整処理(例えば周波数特性の調整)等の音響処理を音響信号SGに対して実行することで音響信号SAを生成する。放音装置18は、音響装置16から供給される音響信号SAに応じた音響を放音する音響機器(スピーカ)である。具体的には、音響信号SGが表す案内音声Gが放音装置18から利用者UAに対して放音される。なお、音響信号SAをデジタルからアナログに変換するD/A変換器の図示は便宜的に省略されている。以上の説明から理解される通り、第1実施形態の音声案内システム10は、収音装置14が収音した案内音声Gを音響装置16による処理後に放音装置18から放音する既存の車内放送システムに配信端末12を接続した音響システムである。ただし、音声案内システム10の形態は任意であり、例えば配信端末12の要素と収音装置14と音響装置16と放音装置18とを単体の装置に搭載することも可能である。
収音装置14が生成した音響信号SGは、収音装置14と音響装置16との間の経路から分岐して配信端末12に供給される。具体的には、有線または無線の経路を介して音響信号SGが配信端末12に供給される。配信端末12は、収音装置14から供給される音響信号SGが表す案内音声Gに対応した配信情報Qを端末装置30に提供するための情報機器であり、例えば携帯電話機、スマートフォンおよびタブレット端末等の可搬型の端末装置で実現される。第1実施形態の配信端末12は、図2に例示される通り、制御装置122と通信装置124とを具備する。通信装置124は、通信網300を介して管理装置20と通信する。第1実施形態の通信装置124は、通信網300と無線通信する無線通信機である。
制御装置122は、配信端末12の全体的な動作を制御する処理装置(例えばCPU(Central Processing Unit))である。磁気記録媒体および半導体記録媒体等の公知の記録媒体(図示略)に記憶されたプログラムを制御装置122が実行することで、案内音声Gに対応した配信情報Qを取得および配信するための複数の機能(音声取得部52および信号処理部54)が実現される。
音声取得部52は、案内音声Gを表す音響信号SGを収音装置14から取得する。音声取得部52が取得した音響信号SGは通信装置124から通信網300を介して管理装置20に送信される。管理装置20は、音声案内システム10から送信された音響信号SGを受信し、当該音響信号SGが表す案内音声Gに関連する関連情報の提示を端末装置30に指示するための配信情報Qを生成する。管理装置20が生成した配信情報Qは、管理装置20から音声案内システム10に送信される。通信装置124は、管理装置20が送信した配信情報Qを通信網300から受信する。
信号処理部54は、通信装置124が管理装置20から受信した配信情報Qを音響成分として含む音響信号SQを生成する。信号処理部54による音響信号SQの生成には公知の技術が任意に採用され得るが、例えば、所定の周波数の正弦波等の搬送波を配信情報Qで周波数変調することで音響信号SQを生成する構成、または、拡散符号を利用した配信情報Qの拡散変調と所定の周波数の搬送波を利用した周波数変換とを順次に実行して音響信号SQを生成する構成が好適である。音響信号SQの周波数帯域は、放音装置18による放音と端末装置30による収音とが可能な周波数帯域であり、かつ、利用者が通常の環境で聴取する音声(例えば案内音声G)および楽音等の音響の周波数帯域を上回る周波数帯域(例えば18kHz以上かつ20kHz以下)の範囲内に包含される。ただし、音響信号SQの周波数帯域は任意であり、例えば可聴帯域内の音響信号SQを生成することも可能である。
信号処理部54が生成した音響信号SQは、音響装置16による処理後に音響信号SAとして放音装置18に供給される。すなわち、配信情報Qの音響成分(音響信号SQ)を含む音響信号SAが放音装置18に供給され、当該配信情報Qの音響成分が放音装置18から音響として放音される。なお、音響装置16が音響信号SGと音響信号SQとの加算で音響信号SAを生成することも可能である。
以上の説明から理解される通り、第1実施形態の放音装置18は、空気振動としての音響(音波)を伝送媒体とする音響通信で配信情報Qを端末装置30に送信する手段(送信部)として機能する。すなわち、放音装置18は、収音装置14が収音した案内音声Gを放音し、さらに、配信情報Qを含む音響の放音により当該配信情報Qを端末装置30に送信する。以上の構成では、案内音声Gを放音する放音装置18が配信情報Qの送信に流用されるから、放音装置18とは別個の機器で配信情報Qを端末装置30に送信する構成と比較して、音声案内システム10の構成を簡素化できるという利点がある。
図2の管理装置20は、端末装置30に提供される配信情報Qを管理する装置であり、図2に例示される通り、制御装置22と記憶装置24と通信装置26とを具備する。なお、管理装置20は、単体の装置として実現されるほか、相互に別体で構成された複数の装置(すなわちコンピュータシステム)でも実現される。例えば、管理装置20とは別体で記憶装置24(クラウドストレージ)を設置し、制御装置22が例えば通信網300を介して記憶装置24に対する読出および/または書込を実行することも可能である。すなわち、記憶装置24は管理装置20から省略され得る。
制御装置22は、管理装置20の全体的な動作を制御する処理装置(例えばCPU)である。通信装置26は、通信網300を介して配信端末12と通信する。例えば通信装置26は、配信端末12から送信された音響信号SGを受信し、当該音響信号SGに応じた配信情報Qを配信端末12に送信する。記憶装置24は、制御装置22が実行するプログラムと制御装置22が使用する各種のデータとを記憶する。例えば、磁気記録媒体および半導体記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが記憶装置24として任意に採用される。第1実施形態の記憶装置24は案内テーブルTAを記憶する。
図3は、案内テーブルTAの模式図である。図3に例示される通り、案内テーブルTAには、案内者UBによる発音が想定される複数の登録文字列X(X1,X2,……)が、各登録文字列Xの識別情報DX(DX1,DX2,……)とともに登録される。図3に例示される通り、第1実施形態の各登録文字列Xは1個の挿入区間Bを包含する。図3では、大括弧[ ]で挿入区間Bが表現されている。挿入区間Bには、複数の文字列(以下「挿入句」という)Yの何れかが選択的に挿入される。すなわち、登録文字列Xは、挿入句Yを相違させた複数種の案内にわたり共通する定型的な文字列(典型的には文)であり、各挿入句Yは、案内毎に選定されて登録文字列Xの挿入区間Bに挿入される文字列(例えば単語)である。図3に例示される通り、複数の登録文字列Xの各々について、当該登録文字列Xの挿入区間Bに対する挿入の候補となる複数の挿入句Y(Y11,Y12,……)が、各挿入句Yの識別情報DY(DY11,DY12,……)とともに案内テーブルTAに登録される。例えば図3に例示される通り、電車の異常停止を利用者UAに通知する「ただいま[ ]のため、電車が停止しております。誠に申し訳ありませんが、運転再開をお待ち下さい」という登録文字列X1については、当該登録文字列Xの挿入区間Bに挿入されて異常停止の原因を表現する「車輌点検」「信号故障」および「線路立入」等の複数の挿入句Y(Y11,Y12,Y13,……)が登録される。また、次の停車を通知する「まもなく[ ]駅に停車いたします。お出口は左側です」という登録文字列X2については、当該登録文字列X2の挿入区間Bに挿入される駅名の候補である「東京」「秋葉原」および「上野」等の複数の挿入句Y(Y21,Y22,Y23,……)が登録される。挿入区間Bに挿入され得る挿入句Yの内容および/または総数は登録文字列X毎に相違し得る。
図3に例示される通り、案内テーブルTAは、相異なる登録文字列Xに対応する複数の文字列(以下「補正文字列」という)Zの識別情報DZ(DZ1,DZ2,……)を包含する。識別情報DZは、補正文字列Zを一意に識別するための符号である。任意の1個の登録文字列Xに対応する補正文字列Zは、当該登録文字列Xと内容自体は類似または共通するが登録文字列Xとは表現が部分的に相違する文字列である。具体的には、図3に例示される通り、「ただいま[ ]のため、電車が停止しております。誠に申し訳ありませんが、運転再開をお待ち下さい」という登録文字列X1については、当該登録文字列Xのうち挿入区間Bを含む「[ ]のため」という部分を削除した「ただいま電車が停止しております。誠に申し訳ありませんが、運転再開をお待ち下さい」という補正文字列Z1が登録される。また、次の停車を通知する「まもなく[ ]駅に停車いたします。お出口は左側です」という登録文字列X2については、当該登録文字列X2のうち停車対象の駅名が挿入され得る挿入区間Bを含む「[ ]駅に」という部分を削除した「まもなく停車いたします。お出口は左側です」という補正文字列Z2が登録される。
なお、図3では、登録文字列Xと複数の挿入句Yと補正文字列Zとを対応させた単一の案内テーブルTAを例示したが、登録文字列Xと複数の挿入句Yと補正文字列Zとの対応を規定するデータの形式は任意である。例えば、登録文字列Xと複数の挿入句Yと補正文字列Zとの対応関係を複数のテーブルで規定することも可能である。具体的には、登録文字列Xと複数の挿入句Yとの対応を規定するテーブルとは別個に、登録文字列Xと補正文字列Zとの対応を規定するテーブルを用意することも可能である。また、図3では、各識別情報DZとともに補正文字列Zを便宜的に図示したが、補正文字列Zの識別情報DZが案内テーブルTAに登録されていれば、補正文字列Z自体が案内テーブルTAに登録される必要はない。
図2の制御装置22は、記憶装置24に記憶されたプログラムを実行することで、案内音声Gの音響信号SGに応じた配信情報Qを生成するための複数の機能(音声解析部62,文字列特定部64および情報生成部66)を実現する。なお、制御装置22の一部の機能を専用の電子回路で実現した構成、または、制御装置22の機能を複数の装置に分散した構成も採用され得る。
音声解析部62は、通信装置26が配信端末12から受信した音響信号SGに対する音声認識で、案内音声Gの発音内容を表す文字列(以下「入力文字列」という)Lを特定する。すなわち、入力文字列Lは、案内者UBが音声入力した文字列である。案内音声Gの音声認識には、例えばHMM(Hidden Markov Model)等の音響モデルと言語的な制約を示す言語モデルとを利用した認識処理等の公知の技術が任意に採用され得る。
前述の通り、案内者UBは、アナウンスブック等で事前に用意された登録文字列Xを基本的には発音するから、理想的には、音声解析部62が案内音声Gに対する音声認識で特定した入力文字列Lは、案内テーブルTAに登録された何れかの登録文字列Xに合致する。しかし、実際には、個々の案内者UBに特有の発話の特徴(くせ)または収音装置14の周囲の雑音等に起因して、音声解析部62による音声認識には誤認識が発生し得る。したがって、入力文字列Lと登録文字列Xとは、相互に類似するけれども部分的には相違する場合がある。
以上の事情を考慮して、第1実施形態の文字列特定部64は、相異なる複数の登録文字列Xのうち音声解析部62が特定した入力文字列Lに類似する登録文字列Xを特定する。具体的には、文字列特定部64は、案内テーブルTAに登録された複数の登録文字列Xのうち音声解析部62が特定した入力文字列Lに類似する登録文字列Xと、当該登録文字列Xに対応する複数の挿入句Yのうち入力文字列Lに対応する挿入句Yとを特定する。
図4は、第1実施形態の文字列特定部64および情報生成部66の動作のフローチャートである。音声解析部62による入力文字列Lの特定毎に図4の処理が開始される。
図4に例示される通り、第1実施形態の文字列特定部64は、第1処理S51と第2処理S52とを順次に実行する(S5)。第1処理S51は、案内テーブルTAの複数の登録文字列Xのうち入力文字列Lに類似する登録文字列Xを特定する処理である。具体的には、文字列特定部64は、案内テーブルTAの複数の登録文字列Xの各々について入力文字列Lとの類似度の指標(以下「類似指標」という)を算定し、複数の登録文字列Xのうち類似指標が示す類似度が最大となる1個の登録文字列X(すなわち、入力文字列Lに最も類似する登録文字列X)を特定する。類似指標の種類は任意であるが、例えば複数の文字列間の類似性を評価するための編集距離(レーベンシュタイン距離)等の公知の指標が類似指標として任意に採用され得る。ただし、入力文字列Lに類似する登録文字列Xを特定する方法は任意である。例えば、入力文字列Lに包含される特定の文字列(例えば特定の品詞の語句)を含む登録文字列Xを特定する処理が第1処理S51として採用され得る。また、多数の文字列から抽出される特徴量を利用した機械学習で認識モデルを事前に生成し、この認識モデルを利用して入力文字列Lに類似する登録文字列Xを特定する処理も第1処理S51として好適である。
図4に例示される第2処理S52は、第1処理S51で特定した登録文字列Xに対応する複数の挿入句Yのうち入力文字列Lに対応する挿入句Yを探索する処理である。具体的には、文字列特定部64は、登録文字列Xに対応する複数の挿入句Yの各々を入力文字列Lに対して順次に照合することで、入力文字列Lに包含される挿入句Yを特定する。なお、入力文字列Lに対応する挿入句Yを特定する方法は任意である。例えば、入力文字列Lの全体を対象として挿入句Yを探索する処理のほか、入力文字列Lのうち登録文字列Xの挿入区間Bに相当する部分を各挿入句Yと照合することで両者間の異同を判別する処理が第2処理S52として採用され得る。また、複数の挿入句Yの各々について入力文字列Lとの間で前述の類似指標を算定し、各挿入句Yの類似指標に応じて入力文字列L内の挿入句Yを特定する処理も、第2処理S52として好適である。もっとも、案内音声Gに想定される挿入句Yの種類はそれほど多数ではないという状況が基本的には想定されるから、各挿入句Yを入力文字列Lに対して順次に照合する前述の方法でも、挿入句Yを実用的に特定することは可能である。
図2の情報生成部66は、音声解析部62および文字列特定部64による処理結果に応じた関連情報を端末装置30に指示するための配信情報Qを生成する(S6)。前述の通り、入力文字列Lに類似する登録文字列Xが文字列特定部64による第1処理S51で特定され、複数の挿入句Yのうち入力文字列Lに対応する挿入句Y(典型的には入力文字列Lに包含される挿入句Y)が第2処理S52で探索される。案内者UBによる案内音声Gの発音および音声解析部62による音声認識が適正であれば、入力文字列Lに対応する登録文字列Xと挿入句Yとの双方を適正に特定することが可能である。しかし、案内者UBの発音の過誤(例えばアナウンスブックに収録された所定の語句以外の語句を発音した場合)または音声解析部62による誤認識が発生した場合には、第1処理S51で特定された登録文字列Xに対応する複数の挿入句Yから、入力文字列Lに対応する挿入句Yを特定できない可能性がある。
図4に例示される通り、第1実施形態の情報生成部66は、入力文字列Lに対応する挿入句Yが文字列特定部64による第2処理S52で特定されたか否かを判定する(S61)。第2処理S52で挿入句Yが特定された場合(S61:YES)、情報生成部66は、第1処理S51で特定された登録文字列Xの挿入区間Bに第2処理S52で特定された挿入句Yを挿入した文字列を関連情報として指示する配信情報Qを生成する(S62)。具体的には、情報生成部66は、第1処理S51で特定された登録文字列Xの識別情報DXと第2処理S52で特定された挿入句Yの識別情報DYとを案内テーブルTAから取得し、これらの識別情報DXおよび識別情報DYを含む配信情報Qを生成する。
他方、第2処理S52で挿入句Yが特定されない場合(S61:NO)、情報生成部66は、第1処理S51で特定された登録文字列Xに対応する補正文字列Z(すなわち、当該登録文字列Xとは部分的に相違する文字列)を関連情報として指示する配信情報Qを生成する(S63)。具体的には、情報生成部66は、登録文字列Xに対応する補正文字列Zの識別情報DZを案内テーブルTAから取得し、当該識別情報DZを含む配信情報Qを生成する。
なお、複数の挿入句Y以外の特定の語句(以下「特定句」という)を案内テーブルTAに事前に登録し、第2処理S52において、複数の挿入句Yの各々と同様に特定句も入力文字列Lに照合することで、入力文字列Lに特定句が包含されるか否かを判定することも可能である。例えば、案内者UBが間違って発音する可能性が高い語句、または音声解析部62が誤認識により特定する可能性が高い語句が、特定句として事前に選定される。入力文字列Lに特定句が包含される場合、情報生成部66は、第2処理S52で挿入句Yが特定されない(S61:NO)と判定する。すなわち、「挿入句Yが特定されない場合」は、実際に挿入句Yが特定されない前述の例示の場合のほか、挿入句Y以外の特定句が入力文字列Lから特定される場合も包含する。
以上に例示した処理(S62またはS63)で配信情報Qを生成すると、情報生成部66は、当該配信情報Qを通信装置26から音声案内システム10の配信端末12に送信する(S7)。前述の通り、音声案内システム10では、通信装置124が管理装置20から受信した配信情報Qを音響成分として含有する音響信号SAが信号処理部54および音響装置16により生成され、当該音響信号SAに応じた音響(すなわち配信情報Qを含む音響)が放音装置18から放音される。実際には、案内者UBによる案内音声Gの発音が終了した段階で音声解析部62により入力文字列Lが特定されて配信情報Qの生成および送信が実行されるから、案内音声Gの放音に対して遅延した時点で配信情報Qの音響が放音装置18から放音される。
図5は、端末装置30の構成図である。図5に例示される通り、端末装置30は、収音装置32と制御装置34と記憶装置36と提示装置38とを具備する。収音装置32は、周囲の音響を収音する音響機器(マイクロホン)であり、音声案内システム10の放音装置18から放音される音響を収音して音響信号SBを生成する。音響信号SBは、配信情報Qの音響成分(音響信号SQ)を含有する。すなわち、収音装置32は、空気振動たる音響を伝送媒体とした音響通信で配信情報Qを受信する手段(受信部)として機能する。なお、収音装置32が生成した音響信号SBをアナログからデジタルに変換するA/D変換器の図示は便宜的に省略した。
記憶装置36は、制御装置34が実行するプログラムと制御装置34が使用する各種のデータとを記憶する。制御装置34は、端末装置30の全体的な動作を制御する処理装置(例えばCPU)である。第1実施形態の制御装置34は、記憶装置36に記憶されたプログラムを実行することで、配信情報Qに応じた関連情報を利用者UAに提示するための複数の機能(情報抽出部72および提示制御部74)を実現する。
情報抽出部72は、収音装置32が生成した音響信号SBの復調で配信情報Qを抽出する。具体的には、情報抽出部72は、配信情報Qの音響成分を含む周波数帯域の帯域成分を強調するフィルタ処理と信号処理部54での変調処理に対応した復調処理とを音響信号SBに対して実行することで配信情報Qを抽出する。提示制御部74は、情報抽出部72が抽出した配信情報Qで指示された関連情報Rを提示装置38に提示させる。提示装置38は、提示制御部74から指示された関連情報Rを利用者UAに提示する。第1実施形態の提示装置38は、関連情報Rを表示する表示機器(例えば液晶表示パネル)である。
配信情報Qで指示される関連情報Rを提示制御部74が特定する処理には、記憶装置36に記憶された案内テーブルTBが利用される。図5に例示される通り、案内テーブルTBには、配信情報Qで指示され得る複数の関連情報R(R1,R2,……)が各々の識別情報DR(DR1,DR2,……)とともに登録される。識別情報DRは、登録文字列Xの識別情報DXと挿入句Yの識別情報DYとの組合せ、または、補正文字列Zの識別情報DZに設定される。識別情報DXと識別情報DYとの組合せに相当する識別情報DRには、当該識別情報DXの登録文字列Xの挿入区間Bに当該識別情報DYの挿入句Yを挿入した文字列が関連情報Rとして登録される。他方、識別情報DZに相当する識別情報DRには、当該識別情報DZの補正文字列Zが関連情報Rとして登録される。
配信情報Qが識別情報DXと識別情報DYとを含む場合(すなわち、第2処理S52で挿入句Yが特定された結果、登録文字列Xに挿入句Yを挿入した文字列が関連情報Rとして指示された場合)、提示制御部74は、識別情報DXと識別情報DYとの組合せに相当する識別情報DRの関連情報Rを案内テーブルTBから特定して提示装置38に提示させる。したがって、案内音声Gの発音内容(入力文字列L)に類似する登録文字列Xの挿入区間Bに、入力文字列Lに包含される挿入句Yを挿入した文字列(すなわち、案内音声Gの発音内容に略一致する文章)が、関連情報Rとして利用者UAに提示される。
他方、配信情報Qが識別情報DZを含む場合(すなわち、第2処理S52で挿入句Yが特定されなかった結果、補正文字列Zが関連情報Rとして指示された場合)、提示制御部74は、当該識別情報DZに相当する識別情報DRの関連情報Rを案内テーブルTBから特定して提示装置38に提示させる。したがって、案内音声Gの発音内容に類似する登録文字列Xを部分的に変更した補正文字列Z(すなわち、案内音声Gの発音内容とは部分的に相違する文章)が、関連情報Rとして利用者UAに提示される。以上の説明から理解される通り、登録文字列Xは、入力文字列Lとの照合用および利用者UAに対する提示用の文字列であり、補正文字列Zは、利用者UAに対する提示用の文字列である(入力文字列Lとの照合には利用されない)と表現することも可能である。
なお、以上の例示では、識別情報DXと識別情報DYとの組合せを関連情報Rの識別情報DRとして例示したが、識別情報DXおよび識別情報DYの各々を識別情報DRとして関連情報R(登録文字列Xおよび挿入句Y)を案内テーブルTBに登録することも可能である。提示制御部74は、配信情報Qで指定された識別情報DXに相当する識別情報DRの関連情報R(登録文字列X)と、配信情報Qで指定された識別情報DYに相当する識別情報DRの関連情報R(挿入句Y)とを組合せた文字列を関連情報Rとして提示装置38から利用者UAに提示させる。
図6は、情報管理システム100の全体的な動作の説明図である。音声案内システム10の収音装置14は、案内者UBが発音した案内音声Gを収音して音響信号SGを生成する(S1)。音響信号SGは、放音装置18に供給されて音響として放音される一方(S2)、配信端末12の通信装置124から管理装置20に送信される(S3)。
通信装置26が音響信号SGを受信すると、管理装置20では、音声解析部62による入力文字列Lの特定(S4)と、文字列特定部64による特定処理(S5:S51,S52)と、情報生成部66による配信情報Qの生成(S6:S61〜S63)および送信(S7)とが順次に実行される。配信端末12では、配信情報Qの音響成分を含む音響信号SQが生成され(S8)、放音装置18による当該音響信号SQの再生で配信情報Qが端末装置30に送信される(S9)。
放音装置18が放音した音響は端末装置30の収音装置32により収音される(S10)。端末装置30では、収音装置32が収音により生成した音響信号SBから情報抽出部72が配信情報Qを抽出し(S11)、情報生成部66は、当該配信情報Qに応じた関連情報Rを案内テーブルTBから取得して提示装置38から利用者UAに提示する(S12)。したがって、利用者UAは、放音装置18から放音される案内音声Gを聴取する一方、当該案内音声Gの関連情報Rを提示装置38の表示で確認することが可能である。
以上の説明から理解される通り、第1実施形態では、案内音声Gに対する音声認識で特定された入力文字列Lに類似する登録文字列Xが複数の登録文字列Xから特定される。したがって、例えば案内音声Gから特定された入力文字列Lを関連情報Rとして端末装置30の利用者UAに提示する構成と比較して、音声認識における誤認識の影響を低減した適切な関連情報Rを利用者UAに提示することが可能である。
また、文字列特定部64が特定した登録文字列Xとは部分的に相違する補正文字列Zが関連情報Rとして端末装置30の利用者UAに提示されるから、案内音声Gに想定される発音内容の登録文字列Xを入力文字列Lとの対比に利用する一方で、登録文字列Xを部分的に変更した補正文字列Zを端末装置30の利用者UAに提示できるという利点がある。第1実施形態では、入力文字列Lに包含される挿入句Yが第2処理S52で特定された場合に、登録文字列Xの挿入区間Bに当該挿入句Yを挿入した文字列が関連情報Rとして提示され、第2処理S52で挿入句Yが特定されない場合に補正文字列Zが関連情報Rとして提示されるから、案内者UBの発音の過誤(例えば適正な語句以外の語句を発音した場合)または音声解析部62による誤認識が発生した場合でも、不適切な語句を含む関連情報Rが利用者UAに提示される可能性を低減することが可能である。
<第2実施形態>
本発明の第2実施形態について説明する。以下に説明する各例示において作用または機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用した各々の詳細な説明を適宜に省略する。
図7は、第2実施形態における案内テーブルTAの模式図である。図7に例示される通り、第2実施形態の案内テーブルTAには、第1実施形態と同様に、挿入区間Bを含む複数の登録文字列Xが登録される。第2実施形態の登録文字列Xは、挿入区間Bを削除しても言語的に不自然にならない文字列である。具体的には、「ただいま、[ ]電車が停止しております。誠に申し訳ありませんが、運転再開をお待ち下さい」という登録文字列X1が案内テーブルTAに登録される。
第2実施形態の案内テーブルTAには、登録文字列Xの挿入区間Bに挿入され得る複数の挿入句Yが登録文字列X毎に登録される。例えば、前述の登録文字列X1については、「車輌点検のため」「信号故障のため」および「線路立入のため」等の複数の挿入句Y(Y11,Y12,Y13,……)が登録される。また、「まもなく[ ]停車いたします。お出口は左側です」という登録文字列X2については、「東京駅に」「秋葉原駅に」および「上野駅に」等の複数の挿入句Y(Y21,Y22,Y23,……)が登録される。第2実施形態では、案内テーブルTAに補正文字列Zは登録されない。
図8は、第2実施形態の文字列特定部64および情報生成部66の動作のフローチャートである。第1実施形態で例示した図4の処理が第2実施形態では図8の処理に置換される。第1実施形態と同様に、音声解析部62による入力文字列Lの特定毎に図8の処理が開始される。
第2実施形態の文字列特定部64は、第1実施形態と同様に、複数の登録文字列Xのうち入力文字列Lに類似する登録文字列Xを特定する第1処理S51と、当該登録文字列Xに対応する複数の挿入句Yのうち入力文字列Lに対応する挿入句Yを探索する第2処理S52とを実行する。情報生成部66は、第1実施形態と同様に、入力文字列Lに対応する挿入句Yが第2処理S52で特定されたか否かを判定し(S61)、挿入句Yが特定された場合(S61:YES)には、登録文字列Xと挿入句Yとの組合せを指示する配信情報Qを生成する(S62)。他方、第2処理S52で挿入句Yが特定されない場合(S61:NO)、情報生成部66は、登録文字列Xを関連情報Rとして指示する配信情報Q(具体的には登録文字列Xの識別情報DXを含む配信情報Q)を生成し(S63)、通信装置26から音声案内システム10に送信する(S7)。
第1実施形態と同様に、配信情報Qを含む音響が放音装置18から放音され、端末装置30では音響信号SBから配信情報Qが抽出される。第2処理S52で挿入句Yが特定された場合、第1実施形態と同様に、識別情報DXと識別情報DYとの組合せに対応する関連情報Rが提示装置38から利用者UAに提示される。他方、第2処理S52で挿入句Yが特定されなかった場合には、配信情報Qが指定する識別情報DXに対応する登録文字列X(好適には登録文字列Xの挿入区間Bを除去した文字列)が関連情報Rとして利用者UAに提示される。すなわち、第2実施形態の情報生成部66は、第2処理S52で挿入句Yが特定されない場合に、登録文字列Xのうち挿入区間Bを除去した文字列を関連情報Rとして指示する配信情報Qを生成する。
例えば、「ただいま、隕石が落下してきたため、電車が停止しております。誠に申し訳ありませんが、運転再開をお待ち下さい」というように、通常は想定し難い停止の原因が発音された場合には、「ただいま、電車が停止しております。誠に申し訳ありませんが、運転再開をお待ち下さい」という言語的に自然な関連情報Rが利用者UAに提示される。また、例えば「ただいま、車輌故障(sharyou koshou:車輌に発生した不具合)のため、電車が停止しております。誠に申し訳ありませんが、運転再開をお待ち下さい」という案内音声Gの発音時に、音声解析部62の誤認識に起因して「ただいま、社長故障(syachou koshou:社長に発生した不具合)のため、電車が停止しております。誠に申し訳ありませんが、運転再開をお待ち下さい」という入力文字列Lが特定された場合にも、「ただいま、電車が停止しております。誠に申し訳ありませんが、運転再開をお待ち下さい」という言語的に自然な関連情報Rが利用者UAに提示される。
第2実施形態においても第1実施形態と同様に、案内音声Gに対する音声認識で特定された入力文字列Lに類似する登録文字列Xが複数の登録文字列Xから特定されるから、音声認識における誤認識の影響を低減した適切な関連情報Rを利用者UAに提示することが可能である。また、第2実施形態では、入力文字列Lに対応する挿入句Yが第2処理S52で特定された場合には、登録文字列Xの挿入区間Bに当該挿入句Yを挿入した文字列を関連情報Rとして指示する配信情報Qが生成される一方、入力文字列Lに対応する挿入句Yが第2処理S52で特定されない場合に、登録文字列Xのうち挿入区間Bを除去した文字列を関連情報Rとして指示する配信情報Qが生成される。したがって、例えば案内音声Gの発音の過誤(例えば事前に想定される挿入句Y以外の語句が発音された場合)または案内音声Gの音声認識における誤認識が発生した場合でも、不適切な語句を含む関連情報Rが利用者UAに提示される可能性を低減することが可能である。
<第3実施形態>
第3実施形態では、商業施設(例えばショッピングモール)に所在する利用者UAに情報を提供するために情報管理システム100を利用する場合を想定する。情報管理システム100の音声案内システム10は商業施設に設置され、管理装置20は、第1実施形態と同様に通信網300に接続される。
図9は、第3実施形態の管理装置20にて使用される案内テーブルTAの模式図である。図9に例示される通り、第3実施形態の案内テーブルTAには、案内者UBによる発音が想定される複数の登録文字列X(X1,X2,……)が登録される。第3実施形態の登録文字列Xは、案内音声Gに想定される発音内容のうち案内毎に変更され得る部分を除外した文字列である。例えば、商業施設に同行したけれども途中ではぐれた複数の来場客の一方が他方の居場所を通知する「ただいま、ABC市のXYZ様がお待ちでございます。お連れのお客様は案内所までお越し下さい」という案内音声Gについては、当該案内音声Gのうち案内毎に変更され得る部分(居住地および名前)を除外した「ただいま、xxx様がお待ちでございます。お連れのお客様は案内所までお越し下さい」という登録文字列X1が案内テーブルTAに登録される。なお、記号xxxは空欄を意味する。また、「駐車場にお停めのナンバー『A区12−3456』の赤色のワゴン車でお越しのお客様、ヘッドライトが点いております。お車までお戻り下さい」という案内音声Gについては、当該案内音声Gのうち案内毎に変更され得る部分(ナンバー)を除外した「駐車場にお停めのナンバーxxxの赤色のワゴン車でお越しのお客様、ヘッドライトが点いております。お車までお戻り下さい」という登録文字列X2が案内テーブルTAに登録される。
図9に例示される通り、第3実施形態の案内テーブルTAは、第1実施形態と同様に、相異なる登録文字列Xに対応する複数の補正文字列Zの識別情報DZを包含する。任意の1個の登録文字列Xに対応する補正文字列Zは、当該登録文字列Xと内容自体は類似または共通するが登録文字列Xとは表現が部分的に相違する文字列である。具体的には、図9に例示される通り、「ただいま、xxx様がお待ちでございます。お連れのお客様は案内所までお越し下さい」という登録文字列X1については、当該登録文字列X1のうち「xxx様」を「お連れ様」に変更するとともに「お連れの」を「お心あたりのある」に変更した「ただいま、お連れ様がお待ちでございます。お心当たりのあるお客様は案内所までお越し下さい」という補正文字列Z1が登録される。また、「駐車場にお停めのナンバーxxxの赤色のワゴン車でお越しのお客様、ヘッドライトが点いております。お車までお戻り下さい」という登録文字列X2については、当該登録文字列X2のうち「ナンバーxxxの」を削除した「駐車場にお停めの赤色のワゴン車でお越しのお客様、ヘッドライトが点いております。お車までお戻り下さい」という補正文字列Z2が登録される。以上の説明から理解される通り、登録文字列Xは、案内音声Gに想定される発音内容のうち案内毎の可変の部分を除外した文字列であり、案内音声Gの発音内容には類似するが、可変の部分を除外したために言語的には不自然な文字列である。他方、補正文字列Zは、登録文字列Xと比較して案内音声Gの発音内容からは乖離するが言語的には自然な文字列である。補正文字列Zは、案内音声Gのうち個人情報の部分(居住地,名前,または車のナンバー等)を伏せた文字列であるとも表現され得る。なお、補正文字列Zの識別情報DZが案内テーブルTAに登録されていれば、補正文字列Z自体が案内テーブルTAに登録される必要はない。
図10は、第3実施形態の文字列特定部64および情報生成部66の動作のフローチャートである。第1実施形態で例示した図4の処理が第3実施形態では図10の処理に置換される。第1実施形態と同様に、音声解析部62による入力文字列Lの特定毎に図10の処理が開始される。
第3実施形態の文字列特定部64は、案内テーブルTAの複数の登録文字列Xのうち入力文字列Lに類似する登録文字列Xを特定する(SA1)。登録文字列Xの特定(SA1)には、第1実施形態で例示した第1処理S51と同様の処理が利用される。以上の通り、第3実施形態では、案内音声Gに対する音声認識で特定された入力文字列Lに類似する登録文字列Xが特定されるから、第1実施形態と同様に、音声認識における誤認識の影響を低減した適切な関連情報Rを利用者UAに提示することが可能である。
情報生成部66は、文字列特定部64が特定した登録文字列Xに対応する補正文字列Zを関連情報Rとして指示する配信情報Qを生成する(SA2)。具体的には、情報生成部66は、案内テーブルTAにて登録文字列Xに対応する補正文字列Zの識別情報DZを含む配信情報Qを生成する。情報生成部66は、以上の手順で生成した配信情報Qを通信装置26から音声案内システム10に送信する(SA3)。
以降の処理は第1実施形態と同様である。すなわち、配信情報Qを含む音響が放音装置18から放音され、端末装置30では、音響信号SBから抽出される配信情報Qで指示される補正文字列Zを関連情報Rとして提示装置38が利用者UAに提示する。したがって、例えば「ただいま、ABC市ののXYZ様がお待ちでございます。お連れのお客様は案内所までお越し下さい」という案内音声Gに連動して、「ただいま、お連れ様がお待ちでございます。お心当たりのあるお客様は案内所までお越し下さい」という補正文字列Z1が提示装置38から利用者UAに提示される。また、「駐車場にお停めのナンバー『A区12−3456』の赤色のワゴン車でお越しのお客様、ヘッドライトが点いております。お車までお戻り下さい」という案内音声Gに連動して、「駐車場にお停めの赤色のワゴン車でお越しのお客様、ヘッドライトが点いております。お車までお戻り下さい」という補正文字列Z2が提示装置38から利用者UAに提示される。すなわち、案内音声Gのうち個人情報(居住地,名前,または車のナンバー等)を伏せた補正文字列Zが提示装置38から利用者UAに提示される。したがって、個人情報を保護することが可能である。
第3実施形態においても第1実施形態と同様に、文字列特定部64が特定した登録文字列Xとは部分的に相違する補正文字列Zが関連情報Rとして端末装置30の利用者UAに提示されるから、案内音声Gに想定される発音内容の登録文字列Xを入力文字列Lとの対比に利用する一方で、登録文字列Xを部分的に変更した補正文字列Zを端末装置30の利用者UAに提示できるという利点がある。
以上に例示した第1実施形態から第3実施形態では、案内音声Gと同言語の関連情報Rを利用者UAに提示したが、案内音声Gを他言語に翻訳した文字列を関連情報Rとして端末装置30の利用者UAに提示することも可能である。具体的には、案内音声Gとは別言語の文字列が関連情報Rとして案内テーブルTBに登録される。以上の構成によれば、案内音声Gの翻訳文に相当する関連情報Rが案内音声Gの再生に連動して利用者UAに提示されるから、案内音声Gの言語の理解が困難である外国人にとって便利である。
以上の例示から理解される通り、第1実施形態および第3実施形態における関連情報Rは、文字列特定部64が特定した登録文字列Xとは部分的に相違する補正文字列Zに対応する情報として包括的に表現され、当該補正文字列Z自体のほか、当該補正文字列Zの音声またはその翻訳文の文字列および音声を包含する。また、第2実施形態における関連情報Rは、登録文字列Xの挿入区間Bに挿入句Yを挿入した文字列に対応する情報(S62)、または、登録文字列Xのうち挿入区間Bを除去した文字列に対応する情報(S63)として包括的に表現され、当該文字列自体のほか、当該文字列の音声またはその翻訳文の文字列および音声を包含する。
<第4実施形態>
第1実施形態から第3実施形態では、関連情報Rの提示を指示する配信情報Qを情報管理システム100から端末装置30に送信した。第4実施形態では、案内音声Gに対応する関連情報Rを情報管理システム100が生成して利用者UAに提供する。音声解析部62および文字列特定部64の動作は前述の各形態と同様である。したがって、前述の各形態と同様に、音声認識における誤認識の影響を低減した適切な関連情報Rを利用者UAに提示することが可能である。
第4実施形態の情報生成部66は、第2処理S52で挿入句Yが特定された場合(S61:YES)には、登録文字列Xに当該挿入句Yを挿入した文字列を他言語に翻訳した文字列を関連情報Rとして生成する。他方、第2処理S52で挿入句Yが特定されない場合(S61:NO)、情報生成部66は、第1処理S51で特定された登録文字列Xに対応する補正文字列Zを他言語に翻訳した文字列を関連情報Rとして生成する。すなわち、第4実施形態の情報生成部66は、文字列特定部64が特定した登録文字列Xを部分的に変更した補正文字列Zに対応する関連情報Rを生成する。なお、文字列の翻訳には、例えば公知の機械翻訳が任意に採用され得る。情報生成部66が生成した関連情報Rは、音声案内システム10の配信端末12に送信される。
配信端末12の信号処理部54は、関連情報Rを適用した音声合成で音響信号SQを生成する。第4実施形態の音響信号SQは、関連情報Rが指定する文字列を発音した音声を表す信号である。音響信号SQの生成には、公知の音声合成が任意に採用され得る。信号処理部54が生成した音響信号SQは、音響装置16を経由して放音装置18に供給される。したがって、関連情報Rが指定する文字列を発音した音声が放音装置18から放音される。すなわち、案内者UBが発音した案内音声Gの放音に引続いて、当該案内音声Gを他言語に翻訳した音声が放音装置18から利用者UAに対して放音される。例えば、補正文字列Zの翻訳文が関連情報Rとして生成された場合には、案内音声Gに相当する登録文字列Xを部分的に変更した補正文字列Zの翻訳文の音声が当該案内音声Gに引続き放音される。
なお、以上の説明では、第1実施形態を基礎とした構成を例示したが、第2実施形態または第3実施形態における文字列の特定を第4実施形態に適用することも可能である。例えば、第4実施形態の情報生成部66は、第2処理S52で挿入句Yが特定された場合(S61:YES)には、登録文字列Xに当該挿入句Yを挿入した文字列を他言語に翻訳した文字列を関連情報Rとして生成する。他方、第2処理S52で挿入句Yが特定されない場合(S61:NO)、情報生成部66は、第1処理S51で特定された登録文字列Xから挿入区間Bを除去して他言語に翻訳した文字列を関連情報Rとして生成する。したがって、挿入区間Bを除外した登録文字列Xの翻訳文の音声が案内音声Gに引続いて放音装置18から放音される。また、第3実施形態を想定すると、文字列特定部64が特定した登録文字列Xに対応した補正文字列Zを他言語に翻訳した文字列を表す関連情報Rを情報生成部66が生成することも可能である。以上の構成では、案内音声Gの登録文字列Xを部分的に変更した補正文字列Zの翻訳文の音声が当該案内音声Gに連動して放音される。
以上の説明から理解される通り、第4実施形態の情報管理システム100は、案内音声Gに関連する関連情報Rを生成(および利用者UAに提供)するシステムであり、複数の登録文字列Xのうち案内音声Gに対する音声認識で特定された入力文字列Lに類似する登録文字列Xを特定する文字列特定部64と、文字列特定部64が特定した登録文字列Xに対応した関連情報Rを生成する情報生成部66とを具備する。登録文字列Xに対応する関連情報Rの典型例は、当該登録文字列Xとは部分的に相違する補正文字列Zの翻訳文、または、当該登録文字列Xのうち挿入区間Bを除去した文字列の翻訳文である。なお、関連情報Rが示す文字列の音声を放音装置18から放音する構成を以上の説明では例示したが、関連情報Rの出力方法は以上の例示に限定されない。例えば関連情報Rが示す文字列を表示装置により表示することも可能である。
<変形例>
以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。
(1)第1実施形態から第3実施形態では、関連情報Rを表示する表示機器を提示装置38として例示したが、関連情報Rに対応する音響(例えば関連情報Rを発音した音声)を放音する放音機器(例えばスピーカまたはヘッドホン)を提示装置38として利用することも可能である。
(2)前述の各形態では、管理装置20が音声解析部62と文字列特定部64と情報生成部66とを具備する構成を例示したが、管理装置20の一部または全部の機能を音声案内システム10に搭載することも可能である。例えば、第1実施形態から第3実施形態の構成を基礎として、音声解析部62と文字列特定部64と情報生成部66とを配信端末12に搭載した構成では、音響信号SGの解析(音声解析部62)と、文字列Xの特定(文字列特定部64)と、配信情報Qの生成(情報生成部66)とが配信端末12にて実行され、配信情報Qが放音装置18から端末装置30に送信される。以上の構成では、音声案内システム10と管理装置20との間の通信が不要であるから、通信網300を利用した通信ができない環境でも配信情報Qを端末装置30に提供できるという利点がある。他方、第4実施形態の構成を基礎として、音声解析部62と文字列特定部64と情報生成部66とを配信端末12に搭載した構成では、音響信号SGの解析と文字列Xの特定と関連情報Rの生成(情報生成部66)とが配信端末12にて実行され、関連情報Rが放音装置18(または表示装置等の他の出力装置)から利用者UAに送信される。
(3)第1実施形態では、1個の登録文字列Xが1個の挿入区間Bを包含する場合を便宜的に例示したが、1個の登録文字列Xに複数の挿入区間Bを包含させることも可能である。案内テーブルTAには、登録文字列Xの複数の挿入区間Bの各々について、当該挿入区間Bに挿入され得る複数の挿入句Yが登録される。具体的には、電車の異常停止を利用者UAに通知する登録文字列Xとして「ただいま[ ]のため、電車が停止しております。誠に申し訳ありませんが、[ ]下さい」という文字列が想定される。前者の挿入区間Bについては、第1実施形態の例示と同様に、異常停止の原因を表現する「車輌点検」「信号故障」および「線路立入」等の複数の挿入句Yが登録される。他方、後者の挿入区間Bについては、乗客の対応を表現する「運転再開をお待ち」および「振替輸送をご利用」等の複数の挿入句Yが登録される。
(4)第1実施形態では、各登録文字列Xが挿入区間Bを含む場合を便宜的に例示したが、挿入区間Bを含む登録文字列Xと挿入区間Bを含まない登録文字列Xとの双方を案内テーブルTAに登録することも可能である。挿入区間Bを含む登録文字列Xを文字列特定部64が特定した場合には第1実施形態と同様の処理が実行される一方、挿入区間Bを含まない登録文字列Xを文字列特定部64が特定した場合には、挿入句Yの探索(第2処理S52)が実行されることなく、当該登録文字列Xまたは当該登録文字列Xに対応する補正文字列Zの提示を指示する配信情報Qを情報生成部66が生成する。
(5)第1実施形態から第3実施形態では、案内音声Gの放音後に配信情報Qの音響を放音装置18から放音したが、案内音声Gを他言語に翻訳した文字列を発音した案内音声Gの放音に並行して放音装置18から配信情報Qの音響を放音する(すなわち配信情報Qを端末装置30に送信する)ことも可能である。例えば、音声解析部62が特定した入力文字列Lまたは文字列特定部64が特定した登録文字列X(さらに挿入句Y)が公知の機械翻訳で他言語に翻訳され、翻訳後の文字列に対する音声合成で生成された音声が配信情報Qの音響成分と混合されたうえで放音装置18から放音される。例えば、案内音声Gを表す音響信号SGが、音声案内システム10(例えば配信端末12)に一時的に保持される。そして、管理装置20による配信情報Qの生成後に、案内音声Gの発音区間に時間的に重複するように、保持された音響信号SGに対して配信情報Qの音響成分が混合される。すなわち、案内音声Gの放音が配信情報Qの生成の完了まで待機される。以上の構成により、配信情報Qの音響を案内音声Gに並行して放音することが可能である。
(6)案内音声Gのうち登録文字列Xの挿入区間Bに対応する区間に複数の挿入句Yが発音される可能性がある。例えば、図3の登録文字列X1に対応する案内音声Gとして、案内者UBが「ただいま車輌点検および信号故障のため、電車が停止しております。誠に申し訳ありませんが、運転再開をお待ち下さい」というような案内音声Gが発音された場合、第2処理S52により複数の挿入句Yが特定される。以上の状況では、第1処理S51で特定された登録文字列Xの1個の挿入区間Bに複数の挿入句Yを挿入した文字列を指示する配信情報Qを情報生成部66が生成する。
ただし、各登録文字列Xの挿入区間Bに挿入され得る複数の挿入句Yについて優先度を事前に設定し、第2処理S52で特定された複数の挿入句Yから優先度に応じた1個の挿入句Y(例えば優先度が最大である挿入句Y)を選択することも可能である。優先度に応じて選択した挿入句Yを登録文字列Yに挿入した文字列を関連情報Rとして指示する配信情報Qが情報生成部66により生成される。また、第2処理S52で複数の挿入句Yが特定された場合(1個の挿入句Yを特定できない場合)には登録文字列Xに対する挿入句Yの挿入を省略する(複数の挿入句Yの何れも登録文字列Xに挿入しない)ことも可能である。
また、交通機関等の案内対象の現在の状況を示す情報(以下「状況情報」という)を挿入句Yの特定に利用することも可能である。例えば、車輌200の位置を示す位置情報を文字列特定部64が取得し、複数の挿入句Yのうち位置情報が示す地点の周囲に位置する場所の名称のみを候補として、入力文字列Lに対応する挿入句Yを特定することも可能である。また、電車およびバス等の運行予定(ダイヤ)を参照して、文字列特定部64が複数の挿入句Yの何れかを特定することも可能である。
(7)第1実施形態から第3実施形態では、関連情報Rを含む案内テーブルTBを端末装置30の記憶装置36が記憶したが、案内テーブルTBを保持する位置は以上の例示に限定されない。例えば、通信網を介して端末装置30と通信する配信サーバ装置に案内テーブルTBを記憶することも可能である。端末装置30は、配信情報Qに含まれる識別情報を指定した情報要求を配信サーバ装置に送信し、配信サーバ装置は、情報要求で指定された識別情報(識別情報DR)に対応する関連情報Rを要求元の端末装置30に送信する。端末装置30の提示装置38は、配信サーバ装置から受信した関連情報Rを利用者UAに提示する。以上の説明から理解される通り、端末装置30に関連情報Rを保持する構成は必須ではない。なお、配信サーバ装置または情報管理システム100(例えば音声案内システム10)等の外部装置から事前に案内テーブルTBを端末装置30に配信することも可能である。
(8)第1実施形態から第3実施形態では、音響を伝送媒体とする音響通信で配信情報Qを端末装置30に送信したが、端末装置30に配信情報Qを送信するための通信方式は以上の例示に限定されない。例えば、電波および赤外線等の電磁波を伝送媒体とした無線通信で音声案内システム10から端末装置30に配信情報Qを送信することも可能である。以上の例示から理解される通り、配信情報Qの送信には、通信網300が介在しない近距離無線通信が好適であり、音響を伝送媒体とする音響通信または電磁波を伝送媒体とする無線通信は近距離無線通信の例示である。ただし、配信情報Qの送信方式は近距離無線通信に限定されない。例えば、情報提供先として事前に登録された端末装置30に対して管理装置30から通信網300を介して配信情報Qを送信(すなわちプッシュ配信)することも可能である。
(9)第1実施形態から第3実施形態では、文字列の識別情報(登録文字列Xの識別情報DX,挿入句Yの識別情報DY,または補正文字列Zの識別情報DZ)を含む配信情報Qを情報生成部66が生成したが、当該文字列自体(登録文字列X,挿入句Y,補正文字列Z)を含む配信情報Qを情報生成部66が生成することも可能である。例えば、第1実施形態を想定すると、第2処理S52で挿入句Yが特定された場合には(S61:YES)、登録文字列Xの挿入区間Bに挿入句Yを挿入した文字列を含む配信情報Qが生成され(S62)、第2処理S52で挿入句Yが特定されない場合には(S61:NO)、補正文字列Zを含む配信情報Qが生成される(S63)。また、第2実施形態では、第2処理S52で挿入句Yが特定されない場合に、登録文字列Xのうち挿入区間Bを除去した文字列を含む配信情報Qが生成され(S63)、第3実施形態では、補正文字列Zを含む配信情報Qが生成される(SA2)。以上の例示のように文字列を含む配信情報Qが生成される構成では、端末装置30に案内テーブルTBを保持する必要がない。また、関連情報Rを音声として利用者UAに提示する構成では、音声自体を表す配信情報Qを生成することも可能である。
(10)前述の各形態では、案内音声Gに対する音声認識で入力文字列Lを生成したが、入力文字列Lの生成方法は以上の例示に限定されない。例えば、案内者UBがキーボード等の操作装置を使用して、案内音声Gに対応する入力文字列Lを入力することも可能である。案内者UBが入力した入力文字列Lに類似する登録文字列Xが複数の登録文字列Xから特定される。以上の構成によれば、例えば、入力文字列Lに入力ミスがある場合(すなわち入力文字列Lが登録文字列Xとは相違する場合)でも、案内者UBが意図した適切な関連情報Rを利用者UAに提示することが可能である。以上の例示から理解される通り、入力文字列Lにおける「入力」は、例えば、収音装置14を利用した音声による入力のほか、キーボード等の操作装置を利用した入力も包含する。したがって、入力文字列Lの特定にとって案内音声Gに対する音声認識は必須ではない。
(11)前述の各形態では、交通機関または商業施設における情報の提供に情報管理システム100を利用したが、情報管理システム100が利用される場面は以上の例示に限定されない。例えば、演劇が実演される劇場等の各種の娯楽施設において情報管理システム100を利用することも可能である。例えば、演劇内の台詞等を発音した案内音声Gの関連情報を利用者UAに提示するための配信情報Qを、情報管理システム100から端末装置30に送信することが可能である。
(12)以上の各態様に係る情報管理システム100は、前述の各形態の例示通り、制御装置22とプログラムとの協働で実現される。例えば、第1実施形態または第3実施形態に対応するプログラムは、案内音声Gに関連する関連情報Rを利用者UAに提示する端末装置30に対して当該関連情報Rを指示するための配信情報Qを生成するためのプログラムであり、相異なる複数の登録文字列Xのうち案内音声Gに対する音声認識で特定された入力文字列Lに類似する登録文字列Xを特定する文字列特定部64、および、文字列特定部64が特定した登録文字列Xとは部分的に相違する補正文字列Zを関連情報Rとして端末装置30に指示する配信情報Qを生成する情報生成部66としてコンピュータを機能させる。また、第4実施形態に対応するプログラムは、入力文字列Lに類似する登録文字列Xを特定する文字列特定部64、および、文字列特定部64が特定した登録文字列Xとは部分的に相違する補正文字列Zに対応する関連情報Rを生成する情報生成部66としてコンピュータを機能させる。以上に例示したプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体および磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、通信網を介した配信の形態でプログラムをコンピュータに提供することも可能である。
(13)以上に例示した各形態から、本発明の好適な態様が以下のように把握される。
<態様1>
本発明の好適な態様(態様1)に係る情報管理システムは、案内音声に関連する関連情報を利用者に提示する端末装置に対して当該関連情報を指示するための配信情報を生成するシステムであって、相異なる複数の登録文字列のうち前記案内音声を表す入力文字列に類似する登録文字列を特定する文字列特定部と、前記文字列特定部が特定した登録文字列とは部分的に相違する補正文字列に対応する前記関連情報を前記端末装置に指示する配信情報を生成する情報生成部とを具備する。態様1では、案内音声を表す入力文字列に類似する登録文字列が複数の登録文字列から特定される。したがって、例えば案内音声に対する音声認識で解析された入力文字列または案内者が入力した入力文字列を関連情報として端末装置の利用者に提示する構成と比較して、適切な関連情報を利用者に提示することが可能である。また、文字列特定部が特定した登録文字列とは部分的に相違する補正文字列に対応する関連情報を端末装置に指示する配信情報が生成されるから、案内音声に想定される発音内容の登録文字列を入力文字列との対比に利用する一方で、端末装置の利用者には、登録文字列とは部分的に相違する関連情報を提示できるという利点がある。例えば、案内音声のうち端末装置から利用者に提示することが適当でない事項(例えば個人情報)を除去した関連情報、または、案内音声のうち正確な音声認識が困難である箇所を修正した適切な関連情報を利用者に提示することが可能である。なお、前述の第1実施形態および第3実施形態は、態様1の具体例に相当する。
<態様2>
態様1の好適例(態様2)において、前記登録文字列は、複数の挿入句が選択的に挿入される挿入区間を包含し、前記文字列特定部は、前記複数の登録文字列のうち前記入力文字列に類似する登録文字列を特定する第1処理と、当該登録文字列の前記複数の挿入句のうち前記入力文字列に対応する挿入句を探索する第2処理とを実行し、前記情報生成部は、前記入力文字列に対応する挿入句が前記第2処理で特定された場合に、前記第1処理で特定した登録文字列の挿入区間に前記第2処理で特定された挿入句を挿入した文字列に対応する前記関連情報を指示する配信情報を生成する一方、前記入力文字列に対応する挿入句が前記第2処理で特定されない場合に、前記第1処理で特定した登録文字列とは部分的に相違する前記補正文字列に対応する前記関連情報を指示する配信情報を生成する。態様2では、入力文字列に対応する挿入句が第2処理で特定された場合に、登録文字列の挿入区間に当該挿入句を挿入した文字列に対応する関連情報を指示する配信情報が生成される一方、入力文字列に対応する挿入句が第2処理で特定されない場合に、登録文字列とは部分的に相違する補正文字列に対応する関連情報を指示する配信情報が生成される。したがって、例えば案内音声の発音の過誤(例えば事前に想定される挿入句以外の語句が発音された場合)、または案内音声の音声認識における誤認識が発生した場合でも、不適切な語句を含む関連情報が利用者に提示される可能性を低減することが可能である。前述の第1実施形態は、態様2の具体例に相当する。
<態様3>
態様1の好適例(態様3)において、前記情報生成部は、前記文字列特定部が特定した登録文字列を部分的に削除した前記補正文字列に対応する前記関連情報を指示する配信情報を生成する。態様3では、登録文字列を部分的に削除した補正文字列に対応する関連情報を端末装置に指示する配信情報が生成される。したがって、例えば案内音声のうち端末装置から利用者に提示することが適当でない情報(例えば個人情報)を削除した関連情報を端末装置から利用者に提示することが可能である。なお、前述の第3実施形態は、態様3の具体例に相当する。
<態様4>
本発明の好適な態様(態様4)に係る情報管理システムは、案内音声に関連する関連情報を利用者に提示する端末装置に対して当該関連情報を指示するための配信情報を生成するシステムであって、相異なる複数の登録文字列のうち前記案内音声を表す入力文字列に類似する登録文字列を特定する文字列特定部と、前記文字列特定部が特定した登録文字列を前記端末装置に指示する配信情報を生成する情報生成部とを具備し、前記登録文字列は、複数の挿入句が選択的に挿入される挿入区間を包含し、前記文字列特定部は、前記複数の登録文字列のうち前記入力文字列に類似する登録文字列を特定する第1処理と、前記複数の挿入句のうち前記入力文字列に対応する挿入句を探索する第2処理とを実行し、前記情報生成部は、前記入力文字列に対応する挿入句が前記第2処理で特定された場合に、前記第1処理で特定した登録文字列の挿入区間に前記第2処理で特定された挿入句を挿入した文字列に対応する前記関連情報を指示する配信情報を生成する一方、前記入力文字列に対応する挿入句が前記第2処理で特定されない場合に、前記登録文字列のうち前記挿入区間を除去した文字列に対応する前記関連情報を指示する配信情報を生成する。態様4では、案内音声を表す入力文字列に類似する登録文字列が複数の登録文字列から特定される。したがって、例えば案内音声に対する音声認識で特定された入力文字列または案内者が入力した入力文字列を関連情報として端末装置の利用者に提示する構成と比較して、適切な関連情報を利用者に提示することが可能である。また、入力文字列に対応する挿入句が第2処理で特定された場合に、登録文字列の挿入区間に当該挿入句を挿入した文字列に対応する関連情報を指示する配信情報が生成される一方、入力文字列に対応する挿入句が第2処理で特定されない場合に、登録文字列のうち挿入区間を除去した文字列に対応する関連情報を指示する配信情報が生成される。したがって、例えば案内音声の発音の過誤(例えば事前に想定される挿入句以外の語句が発音された場合)、または案内音声の音声認識における誤認識が発生した場合でも、不適切な語句を含む関連情報が利用者に提示される可能性を低減することが可能である。なお、前述の第2実施形態は、態様4の具体例に相当する。
<態様5>
態様1から態様4の何れかの好適例(態様5)に係る情報管理システムは、前記案内音声を放音するとともに、前記配信情報を含む音響の放音により当該配信情報を前記端末装置に送信する放音部を具備する。態様5では、案内音声を放音する放音部が、配信情報の音響の放音(すなわち空気振動たる音響を伝送媒体とする音響通信)に流用される。したがって、案内音声の放音に使用する放音部とは別個の機器で配信情報を端末装置に送信する構成と比較して、情報管理システムの構成を簡素化することが可能である。
<態様6>
本発明の好適な態様(態様6)に係る情報管理システムは、案内音声に関連する関連情報を生成するシステムであって、相異なる複数の登録文字列のうち前記案内音声を表す入力文字列に類似する登録文字列を特定する文字列特定部と、前記文字列特定部が特定した登録文字列とは部分的に相違する補正文字列に対応する前記関連情報を生成する情報生成部とを具備する。態様4では、案内音声を表す入力文字列に類似する登録文字列が複数の登録文字列から特定される。したがって、例えば案内音声に対する音声認識で特定された入力文字列または案内者が入力した入力文字列を関連情報として端末装置の利用者に提示する構成と比較して、適切な関連情報を利用者に提示することが可能である。また、文字列特定部が特定した登録文字列とは部分的に相違する補正文字列に対応する関連情報(例えば補正文字列の翻訳文)が生成されるから、案内音声に想定される発音内容の登録文字列を入力文字列との対比に利用する一方で、登録文字列とは部分的に相違する関連情報を利用者に提示できるという利点がある。なお、前述の第4実施形態は、態様6の具体例に相当する。
<態様7>
態様1から態様6の何れかの好適例(態様7)において、前記文字列特定部は、前記複数の登録文字列のうち前記案内音声に対する音声認識で特定された前記入力文字列に類似する登録文字列を特定する。態様7では、案内音声に対する音声認識で入力文字列が特定されるから、案内者が手動で入力文字列を入力する必要がないという利点がある。
<態様8>
本発明の好適な態様(態様8)に係る情報管理方法は、案内音声に関連する関連情報を利用者に提示する端末装置に対して当該関連情報を指示するための配信情報を生成する方法であって、相異なる複数の登録文字列のうち前記案内音声を表す入力文字列入力文字列に類似する登録文字列を特定し、前記特定した登録文字列とは部分的に相違する補正文字列に対応する前記関連情報を前記端末装置に指示する配信情報を生成する。態様8によれば、態様1に係る情報管理システムと同様の効果が実現される。
<態様9>
本発明の好適な態様(態様9)に係る情報管理方法は、案内音声に関連する関連情報を利用者に提示する端末装置に対して当該関連情報を指示するための配信情報を生成する方法であって、相異なる複数の登録文字列のうち前記案内音声を表す入力文字列に類似する登録文字列を特定し、前記特定した登録文字列を前記端末装置に指示する配信情報を生成する一方、前記登録文字列は、複数の挿入句が選択的に挿入される挿入区間を包含し、前記登録文字列の特定においては、前記複数の登録文字列のうち前記入力文字列に類似する登録文字列を特定する第1処理と、前記複数の挿入句のうち前記入力文字列に対応する挿入句を探索する第2処理とを実行し、前記配信情報の生成においては、前記入力文字列に対応する挿入句が前記第2処理で特定された場合に、前記第1処理で特定した登録文字列の挿入区間に前記第2処理で特定された挿入句を挿入した文字列に対応する前記関連情報を指示する配信情報を生成する一方、前記入力文字列に対応する挿入句が前記第2処理で特定されない場合に、前記登録文字列のうち前記挿入区間を除去した文字列に対応する前記関連情報を指示する配信情報を生成する。態様9によれば、態様4に係る情報管理システムと同様の効果が実現される。
<態様10>
本発明の好適な態様(態様10)に係る情報管理方法は、案内音声に関連する関連情報を生成する方法であって、相異なる複数の登録文字列のうち前記案内音声を表す入力文字列に類似する登録文字列を特定し、前記特定した登録文字列とは部分的に相違する補正文字列に対応する前記関連情報を生成する。態様10によれば、態様6に係る情報管理システムと同様の効果が実現される。
100……情報管理システム、200……車輌、300……通信網、10……音声案内システム、12……配信端末、122……制御装置、124……通信装置、14……収音装置、16……音響装置、18……放音装置、20……管理装置、22……制御装置、24……記憶装置、26……通信装置、30……端末装置、32……収音装置、34……制御装置、36……記憶装置、38……提示装置、52……音声取得部、54……信号処理部、62……音声解析部、64……文字列特定部、66……情報生成部、72……情報抽出部、74……提示制御部。

Claims (4)

  1. 案内音声に関連する関連情報を生成するシステムであって、
    相異なる複数の登録文字列のうち前記案内音声を表す入力文字列に類似する登録文字列を特定する文字列特定部と、
    前記文字列特定部が特定した登録文字列を部分的に削除した補正文字列に対応する前記関連情報を生成する情報生成部と
    を具備する情報管理システム。
  2. 案内音声に関連する関連情報を生成するシステムであって、
    相異なる複数の登録文字列のうち前記案内音声を表す入力文字列に類似する登録文字列を特定する文字列特定部と、
    前記文字列特定部が特定した登録文字列のうち複数の挿入句が選択的に挿入される挿入区間を除去した文字列に対応する前記関連情報を生成する情報生成部と
    を具備する情報管理システム。
  3. 案内音声に関連する関連情報を生成する方法であって、
    相異なる複数の登録文字列のうち前記案内音声を表す入力文字列に類似する登録文字列を特定し、
    前記特定した登録文字列を部分的に削除した補正文字列に対応する前記関連情報を生成する
    情報管理方法。
  4. 案内音声に関連する関連情報を生成する方法であって、
    相異なる複数の登録文字列のうち前記案内音声を表す入力文字列に類似する登録文字列を特定し、
    前記特定した登録文字列のうち複数の挿入句が選択的に挿入される挿入区間を除去した文字列に対応する前記関連情報を生成する
    情報管理方法。
JP2017105418A 2015-10-15 2017-05-29 情報管理システムおよび情報管理方法 Active JP6729494B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015203863 2015-10-15
JP2015203863 2015-10-15

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2017503964A Division JP6160794B1 (ja) 2015-10-15 2016-10-14 情報管理システムおよび情報管理方法

Publications (2)

Publication Number Publication Date
JP2017161937A JP2017161937A (ja) 2017-09-14
JP6729494B2 true JP6729494B2 (ja) 2020-07-22

Family

ID=58517283

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2017503964A Active JP6160794B1 (ja) 2015-10-15 2016-10-14 情報管理システムおよび情報管理方法
JP2017105418A Active JP6729494B2 (ja) 2015-10-15 2017-05-29 情報管理システムおよび情報管理方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2017503964A Active JP6160794B1 (ja) 2015-10-15 2016-10-14 情報管理システムおよび情報管理方法

Country Status (5)

Country Link
US (1) US20180225283A1 (ja)
EP (1) EP3364409A4 (ja)
JP (2) JP6160794B1 (ja)
CN (1) CN108140384A (ja)
WO (1) WO2017065266A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6630139B2 (ja) * 2015-12-07 2020-01-15 東日本旅客鉄道株式会社 テキストデータ加工装置、文字化放送表示システム及び文字化放送表示プログラム
KR102580904B1 (ko) * 2016-09-26 2023-09-20 삼성전자주식회사 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스
JP6927942B2 (ja) * 2018-10-23 2021-09-01 Toa株式会社 放送装置、放送システム、及びコンピュータプログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040085162A1 (en) * 2000-11-29 2004-05-06 Rajeev Agarwal Method and apparatus for providing a mixed-initiative dialog between a user and a machine
DE602004018290D1 (de) * 2003-03-26 2009-01-22 Philips Intellectual Property Spracherkennungs- und korrektursystem, korrekturvorrichtung und verfahren zur erstellung eines lexikons von alternativen
US7331036B1 (en) * 2003-05-02 2008-02-12 Intervoice Limited Partnership System and method to graphically facilitate speech enabled user interfaces
JP2008185805A (ja) * 2007-01-30 2008-08-14 Internatl Business Mach Corp <Ibm> 高品質の合成音声を生成する技術
KR101462932B1 (ko) * 2008-05-28 2014-12-04 엘지전자 주식회사 이동 단말기 및 그의 텍스트 수정방법
DE102009052675A1 (de) * 2009-11-12 2011-05-19 Deutsche Telekom Ag Verfahren zur Verteilung von Informationen an mobile Endgeräte
JP2012063611A (ja) * 2010-09-16 2012-03-29 Nec Corp 音声認識結果検索装置、音声認識結果検索方法および音声認識結果検索プログラム
JP5644359B2 (ja) * 2010-10-21 2014-12-24 ヤマハ株式会社 音声処理装置
US9201859B2 (en) * 2011-12-15 2015-12-01 Microsoft Technology Licensing, Llc Suggesting intent frame(s) for user request(s)
JP2014075067A (ja) * 2012-10-05 2014-04-24 Zenrin Datacom Co Ltd 交通機関案内メッセージ提供システム、交通機関案内メッセージ提供装置、携帯通信端末および交通機関案内メッセージ提供方法
WO2014194299A1 (en) * 2013-05-30 2014-12-04 Promptu Systems Corporation Systems and methods for adaptive proper name entity recognition and understanding
US10176167B2 (en) * 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10296160B2 (en) * 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
JP6114249B2 (ja) * 2014-11-20 2017-04-12 ヤマハ株式会社 情報送信装置および情報送信方法
JP6033927B1 (ja) * 2015-06-24 2016-11-30 ヤマハ株式会社 情報提供システムおよび情報提供方法

Also Published As

Publication number Publication date
US20180225283A1 (en) 2018-08-09
CN108140384A (zh) 2018-06-08
WO2017065266A1 (ja) 2017-04-20
EP3364409A1 (en) 2018-08-22
EP3364409A4 (en) 2019-07-10
JP6160794B1 (ja) 2017-07-12
JPWO2017065266A1 (ja) 2017-10-19
JP2017161937A (ja) 2017-09-14

Similar Documents

Publication Publication Date Title
JP6033927B1 (ja) 情報提供システムおよび情報提供方法
AU2015297648B2 (en) Terminal device, information providing system, information presentation method, and information providing method
EP3176783B1 (en) Information management system and information management method
CN106797257B (zh) 音频处理设备和提供信息的方法
JP6729494B2 (ja) 情報管理システムおよび情報管理方法
JP6569252B2 (ja) 情報提供システム、情報提供方法およびプログラム
JP2020190756A (ja) 管理装置およびプログラム
JP6971557B2 (ja) 管理装置およびプログラム
JP6772468B2 (ja) 管理装置、情報処理装置、情報提供システム、言語情報の管理方法、情報提供方法、および情報処理装置の動作方法
JP6984769B2 (ja) 情報提供方法および情報提供システム
JP6597156B2 (ja) 情報生成システム
JP6834634B2 (ja) 情報提供方法および情報提供システム
JP7192948B2 (ja) 情報提供方法、情報提供システムおよびプログラム
JP2017204123A (ja) 端末装置
WO2017179461A1 (ja) 情報生成システム、情報提供方法および情報配信方法
JP2020064262A (ja) 情報処理方法および情報処理システム
JP2018181001A (ja) 情報提供方法および情報提供システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190823

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200424

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200615

R151 Written notification of patent or utility model registration

Ref document number: 6729494

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151