JP7200597B2 - Information processing method and information processing system - Google Patents

Information processing method and information processing system Download PDF

Info

Publication number
JP7200597B2
JP7200597B2 JP2018197793A JP2018197793A JP7200597B2 JP 7200597 B2 JP7200597 B2 JP 7200597B2 JP 2018197793 A JP2018197793 A JP 2018197793A JP 2018197793 A JP2018197793 A JP 2018197793A JP 7200597 B2 JP7200597 B2 JP 7200597B2
Authority
JP
Japan
Prior art keywords
sound
information
identification information
character string
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018197793A
Other languages
Japanese (ja)
Other versions
JP2020064262A (en
Inventor
優樹 瀬戸
翔太 森口
貴裕 岩田
陽 前澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2018197793A priority Critical patent/JP7200597B2/en
Publication of JP2020064262A publication Critical patent/JP2020064262A/en
Application granted granted Critical
Publication of JP7200597B2 publication Critical patent/JP7200597B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、各種の情報を処理する技術に関する。 The present invention relates to technology for processing various types of information.

例えば交通機関や商業施設等の各種の施設において、当該施設の案内音声の内容を表す情報を端末装置に提供する技術が従来から提案されている。例えば特許文献1には、交通機関の管理者による操作に応じた識別情報を音響通信により端末装置に送信する構成が開示されている。端末装置は、音響通信により受信した識別情報に対応する案内情報を表示する。 For example, in various facilities such as transportation facilities and commercial facilities, there has been conventionally proposed a technique for providing a terminal device with information representing the content of the guidance voice of the facility. For example, Patent Literature 1 discloses a configuration in which identification information according to an operation by an administrator of a transportation system is transmitted to a terminal device by acoustic communication. The terminal device displays guidance information corresponding to the identification information received by acoustic communication.

特開2016-157412号公報JP 2016-157412 A

演劇または能楽等の実演に並行して当該実演に関する情報を観客に提供する場面に前述の技術を適用することが想定される。しかし、例えば実演の運営者が、実演の進行に並行して識別情報を手動で逐次的に指示する作業の負荷が過大であるという問題がある。なお、以上の説明では、実演の進行に並行して観客に情報を提供する場面を想定したが、例えば実演の進行に並行して、識別情報に対応する各種の動作を実行する場面でも同様の問題が想定される。以上の事情を考慮して、実演の進行に並行して識別情報を逐次的に指示する作業の負荷を軽減することを目的とする。 It is envisioned that the above-described technology will be applied to situations in which information about the performance is provided to the audience in parallel with the performance of a play or Noh play. However, there is a problem that, for example, the operator of the demonstration is overloaded with the work of sequentially instructing the identification information manually in parallel with the progress of the demonstration. In the above explanation, it is assumed that information is provided to the audience in parallel with the progress of the demonstration. A problem is expected. In consideration of the above circumstances, it is an object of the present invention to reduce the work load of sequentially specifying identification information in parallel with the progress of a demonstration.

以上の課題を解決するために、本発明の好適な態様に係る情報提供方法は、収音装置により実演を収音した観測音と前記実演での発音が予定される参照音との照合により、前記参照音に対する前記観測音の時間軸上の位置である実演位置を推定し、前記参照音と複数の識別情報との時間的な対応を表す登録データを参照することで、前記複数の識別情報のうち前記実演位置に時間的に対応する識別情報を特定する。 In order to solve the above problems, an information provision method according to a preferred aspect of the present invention compares an observed sound collected by a sound collecting device with a reference sound expected to be pronounced in the demonstration, estimating a performance position, which is a position on the time axis of the observed sound with respect to the reference sound, and referring to registered data representing temporal correspondence between the reference sound and the plurality of identification information, thereby obtaining the plurality of identification information; identification information temporally corresponding to the performance position.

本発明の好適な態様に係る情報処理システムは、収音装置により実演を収音した観測音と前記実演での発音が予定される参照音との照合により、前記参照音に対する前記観測音の時間軸上の位置である実演位置を推定する位置推定部と、前記参照音と複数の識別情報との時間的な対応を表す登録データを参照することで、前記複数の識別情報のうち前記実演位置に時間的に対応する識別情報を特定する情報特定部とを具備する。 An information processing system according to a preferred aspect of the present invention compares an observation sound collected from a performance by a sound collecting device with a reference sound expected to be pronounced in the performance, and determines the time of the observation sound with respect to the reference sound. A position estimating unit for estimating a performance position, which is a position on an axis, and registration data representing a temporal correspondence between the reference sound and a plurality of pieces of identification information, thereby determining the performance position among the plurality of pieces of identification information. and an information specifying unit that specifies identification information temporally corresponding to .

第1実施形態における情報提供システムの構成を例示するブロック図である。1 is a block diagram illustrating the configuration of an information providing system according to a first embodiment; FIG. 情報処理システムの構成を例示するブロック図である。1 is a block diagram illustrating the configuration of an information processing system; FIG. 情報処理システムの機能的な構成を例示するブロック図である。1 is a block diagram illustrating a functional configuration of an information processing system; FIG. 位置推定部が実演位置を推定する処理の具体的な手順を例示するフローチャートである。10 is a flowchart illustrating a specific procedure of processing for estimating a performance position by a position estimating unit; 端末装置の構成を例示するブロック図である。It is a block diagram which illustrates the structure of a terminal device. 情報処理システムおよび端末装置の動作の具体的な手順を例示するフローチャートである。4 is a flowchart illustrating specific procedures of operations of the information processing system and the terminal device; 第2実施形態における情報処理システムの機能的な構成を例示するブロック図である。FIG. 7 is a block diagram illustrating the functional configuration of an information processing system according to a second embodiment; FIG. 第2実施形態における位置推定部が実演位置を推定する処理の具体的な手順を例示するフローチャートである。10 is a flowchart illustrating a specific procedure of processing for estimating a performance position by a position estimating unit in the second embodiment; 第3実施形態に係る管理システムの構成を例示するブロック図である。FIG. 11 is a block diagram illustrating the configuration of a management system according to a third embodiment; FIG. 第4実施形態における情報処理システムの機能的な構成を例示するブロック図である。FIG. 12 is a block diagram illustrating a functional configuration of an information processing system according to a fourth embodiment; FIG. 第4実施形態において登録データを生成する処理の具体的な手順を例示するフローチャートである。FIG. 16 is a flowchart illustrating a specific procedure of processing for generating registration data in the fourth embodiment; FIG. 第5実施形態において登録データを生成する処理の具体的な手順を例示するフローチャートである。FIG. 14 is a flowchart illustrating a specific procedure of processing for generating registration data in the fifth embodiment; FIG.

<第1実施形態>
図1は、本発明の第1実施形態に係る情報提供システム100の構成を例示するブロック図である。情報提供システム100は、実演者Pによる実演を観覧する利用者(すなわち観客)Aに当該実演に関する情報(以下「関連情報」という)Cを提供するためのコンピュータシステムである。実演者Pは、例えば舞台等の施設において演劇または狂言等の演芸を実演する。具体的には、実演者Pは、事前に作成された台本に記載された複数の台詞の各々を順次に発音する。利用者Aは、端末装置30を携帯した状態で実演を観覧する。端末装置30は、例えば携帯電話機、スマートフォン、タブレット端末、またはパーソナルコンピュータ等の可搬型の情報端末である。施設に設置された案内用の表示端末を端末装置30として利用してもよい。なお、実際には複数の利用者Aが実演者Pによる実演を観覧するが、以下の説明では、1人の利用者Aの端末装置30に便宜的に着目する。
<First Embodiment>
FIG. 1 is a block diagram illustrating the configuration of an information providing system 100 according to the first embodiment of the invention. The information providing system 100 is a computer system for providing information (hereinafter referred to as “related information”) C regarding a performance by a performer P to a user (that is, an audience) A viewing the performance. A performer P performs a performance such as drama or Kyogen at a facility such as a stage. Specifically, the performer P sequentially pronounces each of a plurality of lines written in a script prepared in advance. User A watches the demonstration while carrying the terminal device 30 . The terminal device 30 is, for example, a portable information terminal such as a mobile phone, a smart phone, a tablet terminal, or a personal computer. A guidance display terminal installed in the facility may be used as the terminal device 30 . Note that although a plurality of users A actually view the performance by the performer P, the following description focuses on the terminal device 30 of one user A for the sake of convenience.

図1に例示される通り、情報提供システム100は、情報処理システム10と情報配信システム20とを具備する。情報処理システム10は、実演者Pによる実演に並行して識別情報Dを順次に送信するコンピュータシステムである。識別情報Dは、関連情報Cを識別するための符号である。第1実施形態の関連情報Cは、実演者Pが発音する台詞の内容を表す文字列(すなわち字幕)である。実演者Pによる実演に並行して、実演者Pが発音する台詞に対応する関連情報Cの識別情報Dが情報処理システム10から端末装置30に順次に送信される。識別情報Dは、実演者Pが発音する台詞を識別するための情報とも換言される。 As illustrated in FIG. 1 , the information providing system 100 includes an information processing system 10 and an information distribution system 20 . The information processing system 10 is a computer system that sequentially transmits the identification information D in parallel with the performance by the performer P. FIG. The identification information D is a code for identifying the related information C. FIG. The related information C of the first embodiment is a character string (that is, subtitles) representing the content of the lines pronounced by the performer P. In parallel with the performance by the performer P, the identification information D of the related information C corresponding to the lines pronounced by the performer P are sequentially transmitted from the information processing system 10 to the terminal device 30 . The identification information D can also be rephrased as information for identifying the lines pronounced by the performer P.

情報配信システム20は、移動体通信網またはインターネット等を含む通信網40を介して端末装置30と通信可能である。情報配信システム20は、端末装置30が情報処理システム10から受信した識別情報Dに対応する関連情報Cを当該端末装置30に送信する。以上の説明から理解される通り、実演者Pによる実演に並行して、実演者Pが発音する台詞の内容を表す関連情報Cが端末装置30に順次に提供される。 The information distribution system 20 can communicate with the terminal device 30 via a communication network 40 including a mobile communication network or the Internet. The information distribution system 20 transmits related information C corresponding to the identification information D received by the terminal device 30 from the information processing system 10 to the terminal device 30 . As can be understood from the above description, in parallel with the performance by the performer P, the terminal device 30 is sequentially provided with the related information C representing the content of the lines uttered by the performer P.

<情報処理システム10>
図2は、情報処理システム10の構成を例示するブロック図である。図2に例示される通り、第1実施形態の情報処理システム10は、収音装置13と制御装置11と記憶装置12と放音装置14とを具備する。なお、情報処理システム10は、単体の装置で実現されてもよいし、相互に別体で構成された複数の装置で実現されてもよい。
<Information processing system 10>
FIG. 2 is a block diagram illustrating the configuration of the information processing system 10. As shown in FIG. As illustrated in FIG. 2, the information processing system 10 of the first embodiment includes a sound collecting device 13, a control device 11, a storage device 12, and a sound emitting device . The information processing system 10 may be realized by a single device, or may be realized by a plurality of devices configured separately from each other.

収音装置13は、例えば舞台上の音響を収音するマイクロホンである。第1実施形態の収音装置13は、実演者Pが舞台上で発音した音声(以下「観測音」という)を収音し、当該観測音の波形を表す音響信号Xを生成する。すなわち、観測音は、収音装置13により実演を収音した音響である。なお、収音装置13が生成した音響信号Xをアナログからデジタルに変換するA/D変換器の図示は便宜的に省略した。放音装置14は、制御装置11が生成した音響信号Yに応じた音響を再生するスピーカである。なお、音響信号Yをデジタルからアナログに変換するD/A変換器の図示は便宜的に省略した。 The sound pickup device 13 is, for example, a microphone that picks up sound on the stage. The sound pickup device 13 of the first embodiment picks up a sound (hereinafter referred to as an "observation sound") pronounced by the performer P on the stage, and generates an acoustic signal X representing the waveform of the observation sound. That is, the observed sound is the sound of the performance collected by the sound collection device 13 . For the sake of convenience, an A/D converter that converts the acoustic signal X generated by the sound collecting device 13 from analog to digital is omitted. The sound emitting device 14 is a speaker that reproduces sound according to the acoustic signal Y generated by the control device 11 . A D/A converter for converting the acoustic signal Y from digital to analog is omitted from the drawing for the sake of convenience.

制御装置11は、例えばCPU(Central Processing Unit)等の処理回路で構成され、情報処理システム10の各要素を統括的に制御する。記憶装置12は、制御装置11が実行するプログラムと制御装置11が使用する各種のデータとを記憶する。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置12として任意に採用される。なお、情報処理システム10に対して着脱可能な可搬型の記録媒体、または情報処理システム10が通信可能な外部記録媒体(例えばオンラインストレージ)を、記憶装置12として利用してもよい。すなわち、記憶装置12は情報処理システム10から省略され得る。 The control device 11 is composed of a processing circuit such as a CPU (Central Processing Unit), for example, and controls each element of the information processing system 10 in an integrated manner. The storage device 12 stores programs executed by the control device 11 and various data used by the control device 11 . For example, a known recording medium such as a semiconductor recording medium and a magnetic recording medium, or a combination of multiple types of recording media may be arbitrarily adopted as the storage device 12 . A portable recording medium that can be attached to and detached from the information processing system 10 or an external recording medium (for example, an online storage) with which the information processing system 10 can communicate may be used as the storage device 12 . That is, storage device 12 may be omitted from information processing system 10 .

図3は、情報処理システム10の機能的な構成を例示するブロック図である。図3に例示される通り、第1実施形態の記憶装置12は、実演者Pによる発音が予定された音声(以下「参照音」という)の特徴量Frefの時系列を記憶する。参照音は、例えば台本に記載された各台詞を発音した音声である。特徴量Frefは、参照音の音響的な特徴を表す物理量である。例えば参照音から抽出されたMFCC(Mel-Frequency Cepstrum Coefficients)等の情報が特徴量Frefとして記憶装置12に記憶される。 FIG. 3 is a block diagram illustrating the functional configuration of the information processing system 10. As shown in FIG. As illustrated in FIG. 3, the storage device 12 of the first embodiment stores a time series of feature amounts Fref of sounds scheduled to be pronounced by the performer P (hereinafter referred to as "reference sounds"). A reference sound is, for example, a sound produced by pronouncing each line written in a script. The feature quantity Fref is a physical quantity representing acoustic features of the reference sound. For example, information such as MFCC (Mel-Frequency Cepstrum Coefficients) extracted from the reference sound is stored in the storage device 12 as the feature amount Fref.

図3に例示される通り、参照音を表す音響信号Vに対する解析処理により特徴量Frefが事前に抽出されて記憶装置12に記憶される。具体的には、音響信号Vを時間軸上で区分した複数の解析期間の各々について特徴量Frefが抽出される。参照音の音響信号Vは、実演者Pによる実演で発音される予定の文字列(例えば台本に記載された台詞等の後述の登録文字列W)に対する音声合成により生成される。音響信号Vの音声合成には公知の技術が任意に採用される。例えば、複数の音声素片の接続により音響信号Vを生成する素片接続型の音声合成、または、HMM(Hidden Markov Model)等の統計モデルを利用して音響信号Vを生成する統計モデル型の音声合成が、音響信号Vの生成に利用される。以上の構成によれば、実演での発音が予定される文字列から参照音(音響信号V)を簡便に用意できるという利点がある。 As exemplified in FIG. 3, the feature quantity Fref is extracted in advance by analysis processing for the acoustic signal V representing the reference sound and stored in the storage device 12 . Specifically, the feature amount Fref is extracted for each of a plurality of analysis periods obtained by dividing the acoustic signal V on the time axis. The acoustic signal V of the reference sound is generated by speech synthesis of a character string to be pronounced in the demonstration by the performer P (for example, a registered character string W such as lines written in a script, which will be described later). A known technique is arbitrarily adopted for speech synthesis of the acoustic signal V. FIG. For example, unit-connected speech synthesis that generates an acoustic signal V by connecting multiple speech units, or statistical model-type speech synthesis that generates an acoustic signal V using a statistical model such as HMM (Hidden Markov Model). Speech synthesis is used to generate the acoustic signal V. FIG. According to the above configuration, there is an advantage that the reference sound (acoustic signal V) can be easily prepared from the character string that is expected to be pronounced in the demonstration.

第1実施形態の記憶装置12は登録データQを記憶する。登録データQは、参照音と複数の識別情報Dとの時間的な対応を表すデータである。図3に例示される通り、登録データQは、参照音を時間軸上で区分した複数の単位期間U(U1,U2,…)の各々について識別情報D(D1,D2,…)を指定する。各単位期間Uは、例えば参照音における各台詞の発話期間である。登録データQには、各単位期間Uの始点および終点の時刻(例えば参照音の先頭を基準とした時刻)が登録されている。各台詞が発音される単位期間Uには、当該台詞に対応する関連情報Cの識別情報Dが対応付けられる。前述の特徴量Frefが抽出される解析期間は、単位期間Uと比較して充分に短い時間長に設定される。 The storage device 12 of the first embodiment stores registration data Q. FIG. The registered data Q is data representing the temporal correspondence between the reference sound and the plurality of pieces of identification information D. FIG. As exemplified in FIG. 3, the registration data Q specifies identification information D (D1, D2, . . . ) for each of a plurality of unit periods U (U1, U2, . . Each unit period U is, for example, an utterance period of each line in the reference sound. In the registered data Q, the time of the start point and the end point of each unit period U (for example, the time based on the beginning of the reference sound) is registered. A unit period U in which each line is pronounced is associated with identification information D of related information C corresponding to the line. The analysis period during which the aforementioned feature amount Fref is extracted is set to a sufficiently short time length compared to the unit period U.

図3に例示される通り、第1実施形態の制御装置11は、記憶装置12に記憶されたプログラムを実行することで複数の機能(位置推定部51,情報特定部52および信号処理部53)を実現する。なお、制御装置11の一部の機能を専用の電子回路で実現してもよい。また、制御装置11の機能を複数の装置に搭載してもよい。 As illustrated in FIG. 3, the control device 11 of the first embodiment performs a plurality of functions (position estimation unit 51, information identification unit 52 and signal processing unit 53) by executing a program stored in the storage device 12. Realize A part of the functions of the control device 11 may be realized by a dedicated electronic circuit. Also, the functions of the control device 11 may be installed in a plurality of devices.

位置推定部51は、収音装置13により実演を収音した観測音と当該実演での発音が予定される参照音との照合により、参照音に対する観測音の時間軸上の位置(以下「実演位置」という)Tを推定する。実演位置Tは、実演者Pが現時点で実演している時間軸上の時点であり、例えば参照音の始点(すなわち実演の開始の時点)からの経過時間で表現される。 The position estimating unit 51 compares the observation sound collected from the performance by the sound collection device 13 with the reference sound expected to be pronounced in the performance, and obtains the position on the time axis of the observation sound with respect to the reference sound (hereinafter referred to as “demonstration sound”). Estimate T (referred to as "position"). The performance position T is the time point on the time axis at which the performer P is currently performing, and is expressed, for example, by the elapsed time from the start point of the reference sound (that is, the start of the performance).

第1実施形態の位置推定部51は、観測音から抽出される特徴量Fxの時系列と記憶装置12に記憶された参照音の特徴量Frefの時系列とを照合することで実演位置Tを推定する。観測音の特徴量Fxは、参照音の特徴量Frefと同種の物理量である。第1実施形態ではMFCCを特徴量Fxとして例示する。 The position estimation unit 51 of the first embodiment compares the time series of the feature amount Fx extracted from the observed sound with the time series of the feature amount Fref of the reference sound stored in the storage device 12 to determine the performance position T. presume. The feature quantity Fx of the observed sound is the same physical quantity as the feature quantity Fref of the reference sound. In the first embodiment, MFCC is exemplified as the feature amount Fx.

図4は、位置推定部51が実演位置Tを特定する処理の具体的な手順を例示するフローチャートである。所定の周期で図4の処理が実行される。図4の処理を開始すると、位置推定部51は、収音装置13から供給される音響信号Xを解析することで、音響信号Xのうち現時点を含む所定の期間について特徴量Fxの時系列を抽出する(Sa1)。特徴量Fxの抽出には、短時間フーリエ変換等の公知の解析技術が任意に利用される。 FIG. 4 is a flowchart illustrating a specific procedure of processing for specifying the performance position T by the position estimation unit 51. As shown in FIG. The processing of FIG. 4 is executed at a predetermined cycle. 4, the position estimating unit 51 analyzes the sound signal X supplied from the sound collecting device 13 to obtain a time series of the feature amount Fx for a predetermined period including the current time in the sound signal X. Extract (Sa1). A known analysis technique such as short-time Fourier transform is arbitrarily used to extract the feature quantity Fx.

位置推定部51は、音響信号Xから抽出した特徴量Fxの時系列と記憶装置12に記憶された参照音の特徴量Frefの時系列とを相互に照合することで実演位置Tを推定する(Sa2)。実演位置Tの推定には公知の技術が任意に採用される。例えば、位置推定部51は、特徴量Fxと特徴量Frefとの類似度(例えば距離または相関)を算定する演算処理と、観測音と参照音との間の時間的な対応を解析する動的時間伸縮(DTW:Dynamic Time Warping)とにより、参照音のうち観測音の特徴量Fxの時系列に対応する期間を探索することで実演位置Tを推定する。観測音の所定の期間毎に実演位置Tが推定される。 The position estimator 51 estimates the performance position T by comparing the time series of the feature amount Fx extracted from the acoustic signal X with the time series of the feature amount Fref of the reference sound stored in the storage device 12 ( Sa2). A known technique is arbitrarily adopted for estimating the performance position T. FIG. For example, the position estimating unit 51 performs arithmetic processing for calculating the similarity (e.g., distance or correlation) between the feature quantity Fx and the feature quantity Fref, and dynamic processing for analyzing the temporal correspondence between the observed sound and the reference sound. The performance position T is estimated by searching for a period corresponding to the time series of the feature amount Fx of the observed sound among the reference sounds by time warping (DTW). A performance position T is estimated for each predetermined period of the observed sound.

図3の情報特定部52は、記憶装置12に記憶された登録データQを参照することで、複数の識別情報Dのうち実演位置Tに時間的に対応する識別情報Dを特定する。具体的には、登録データQに登録された複数の単位期間Uのうち実演位置Tを含む単位期間U(すなわち、始点の時刻と終点の時刻との間に実演位置Tが位置する単位期間U)を探索し、当該単位期間Uに対応する識別情報Dを登録データQから取得する。情報特定部52による識別情報Dの特定は、位置推定部51による実演位置Tの推定毎に反復される。以上の説明から理解される通り、情報特定部52は、実演者Pが発話する台詞に対応する識別情報Dを順次に特定する。 The information specifying unit 52 of FIG. 3 specifies the identification information D temporally corresponding to the performance position T among the plurality of identification information D by referring to the registration data Q stored in the storage device 12 . Specifically, among the plurality of unit periods U registered in the registration data Q, the unit period U including the performance position T (that is, the unit period U in which the performance position T is located between the time of the start point and the time of the end point ), and acquires the identification information D corresponding to the unit period U from the registered data Q. Identification of the identification information D by the information identification unit 52 is repeated each time the position estimation unit 51 estimates the performance position T. FIG. As can be understood from the above description, the information identifying unit 52 sequentially identifies the identification information D corresponding to the lines uttered by the performer P.

信号処理部53は、情報特定部52が特定した識別情報Dを含む音響信号Yを生成する。図3に例示される通り、第1実施形態の信号処理部53は、変調処理部531と合成処理部532とを具備する。 The signal processing unit 53 generates the acoustic signal Y including the identification information D specified by the information specifying unit 52 . As illustrated in FIG. 3 , the signal processing section 53 of the first embodiment includes a modulation processing section 531 and a synthesis processing section 532 .

変調処理部531は、情報特定部52が特定した識別情報Dを音響成分として含む変調信号Mを所定の変調処理により生成する。変調信号Mは、例えば所定の周波数の搬送波を識別情報Dにより周波数変調することで生成される。なお、拡散符号を利用した識別情報Dの拡散変調と所定の周波数の搬送波を利用した周波数変換とを順次に実行することで変調信号Mを生成してもよい。変調信号Mが表す音響の周波数帯域は、放音装置14による放音と端末装置30による収音とが可能な周波数帯域であり、かつ、利用者Aが通常の環境で聴取する音声の周波数帯域を上回る周波数帯域(例えば18kHz以上かつ20kHz以下)に設定される。ただし、変調信号Mが表す音響の周波数帯域は任意である。 The modulation processing unit 531 generates a modulated signal M containing the identification information D specified by the information specifying unit 52 as an acoustic component by predetermined modulation processing. Modulated signal M is generated by frequency-modulating a carrier wave of a predetermined frequency with identification information D, for example. Modulated signal M may be generated by sequentially performing spread modulation of identification information D using a spread code and frequency conversion using a carrier wave of a predetermined frequency. The frequency band of the sound represented by the modulated signal M is the frequency band in which the sound can be emitted by the sound emitting device 14 and collected by the terminal device 30, and the frequency band of the sound that the user A listens to in a normal environment. (for example, 18 kHz or more and 20 kHz or less). However, the frequency band of the sound represented by the modulated signal M is arbitrary.

合成処理部532は、収音装置13が生成した音響信号Xと変調処理部531が生成した変調信号Mとを合成することで音響信号Yを生成する。合成処理部532は、例えば音響信号Xと変調信号Mとを加算(例えば加重加算)することで音響信号Yを生成する。なお、変調信号Mを放音装置14に供給してもよい。すなわち、合成処理部532は省略され得る。 The synthesizing unit 532 generates an acoustic signal Y by synthesizing the acoustic signal X generated by the sound collecting device 13 and the modulated signal M generated by the modulation processing unit 531 . The synthesizing unit 532 generates the acoustic signal Y by, for example, adding the acoustic signal X and the modulated signal M (for example, weighted addition). Note that the modulated signal M may be supplied to the sound emitting device 14 . That is, the composition processing section 532 can be omitted.

以上の構成および手順により信号処理部53(合成処理部532)が生成した音響信号Yが放音装置14に供給されることで、音響信号Yが表す音響が利用者Aに対して再生される。具体的には、音響信号Xが表す観測音と変調信号Mが表す識別情報Dの音響成分とが放音装置14から再生される。以上の説明から理解される通り、放音装置14は、利用者Aが所在する観客席に対して実演者Pによる実演の観測音を放音する音響機器として機能するほか、空気振動としての音波を伝送媒体とする音響通信により識別情報Dを送信する送信機としても機能する。すなわち、情報処理システム10は、前述の通り、実演者Pによる実演に並行して、当該実演者Pが発音する台詞に対応する関連情報Cの識別情報Dを端末装置30に対して順次に送信する。実演者Pによる実演の進行に連動して、端末装置30に送信される識別情報Dは順次に更新される。 By supplying the sound signal Y generated by the signal processing unit 53 (synthesis processing unit 532) according to the above configuration and procedure to the sound emitting device 14, the sound represented by the sound signal Y is reproduced for the user A. . Specifically, the observed sound represented by the acoustic signal X and the acoustic component of the identification information D represented by the modulated signal M are reproduced from the sound emitting device 14 . As can be understood from the above description, the sound emitting device 14 functions as an acoustic device that emits the observation sound of the performance by the performer P to the audience seat where the user A is located, and also functions as a sound wave as an air vibration. It also functions as a transmitter that transmits the identification information D by acoustic communication using the transmission medium. That is, as described above, in parallel with the performance by the performer P, the information processing system 10 sequentially transmits the identification information D of the related information C corresponding to the lines pronounced by the performer P to the terminal device 30. do. In conjunction with the progress of the demonstration by the performer P, the identification information D transmitted to the terminal device 30 is updated sequentially.

<端末装置30>
図5は、端末装置30の構成を例示するブロック図である。図5に例示される通り、端末装置30は、制御装置31と記憶装置32と通信装置33と収音装置34と再生装置35とを具備する。
<Terminal device 30>
FIG. 5 is a block diagram illustrating the configuration of the terminal device 30. As shown in FIG. As illustrated in FIG. 5, the terminal device 30 includes a control device 31, a storage device 32, a communication device 33, a sound pickup device 34, and a playback device 35. FIG.

収音装置34は、周囲の音響を収音するマイクロホンである。具体的には、収音装置34は、情報処理システム10の放音装置14が再生した音響を収音し、当該音響の波形を表す音響信号Zを生成する。音響信号Zには、識別情報Dを表す音響成分が含まれる。したがって、収音装置34は、音声通話または動画撮影時の音声収録に利用されるほか、空気振動としての音波を伝送媒体とする音響通信により識別情報Dを受信する受信機としても機能する。なお、収音装置34が生成した音響信号Zをアナログからデジタルに変換するA/D変換器の図示は便宜的に省略した。また、端末装置30と一体に構成された収音装置34に代えて、別体の収音装置34を有線または無線により端末装置30に接続してもよい。 The sound pickup device 34 is a microphone that picks up ambient sounds. Specifically, the sound pickup device 34 picks up the sound reproduced by the sound emitting device 14 of the information processing system 10 and generates the sound signal Z representing the waveform of the sound. The acoustic signal Z includes an acoustic component representing the identification information D. FIG. Therefore, the sound pickup device 34 is used for voice communication or sound recording during video shooting, and also functions as a receiver that receives the identification information D through acoustic communication using sound waves as air vibrations as a transmission medium. For the sake of convenience, the illustration of an A/D converter that converts the acoustic signal Z generated by the sound collecting device 34 from analog to digital is omitted. Further, instead of the sound collecting device 34 configured integrally with the terminal device 30, a separate sound collecting device 34 may be connected to the terminal device 30 by wire or wirelessly.

記憶装置32は、制御装置31が実行するプログラムと制御装置31が使用する各種のデータとを記憶する。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置32として任意に採用され得る。通信装置33は、制御装置31による制御のもとで情報配信システム20と通信する。 The storage device 32 stores programs executed by the control device 31 and various data used by the control device 31 . For example, a known recording medium such as a semiconductor recording medium and a magnetic recording medium, or a combination of multiple types of recording media can be arbitrarily adopted as the storage device 32 . The communication device 33 communicates with the information distribution system 20 under the control of the control device 31 .

再生装置35は、関連情報Cを再生する出力機器である。第1実施形態の再生装置35は、関連情報Cを表示する表示装置(例えば液晶表示パネル)を含む。すなわち、実演者Pが発音する台詞の文字列が関連情報Cとして再生装置35に表示される。したがって、実演者Pが発音した音声の聴取が困難である聴覚障碍者が、実演者Pによる実演の内容を把握できる。なお、関連情報Cの内容を表す音声を放音する放音装置を再生装置35として利用してもよい。 The reproduction device 35 is an output device that reproduces the related information C. FIG. The playback device 35 of the first embodiment includes a display device (for example, a liquid crystal display panel) that displays related information C. FIG. That is, the character string of the lines spoken by the performer P is displayed as the related information C on the playback device 35 . Therefore, a hearing-impaired person who has difficulty hearing the voice pronounced by the performer P can grasp the contents of the demonstration by the performer P. Note that a sound emitting device that emits a sound representing the content of the related information C may be used as the reproducing device 35 .

制御装置31は、例えばCPU等の処理回路で構成され、端末装置30の各要素を統括的に制御する。第1実施形態の制御装置31は、図5に例示される通り、記憶装置32に記憶されたプログラムを実行することで複数の機能(情報抽出部311および動作制御部312)を実現する。なお、制御装置31の一部の機能を専用の電子回路で実現してもよい。また、制御装置31の機能を複数の装置に搭載してもよい。 The control device 31 is composed of a processing circuit such as a CPU, for example, and controls each element of the terminal device 30 in an integrated manner. As illustrated in FIG. 5, the control device 31 of the first embodiment implements a plurality of functions (an information extraction unit 311 and an operation control unit 312) by executing programs stored in the storage device 32. FIG. A part of the functions of the control device 31 may be realized by a dedicated electronic circuit. Also, the functions of the control device 31 may be installed in a plurality of devices.

情報抽出部311は、収音装置34が生成した音響信号Zから識別情報Dを抽出する。具体的には、情報抽出部311は、例えば、音響信号Zのうち識別情報Dの音響成分を含む周波数帯域を強調するフィルタ処理と、変調処理部531による変調処理に対応した復調処理とにより、音響信号Zから識別情報Dを抽出する。 The information extraction unit 311 extracts the identification information D from the acoustic signal Z generated by the sound collection device 34 . Specifically, the information extraction unit 311 performs, for example, filter processing for emphasizing the frequency band containing the acoustic component of the identification information D in the acoustic signal Z, and demodulation processing corresponding to the modulation processing performed by the modulation processing unit 531. The identification information D is extracted from the acoustic signal Z.

動作制御部312は、情報配信システム20から関連情報Cを取得し、当該関連情報Cを再生装置35に再生させる。具体的には、動作制御部312は、情報抽出部311が抽出した識別情報Dを含む情報要求Rを生成して通信装置33から情報配信システム20に送信する。情報要求Rの送信は、音響信号Zから抽出される識別情報Dが変化するたびに(すなわち実演者Pが発音する台詞毎に)実行される。また、動作制御部312は、情報要求Rに応じて情報配信システム20から送信された関連情報Cを通信装置33により受信し、当該関連情報Cを再生装置35に再生させる。以上の説明から理解される通り、端末装置30は、情報処理システム10から受信した識別情報Dに対応する関連情報Cを再生する。 The operation control unit 312 acquires the relevant information C from the information distribution system 20 and causes the reproduction device 35 to reproduce the relevant information C. FIG. Specifically, the operation control unit 312 generates an information request R including the identification information D extracted by the information extraction unit 311 and transmits the information request R from the communication device 33 to the information distribution system 20 . The information request R is transmitted each time the identification information D extracted from the acoustic signal Z changes (that is, each line uttered by the performer P). Further, the operation control unit 312 receives the related information C transmitted from the information distribution system 20 in response to the information request R by the communication device 33 and causes the playback device 35 to reproduce the related information C. FIG. As understood from the above description, the terminal device 30 reproduces the related information C corresponding to the identification information D received from the information processing system 10 .

<情報配信システム20>
図1の情報配信システム20は、複数の関連情報Cを記憶するサーバ装置(例えばウェブサーバ)である。複数の関連情報C(C1,C2,…)の各々には当該関連情報Cの識別情報D(D1,D2,…)が対応付けて記憶される。情報配信システム20は、端末装置30からの情報要求Rに含まれる識別情報Dに対応する関連情報Cを端末装置30に送信する。
<Information distribution system 20>
The information distribution system 20 of FIG. 1 is a server device (for example, a web server) that stores a plurality of pieces of related information C. As shown in FIG. Each of a plurality of pieces of related information C (C1, C2, . . . ) is associated with identification information D (D1, D2, . . . ) of the related information C and stored. The information distribution system 20 transmits related information C corresponding to the identification information D included in the information request R from the terminal device 30 to the terminal device 30 .

<動作>
図6は、情報処理システム10および端末装置30の動作の手順を例示するフローチャートである。実演者Pによる実演に並行して図6の処理が例えば所定の周期で反復される。
<Action>
FIG. 6 is a flow chart illustrating the procedure of operations of the information processing system 10 and the terminal device 30 . In parallel with the demonstration by the performer P, the process of FIG. 6 is repeated at predetermined intervals, for example.

情報処理システム10の位置推定部51は、収音装置13により実演を収音した観測音と事前に用意された参照音との照合により実演位置Tを推定する(Sb1)。具体的には、図4を参照して前述した通り、位置推定部51は、観測音の特徴量Fxと参照音の特徴量Frefとを照合することで実演位置Tを推定する。 The position estimating unit 51 of the information processing system 10 estimates the performance position T by comparing the observed sound of the performance collected by the sound collecting device 13 with the reference sound prepared in advance (Sb1). Specifically, as described above with reference to FIG. 4, the position estimation unit 51 estimates the performance position T by matching the feature amount Fx of the observed sound and the feature amount Fref of the reference sound.

情報特定部52は、参照音と複数の識別情報Dとの時間的な対応を表す登録データQを参照することで、位置推定部51が推定した実演位置Tに時間的に対応した識別情報Dを特定する(Sb2)。信号処理部53は、情報特定部52が特定した識別情報Dを含む音響信号Yを生成する(Sb3)。信号処理部53は、音響信号Yを放音装置14に供給することで、識別情報Dを音響通信により送信する(Sb4)。 The information specifying unit 52 refers to the registration data Q representing the temporal correspondence between the reference sound and the plurality of pieces of identification information D to obtain the identification information D temporally corresponding to the performance position T estimated by the position estimating unit 51. is specified (Sb2). The signal processing unit 53 generates the acoustic signal Y including the identification information D specified by the information specifying unit 52 (Sb3). The signal processing unit 53 transmits the identification information D by acoustic communication by supplying the acoustic signal Y to the sound emitting device 14 (Sb4).

端末装置30の情報抽出部311は、放音装置14による再生音の収音により収音装置34が生成した音響信号Zを取得する(Sb5)。情報抽出部311は、音響信号Zから識別情報Dを抽出する(Sb6)。動作制御部312は、情報抽出部311が抽出した識別情報Dを含む情報要求Rを通信装置33から情報配信システム20に送信する(Sb7)。情報配信システム20は、端末装置30から受信した情報要求Rに含まれる識別情報Dに対応する関連情報Cを要求元の端末装置30に送信する。 The information extraction unit 311 of the terminal device 30 acquires the acoustic signal Z generated by the sound pickup device 34 by picking up the reproduced sound by the sound emitting device 14 (Sb5). The information extractor 311 extracts the identification information D from the acoustic signal Z (Sb6). The operation control unit 312 transmits the information request R including the identification information D extracted by the information extraction unit 311 from the communication device 33 to the information distribution system 20 (Sb7). The information delivery system 20 transmits the related information C corresponding to the identification information D included in the information request R received from the terminal device 30 to the terminal device 30 that made the request.

端末装置30の動作制御部312は、情報配信システム20から送信された関連情報Cを通信装置33により受信し(Sb8)、当該関連情報Cを再生装置35に再生させる(Sb9)。すなわち、実演者Pによる実演に並行した適切な時点で、当該実演において発音される各台詞の字幕が順次に表示される。 The operation control unit 312 of the terminal device 30 receives the related information C transmitted from the information distribution system 20 by the communication device 33 (Sb8), and causes the playback device 35 to play back the related information C (Sb9). That is, at appropriate points in time parallel to the performance by the performer P, subtitles of each line pronounced in the performance are sequentially displayed.

以上に説明した通り、第1実施形態においては、観測音と参照音との照合により参照音に対する観測音の実演位置Tが推定されるから、参照音との時間的な対応が登録された複数の識別情報Dのうち、実演位置Tに対応する識別情報Dを特定できる。したがって、実演に並行した適切な時点で識別情報Dを逐次的に指示する作業を必要とせずに、実演中の適切な時点で識別情報Dを特定することが可能である。第1実施形態によれば、観測音の特徴量Fxと参照音の特徴量Frefとの照合により実演位置Tを適切に推定できるという利点もある。 As described above, in the first embodiment, the performance position T of the observation sound with respect to the reference sound is estimated by matching the observation sound and the reference sound. , the identification information D corresponding to the performance position T can be specified. Therefore, it is possible to specify the identification information D at an appropriate point in time during the demonstration without having to sequentially indicate the identification information D at an appropriate point in time during the demonstration. According to the first embodiment, there is also the advantage that the performance position T can be appropriately estimated by matching the feature amount Fx of the observed sound and the feature amount Fref of the reference sound.

<第2実施形態>
本発明の第2実施形態を説明する。なお、以下の各例示において機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
<Second embodiment>
A second embodiment of the present invention will be described. It should be noted that, in each of the following illustrations, the reference numerals used in the description of the first embodiment are used for the elements whose functions are the same as those of the first embodiment, and detailed description of each will be omitted as appropriate.

図7は、第2実施形態における情報処理システム10の機能的な構成を例示するブロック図である。第2実施形態の記憶装置12は、第1実施形態と同様の登録データQを記憶する。また、記憶装置12は、第1実施形態で例示した参照音の特徴量Frefに代えて、参照音の内容を表す文字列(以下「参照文字列」という)Srefを記憶する。参照音を表す音響信号Vに対する音声認識により参照文字列Srefが事前に推定されて記憶装置12に記憶される。第1実施形態と同様に、音響信号Vは、実演者Pによる実演で発音される予定の文字列(すなわち台本に記載された台詞)に対する音声合成により生成される。 FIG. 7 is a block diagram illustrating the functional configuration of the information processing system 10 according to the second embodiment. The storage device 12 of the second embodiment stores registration data Q similar to that of the first embodiment. In addition, the storage device 12 stores a character string (hereinafter referred to as “reference character string”) Sref representing the content of the reference sound, instead of the feature amount Fref of the reference sound exemplified in the first embodiment. A reference character string Sref is estimated in advance by speech recognition for an acoustic signal V representing a reference sound and stored in the storage device 12 . As in the first embodiment, the acoustic signal V is generated by voice synthesis of a character string to be pronounced in the demonstration by the performer P (that is, the lines written in the script).

音響信号Vの音声認識には公知の技術が任意に採用される。第2実施形態の参照文字列Srefは、認識モデルを利用した音声認識により推定される。認識モデルは、例えばHMM等の音響モデルと、言語的な制約を示す言語モデルとを含んで構成される。 A known technique is arbitrarily adopted for speech recognition of the acoustic signal V. FIG. The reference character string Sref of the second embodiment is estimated by speech recognition using a recognition model. The recognition model includes, for example, an acoustic model such as an HMM, and a language model indicating linguistic constraints.

位置推定部51は、第1実施形態と同様に、収音装置13が収音した観測音と事前に用意された参照音との照合により実演位置Tを推定する。第2実施形態の位置推定部51は、観測音に対する音声認識で推定される文字列(以下「観測文字列」という)Sxと、記憶装置12に記憶された参照文字列Srefとを照合することで、実演者Pによる実演位置Tを推定する。 As in the first embodiment, the position estimation unit 51 estimates the performance position T by matching the observed sound picked up by the sound pickup device 13 with reference sounds prepared in advance. A position estimating unit 51 of the second embodiment compares a character string Sx estimated by speech recognition for an observed sound (hereinafter referred to as an "observed character string") with a reference character string Sref stored in the storage device 12. , the performance position T by the performer P is estimated.

図8は、第2実施形態の位置推定部51が実演位置Tを特定する処理の具体的な手順を例示するフローチャートである。所定の周期で図8の処理が反復される。図8の処理を開始すると、位置推定部51は、収音装置13から供給される音響信号Xに対する音声認識で観測文字列Sxを推定する(Sc1)。音響信号Xに対する音声認識は、参照音の音響信号Vに対する音声認識と同様の方法で実行される。具体的には、観測音の音響信号Xに対する音声認識と参照音の音響信号Vに対する音声認識とにおいては、共通の認識モデル(音響モデルおよび言語モデル)が利用される。 FIG. 8 is a flowchart illustrating a specific procedure of processing for specifying the performance position T by the position estimation unit 51 of the second embodiment. The processing of FIG. 8 is repeated at a predetermined cycle. 8, the position estimating unit 51 estimates an observed character string Sx by speech recognition of the acoustic signal X supplied from the sound collecting device 13 (Sc1). Speech recognition for the acoustic signal X is performed in the same way as speech recognition for the acoustic signal V of the reference sound. Specifically, a common recognition model (acoustic model and language model) is used in speech recognition for the acoustic signal X of the observed sound and speech recognition for the acoustic signal V of the reference sound.

位置推定部51は、音響信号Xから推定した観測文字列Sxと記憶装置12に記憶された参照文字列Srefとを相互に照合することで実演位置Tを推定する(Sc2)。実演位置Tの推定には公知の技術が任意に採用される。具体的には、位置推定部51は、参照文字列Srefを時間軸上で区分した複数の区間の各々と観測文字列Sxとの間で類似度を算定し、観測文字列Sxとの類似度が最大となる区間に応じて実演位置Tを推定する。参照文字列Srefと観測文字列Sxとの間の類似度の指標としては、例えば編集距離が好適に利用される。以上に例示した処理により観測音の所定の期間毎に実演位置Tが推定される。 The position estimation unit 51 estimates the performance position T by comparing the observed character string Sx estimated from the acoustic signal X and the reference character string Sref stored in the storage device 12 (Sc2). A known technique is arbitrarily adopted for estimating the performance position T. FIG. Specifically, the position estimation unit 51 calculates the similarity between each of a plurality of sections obtained by dividing the reference character string Sref on the time axis and the observed character string Sx, and calculates the similarity with the observed character string Sx. The performance position T is estimated according to the section in which is the maximum. Edit distance, for example, is preferably used as an index of similarity between the reference character string Sref and the observed character string Sx. The performance position T is estimated for each predetermined period of the observed sound by the processing illustrated above.

実演位置Tに応じた識別情報Dの特定および識別情報Dの送信は、第1実施形態と同様である。また、端末装置30および情報配信システム20の動作も第1実施形態と同様である。したがって、第2実施形態においても第1実施形態と同様の効果が実現される。 Identification of the identification information D according to the demonstration position T and transmission of the identification information D are the same as in the first embodiment. Also, the operations of the terminal device 30 and the information distribution system 20 are the same as in the first embodiment. Therefore, the same effects as in the first embodiment are realized in the second embodiment as well.

ところで、例えば狂言または歌舞伎等の伝統的な演芸の実演では、実演者Pは古語等の特殊な言葉を発話する。また、特定の地域で実施される演芸では、当該地域に特有の言い回しを含む特殊な言葉を実演者Pが発話する。観測音が、以上の例示のような特殊な言葉を発話した音声である場合、現代語等の通常の言葉の認識モデルを利用した音声認識では正確な認識が困難である。したがって、観測音に対する音声認識で推定される観測文字列Sxと台本に記載された台詞とを照合する構成では双方の文字列が乖離し、結果的に実演位置Tを高精度に推定することができない。以上の構成とは対照的に、第2実施形態では、共通の認識モデル(例えば現代語等の通常の言葉の認識モデル)を利用した音声認識で推定された観測文字列Sxと、参照文字列Srefとが照合される。したがって、音声認識の結果の正誤はともかく、音声認識の傾向自体は、観測文字列Sxと参照文字列Srefとで同様である。したがって、第2実施形態によれば、観測音が古語等の特殊な言葉を発音した音声である場合でも、実演位置Tを高精度に推定できるという利点がある。なお、音声認識の精度が特段の問題とならない場合には、観測音に対する音声認識で推定される観測文字列Sxと台本に記載された台詞とを照合してもよい。 By the way, in a performance of traditional entertainment such as Kyogen or Kabuki, for example, the performer P speaks special words such as archaic language. Also, in a performance performed in a specific area, the performer P speaks special words including phrases peculiar to the area. When the observed sound is a speech uttered with special words such as the above examples, accurate recognition is difficult with speech recognition using a recognition model for ordinary words such as modern words. Therefore, in the configuration in which the observed character string Sx estimated by speech recognition of the observed sound and the dialogue written in the script are collated, the two character strings diverge, and as a result, the performance position T can be estimated with high accuracy. Can not. In contrast to the above configuration, in the second embodiment, an observed character string Sx estimated by speech recognition using a common recognition model (for example, a recognition model for ordinary words such as modern language) and a reference character string Sref is matched. Therefore, regardless of whether the result of speech recognition is correct or not, the tendency of speech recognition itself is the same between the observed character string Sx and the reference character string Sref. Therefore, according to the second embodiment, there is an advantage that the performance position T can be estimated with high accuracy even when the observed sound is a speech in which a special word such as an ancient word is pronounced. If the accuracy of speech recognition does not pose a particular problem, the observed character string Sx estimated by speech recognition of the observed sound may be compared with the dialogue written in the script.

なお、第1実施形態では、実演者Pが発音する予定の文字列(例えば台本に記載された台詞)に対する音声合成で参照音の音響信号Vが生成され、当該参照音の音響信号Vから抽出された特徴量Frefと観測音の特徴量Fxとが照合される。以上の構成でも、観測音が古語等の特殊な言葉を発音した音声である場合でも実演位置Tを高精度に推定できる、という第2実施形態と同様の効果は実現される。 Note that, in the first embodiment, the sound signal V of the reference sound is generated by speech synthesis for a character string (for example, a line written in a script) to be pronounced by the performer P, and extracted from the sound signal V of the reference sound. The obtained feature amount Fref and the observed sound feature amount Fx are collated. The above configuration also achieves the same effect as the second embodiment, that is, the performance position T can be estimated with high accuracy even when the observed sound is a voice pronouncing a special word such as an ancient word.

第1実施形態における特徴量Fxと特徴量Frefとの照合と、第2実施形態における観測文字列Sxと参照文字列Srefとの照合とは、観測音と参照音とを照合する処理の具体例に相当する。なお、観測音と参照音との照合は以上の例示に限定されない。例えば、観測音の音響信号Xと参照音の音響信号Vとを相互に照合することで実演位置Tを推定してもよい。 The matching between the feature quantity Fx and the feature quantity Fref in the first embodiment and the matching between the observed character string Sx and the reference character string Sref in the second embodiment are specific examples of processing for comparing the observed sound and the reference sound. corresponds to Note that the collation between the observed sound and the reference sound is not limited to the above examples. For example, the performance position T may be estimated by mutually collating the acoustic signal X of the observed sound and the acoustic signal V of the reference sound.

<第3実施形態>
図9は、第3実施形態に係る管理システム200の構成を例示するブロック図である。第3実施形態の管理システム200は、実演者Pによる実演に関する演出を制御するためのコンピュータシステムであり、情報処理システム10と舞台システム60とを具備する。舞台システム60は、実演者Pによる実演に並行して各種の演出を実行する。
<Third Embodiment>
FIG. 9 is a block diagram illustrating the configuration of a management system 200 according to the third embodiment. A management system 200 according to the third embodiment is a computer system for controlling the presentation of a performance by a performer P, and includes an information processing system 10 and a stage system 60 . The stage system 60 performs various productions in parallel with the performance by the performer P.

情報処理システム10は、第1実施形態と同様の構成であり、実演者Pによる実演に並行して音響通信により識別情報Dを順次に送信する。具体的には、情報処理システム10は、観測音と参照音との照合により実演位置Tを推定し、実演位置Tに対応する識別情報Dを特定および送信する。なお、第2実施形態の構成を第3実施形態の情報処理システム10に適用してもよい。 The information processing system 10 has the same configuration as that of the first embodiment, and in parallel with the performance by the performer P, sequentially transmits the identification information D by acoustic communication. Specifically, the information processing system 10 estimates the performance position T by matching the observed sound and the reference sound, and specifies and transmits the identification information D corresponding to the performance position T. FIG. Note that the configuration of the second embodiment may be applied to the information processing system 10 of the third embodiment.

第1実施形態の識別情報Dが関連情報Cを識別する符号であるのに対し、第3実施形態の識別情報Dは、舞台システム60による演出の内容を識別するための符号である。すなわち、第3実施形態の情報処理システム10は、実演者Pによる実演に並行して舞台システム60に演出の内容を順次に指示する。 While the identification information D in the first embodiment is a code for identifying the related information C, the identification information D in the third embodiment is a code for identifying the content of the performance by the stage system 60. FIG. In other words, the information processing system 10 of the third embodiment sequentially instructs the stage system 60 about the contents of the presentation in parallel with the performance by the performer P.

図9に例示される通り、舞台システム60は、管理装置61と演出装置62とを具備する。演出装置62は、舞台上の演出を実行する装置であり、音響装置621と照明装置622とを具備する。音響装置621は、例えば音楽または効果音等の各種の音響を再生する設備である。照明装置622は、舞台上を照明する設備である。照明装置622による照明の特性(点灯/消灯,光量,発光色)は可変に制御される。 As illustrated in FIG. 9 , the stage system 60 includes a management device 61 and a production device 62 . The production device 62 is a device for performing production on the stage, and includes a sound device 621 and a lighting device 622 . The sound device 621 is equipment for reproducing various sounds such as music or sound effects. The lighting device 622 is equipment for lighting the stage. The lighting characteristics (lighting/lighting out, light intensity, emission color) of the lighting device 622 are variably controlled.

管理装置61は、情報処理システム10から音響通信により受信した識別情報Dに応じて演出装置62を制御する。例えば携帯電話機、スマートフォン、タブレット端末、またはパーソナルコンピュータ等の可搬型の情報端末が管理装置61として利用される。管理装置61は、複数の識別情報Dの各々について演出動作を記憶する。演出動作は、例えば音響装置621による各種の音響の再生、または照明装置622による照明の制御である。管理装置61は、情報処理システム10が再生した音響から識別情報Dを抽出し、識別情報Dに対応する演出動作を演出装置62に指示する。したがって、実演者Pによる実演に並行して、舞台システム60による舞台上の演出が順次に制御される。以上の説明から理解される通り、舞台システム60は、情報処理システム10から受信した識別情報Dに対応する演出動作を実行する。 The management device 61 controls the effect device 62 according to the identification information D received from the information processing system 10 through acoustic communication. For example, a mobile phone, a smart phone, a tablet terminal, or a portable information terminal such as a personal computer is used as the management device 61 . The management device 61 stores a performance action for each of the plurality of pieces of identification information D. FIG. The performance operation is, for example, reproduction of various sounds by the sound device 621 or control of lighting by the lighting device 622 . The management device 61 extracts the identification information D from the sound reproduced by the information processing system 10 and instructs the production device 62 to perform the production operation corresponding to the identification information D. FIG. Therefore, in parallel with the performance by the performer P, the performance on the stage by the stage system 60 is sequentially controlled. As can be understood from the above description, the stage system 60 executes a performance action corresponding to the identification information D received from the information processing system 10. FIG.

第3実施形態においても第1実施形態と同様に、観測音と参照音との照合により参照音に対する観測音の実演位置Tが推定されるから、参照音との時間的な対応が登録された複数の識別情報Dのうち、実演位置Tに対応する識別情報Dを特定できる。したがって、実演に並行した適切な時点で識別情報Dを逐次的に指示する作業を必要とせずに、実演中の適切な時点で識別情報Dを特定することが可能である。また、第3実施形態によれば、実演者Pによる実演に関する演出を、当該実演に並行した適切な時点で実行することが可能である。 In the third embodiment, similarly to the first embodiment, since the performance position T of the observation sound with respect to the reference sound is estimated by matching the observation sound and the reference sound, the temporal correspondence with the reference sound is registered. The identification information D corresponding to the performance position T can be specified among the plurality of identification information D. FIG. Therefore, it is possible to specify the identification information D at an appropriate point in time during the demonstration without having to sequentially indicate the identification information D at an appropriate point in time during the demonstration. Further, according to the third embodiment, it is possible to perform the production related to the performance by the performer P at an appropriate time in parallel with the performance.

<第4実施形態>
第4実施形態の情報処理システム10は、登録データQを生成する機能を具備する。図10は、第4実施形態における制御装置11が登録データQを生成するための機能的な構成を例示するブロック図である。図10に例示される通り、第4実施形態の記憶装置12は登録文字列Wを記憶する。登録文字列Wは、実演者Pによる発音が予定される文字列である。例えば実演者Pによる実演の台本に記載された各台詞の時系列が登録文字列Wとして記憶装置12に事前に記憶される。登録文字列Wは、相異なる台詞に対応する複数の区間(以下「登録区間」という)σに区画される。任意の1個の登録区間σは、例えば発話の単位となる一連の台詞の文字列(例えば単数または複数の文)で構成される。以上の説明の通り、登録文字列Wは、複数の登録区間σを含んで構成される。
<Fourth Embodiment>
The information processing system 10 of the fourth embodiment has a function of generating registration data Q. FIG. FIG. 10 is a block diagram illustrating a functional configuration for generating registration data Q by the control device 11 in the fourth embodiment. As illustrated in FIG. 10, the storage device 12 of the fourth embodiment stores registered character strings W. FIG. The registered character string W is a character string that the performer P is expected to pronounce. For example, the time series of each line written in the script of the demonstration by the performer P is stored as the registered character string W in the storage device 12 in advance. The registered character string W is divided into a plurality of sections (hereinafter referred to as “registered sections”) σ corresponding to different lines. Any one registration section σ is composed of a series of character strings (for example, a single or a plurality of sentences) that serve as an utterance unit, for example. As described above, the registered character string W includes a plurality of registered sections σ.

実演者Pは、例えば正式な実演のための準備(例えばリハーサル)の段階で実演する。準備の段階で、実演者Pは登録文字列Wを発音する。第4実施形態の収音装置13は、実演者Pが発音した参照音を収音し、当該参照音の波形を表す音響信号Vを生成する。 The performer P performs, for example, at the stage of preparation (for example, rehearsal) for a formal performance. At the stage of preparation, the performer P pronounces the registered character string W. The sound pickup device 13 of the fourth embodiment picks up the reference sound uttered by the performer P and generates an acoustic signal V representing the waveform of the reference sound.

図10に例示される通り、第4実施形態の制御装置11は、記憶装置12に記憶されたプログラムを実行することで解析処理部55として機能する。解析処理部55は、記憶装置12に記憶された登録文字列Wと収音装置13が収音した参照音とを照合することで登録データQを生成する。登録データQは、前述の通り、参照音を時間軸上で区分した複数の単位期間U(U1,U2,…)の各々について識別情報D(D1,D2,…)を指定する。各単位期間Uは、参照音のうち登録文字列Wの各登録区間σが発音される期間である。すなわち、解析処理部55は、登録文字列Wと参照音とを照合することで、当該参照音を、相異なる登録区間σに対応する複数の単位期間Uに時間軸上で区画する。 As illustrated in FIG. 10 , the control device 11 of the fourth embodiment functions as an analysis processing section 55 by executing programs stored in the storage device 12 . The analysis processing unit 55 generates registered data Q by matching the registered character string W stored in the storage device 12 with the reference sound picked up by the sound pickup device 13 . The registration data Q specifies identification information D (D1, D2, . . . ) for each of a plurality of unit periods U (U1, U2, . Each unit period U is a period during which each registered section σ of the registered character string W is pronounced among the reference sounds. That is, the analysis processing unit 55 compares the registered character string W with the reference sound, and divides the reference sound into a plurality of unit periods U corresponding to different registered intervals σ on the time axis.

図11は、第4実施形態における解析処理部55が登録データQを生成する動作の具体的な手順を例示するフローチャートである。登録データQの生成の指示を契機として図11の処理が開始される。図11の処理を開始すると、解析処理部55は、収音装置13から供給される音響信号Vを解析することで参照音の特徴量Frefの時系列を抽出する(Sd1)。 FIG. 11 is a flowchart illustrating a specific procedure of the operation of generating the registration data Q by the analysis processing unit 55 in the fourth embodiment. Triggered by an instruction to generate registration data Q, the process of FIG. 11 is started. 11, the analysis processing unit 55 analyzes the acoustic signal V supplied from the sound collection device 13 to extract the time series of the feature quantity Fref of the reference sound (Sd1).

解析処理部55は、記憶装置12に記憶された登録文字列Wに対する音声合成により、登録文字列Wを発話した合成音の波形を表す音響信号(以下「合成信号」という)を生成する(Sd2)。合成信号の生成には、例えば前述の素片接続型または統計モデル型の音声合成が好適に利用される。解析処理部55は、音声合成により生成した合成信号を解析することで合成音の特徴量Fsynの時系列を抽出する(Sd3)。例えば、登録文字列Wの登録区間σ毎に特徴量Fsynの時系列が抽出される。合成音の特徴量Fsynは、参照音の特徴量Frefと同種の物理量(例えばMFCC)である。なお、参照音の特徴量Frefの抽出(Sd1)と合成音の特徴量Fsynの抽出(Sd2,Sd3)との順序を逆転してもよい。以上の説明から理解される通り、第4実施形態の制御装置11は、登録文字列Wに対する音声合成で生成される合成音の特徴量Fsynを抽出する要素(特徴抽出部)として機能する。なお、相異なる時期または場所で収録された複数の参照音の特徴量の代表値(例えば平均値)を特徴量Fsynとして登録データQの生成に利用してもよい。また、登録区間σについて合成音から抽出された複数の特徴量の代表値(例えば平均値)を特徴量Fsynとして利用してもよい。 The analysis processing unit 55 generates an acoustic signal (hereinafter referred to as a “synthesized signal”) representing the waveform of the synthesized voice uttering the registered character string W by speech synthesis for the registered character string W stored in the storage device 12 (Sd2 ). For generating the synthesized signal, for example, the above-described segment connection type or statistical model type speech synthesis is preferably used. The analysis processing unit 55 extracts the time series of the feature quantity Fsyn of the synthesized speech by analyzing the synthesized signal generated by speech synthesis (Sd3). For example, a time series of the feature amount Fsyn is extracted for each registered section σ of the registered character string W. FIG. The feature quantity Fsyn of the synthesized sound is a physical quantity (for example, MFCC) of the same kind as the feature quantity Fref of the reference sound. Note that the order of the extraction of the feature amount Fref of the reference sound (Sd1) and the extraction of the feature amount Fsyn of the synthesized sound (Sd2, Sd3) may be reversed. As can be understood from the above description, the control device 11 of the fourth embodiment functions as an element (feature extractor) that extracts the feature quantity Fsyn of the synthetic voice generated by speech synthesis for the registered character string W. FIG. Note that a representative value (for example, an average value) of feature amounts of a plurality of reference sounds recorded at different times or locations may be used as the feature amount Fsyn to generate registration data Q. FIG. Also, a representative value (for example, an average value) of a plurality of feature amounts extracted from the synthesized speech for the registered section σ may be used as the feature amount Fsyn.

解析処理部55は、参照音の特徴量Frefの時系列と合成音の特徴量Fsynの時系列とを相互に照合することで参照音を複数の単位期間Uに区画する(Sd4)。例えば、登録文字列Wの複数の登録区間σの各々について、当該登録区間σにおける特徴量Fsynの時系列に類似する特徴量Frefが抽出された参照音の期間が、当該登録区間σに対応する単位期間Uとして画定される。すなわち、登録区間σ毎(例えば台詞毎)の単位期間Uに参照音が時間軸上で区画される。具体的には、解析処理部55は、各単位期間Uの始点および終点の時刻を特定する。以上の説明から理解される通り、第4実施形態の制御装置11は、参照音の特徴量Frefと合成音の特徴量Fsynとを照合することで、参照音のうち各登録区間σに対応する単位期間Uを画定する要素(期間画定部)として機能する。 The analysis processing unit 55 divides the reference sound into a plurality of unit periods U by comparing the time series of the feature amount Fref of the reference sound and the time series of the feature amount Fsyn of the synthesized sound (Sd4). For example, for each of a plurality of registered sections σ of the registered character string W, the period of the reference sound from which the feature amount Fref similar to the time series of the feature amount Fsyn in the registered section σ is extracted corresponds to the registered section σ. It is defined as a unit period U. That is, the reference sound is segmented on the time axis into unit periods U for each registration section σ (for example, each line). Specifically, the analysis processing unit 55 identifies the time of the start point and the end point of each unit period U. FIG. As can be understood from the above description, the control device 11 of the fourth embodiment compares the feature quantity Fref of the reference sound with the feature quantity Fsyn of the synthesized sound, thereby matching each registered section σ of the reference sound. It functions as an element (period definition section) that defines the unit period U.

以上の手順で参照音を複数の単位期間Uに区画すると、解析処理部55は、複数の単位期間Uの各々について識別情報Dを対応付けた登録データQを生成する(Sd5)。具体的には、解析処理部55は、参照音の複数の単位期間Uの各々に対して相互に重複しない識別情報Dを割当て、単位期間Uの始点および終点の時刻と識別情報Dとを対応させた登録データQを生成する。 After dividing the reference sound into a plurality of unit periods U in the above procedure, the analysis processing unit 55 generates registered data Q in which the identification information D is associated with each of the plurality of unit periods U (Sd5). Specifically, the analysis processing unit 55 assigns identification information D that does not overlap each other to each of a plurality of unit periods U of the reference sound, and associates the times of the start and end points of the unit periods U with the identification information D. registration data Q is generated.

解析処理部55は、以上の手順で生成した登録データQと、参照音から抽出(Sd1)された特徴量Frefの時系列とを、記憶装置12に記憶する(Sd6)。第1実施形態において例示した通り、特徴量Frefの時系列は、位置推定部51による実演位置Tの推定に利用され、登録データQは、情報特定部52による識別情報Dの特定に利用される。 The analysis processing unit 55 stores the registration data Q generated by the above procedure and the time series of the feature amount Fref extracted from the reference sound (Sd1) in the storage device 12 (Sd6). As exemplified in the first embodiment, the time series of the feature amount Fref is used for estimating the performance position T by the position estimating unit 51, and the registration data Q is used for specifying the identification information D by the information specifying unit 52. .

第4実施形態によれば、実演者Pによる実演に並行して端末装置30に複数の識別情報Dの各々を順次に送信するために利用される登録データQを、登録文字列Wから簡便に生成できるという利点がある。なお、第4実施形態は、第1実施形態で使用される登録データQのほか、第2実施形態または第3実施形態で使用される登録データQの生成にも同様に適用される。図11の例示では、登録データQとともに参照音の特徴量Frefを記憶装置12に記憶したが(Sd6)、第2実施形態では、例えば、登録データQの生成に利用された登録文字列Wが参照文字列Srefとして記憶装置12に記憶される。 According to the fourth embodiment, the registration data Q used for sequentially transmitting each of the plurality of identification information D to the terminal device 30 in parallel with the demonstration by the performer P can be easily obtained from the registration character string W. It has the advantage of being able to generate The fourth embodiment is similarly applied to the generation of the registration data Q used in the second or third embodiment as well as the registration data Q used in the first embodiment. In the example of FIG. 11, the feature amount Fref of the reference sound is stored in the storage device 12 along with the registration data Q (Sd6). It is stored in the storage device 12 as a reference character string Sref.

<第5実施形態>
第5実施形態は、第4実施形態と同様に、登録データQを生成するための形態である。第5実施形態における情報処理システム10の制御装置11は、記憶装置12に記憶されたプログラムを実行することで、図10の例示と同様に、登録文字列Wと参照音との照合により登録データQを生成する解析処理部55として機能する。
<Fifth Embodiment>
5th Embodiment is a form for producing|generating the registration data Q similarly to 4th Embodiment. The control device 11 of the information processing system 10 according to the fifth embodiment executes the program stored in the storage device 12 to match the registered character string W with the reference sound to obtain the registered data, as in the example of FIG. It functions as an analysis processing unit 55 that generates Q.

図12は、第5実施形態の解析処理部55が登録データQを生成する動作の具体的な手順を例示するフローチャートである。登録データQの生成の指示を契機として図12の処理が開始される。図12の処理を開始すると、解析処理部55は、収音装置13から供給される参照音の音響信号Vに対する音声認識で参照文字列Srefを推定する(Se1)。参照文字列Srefは、音響モデルと言語モデルとを含む認識モデルを利用した公知の音声認識により推定される。 FIG. 12 is a flowchart illustrating a specific procedure of the operation of generating the registration data Q by the analysis processing unit 55 of the fifth embodiment. Triggered by an instruction to generate registration data Q, the process of FIG. 12 is started. When the processing of FIG. 12 is started, the analysis processing unit 55 estimates the reference character string Sref by speech recognition for the acoustic signal V of the reference sound supplied from the sound collection device 13 (Se1). The reference string Sref is estimated by known speech recognition using a recognition model including an acoustic model and a language model.

解析処理部55は、記憶装置12に記憶された登録文字列Wに対する音声合成により、登録文字列Wを発話した合成音の波形を表す合成信号を生成する(Se2)。合成信号の生成には、例えば前述の素片接続型または統計モデル型の音声合成が好適に利用される。 The analysis processing unit 55 generates a synthesized signal representing the waveform of the synthesized voice uttering the registered character string W by speech synthesis for the registered character string W stored in the storage device 12 (Se2). For generating the synthesized signal, for example, the above-described segment connection type or statistical model type speech synthesis is preferably used.

解析処理部55は、音声合成後の合成信号に対する音声認識により、合成音の発話内容を表す文字列(以下「合成文字列」という)Wsynを生成する(Se3)。登録文字列Wの登録区間σ毎に合成文字列Wsynが推定される。合成音の音声認識(Se3)と参照音の音声認識(Se1)とにおいては共通の認識モデルが利用される。以上の説明から理解される通り、第5実施形態の制御装置11は、登録文字列Wに対する音声合成で生成される合成音に対する音声認識で合成文字列Wsynを推定する要素(音声認識部)として機能する。合成文字列Wsynは、登録文字列Wから生成された合成音に対する音声認識の結果であるから、理想的には登録文字列Wに一致または類似する。ただし、音声認識における誤認識等の要因により、合成文字列Wsynと登録文字列Wとは完全には一致しない。実演者Pが古語等の特殊な言葉を発話した場合には、合成文字列Wsynと登録文字列Wとの差異が特に顕著となる。なお、参照文字列Srefの生成(Se1)と合成文字列Wsynの生成(Se2,Se3)との順序を逆転してもよい。 The analysis processing unit 55 generates a character string (hereinafter referred to as “synthesized character string”) Wsyn representing the utterance content of the synthesized sound through speech recognition of the synthesized signal after speech synthesis (Se3). A synthesized character string Wsyn is estimated for each registered section σ of the registered character string W. FIG. A common recognition model is used for the speech recognition of the synthesized sound (Se3) and the speech recognition of the reference sound (Se1). As can be understood from the above description, the control device 11 of the fifth embodiment uses the voice recognition unit (speech recognition unit) for estimating the synthesized character string Wsyn by recognizing the synthetic sound generated by speech synthesis of the registered character string W. Function. Since the synthesized character string Wsyn is the result of speech recognition of the synthesized sound generated from the registered character string W, it ideally matches or resembles the registered character string W. However, the synthetic character string Wsyn and the registered character string W do not completely match due to factors such as misrecognition in speech recognition. The difference between the synthesized character string Wsyn and the registered character string W is particularly noticeable when the performer P speaks a special word such as an archaic language. The order of generating the reference character string Sref (Se1) and generating the composite character string Wsyn (Se2, Se3) may be reversed.

解析処理部55は、参照文字列Srefと合成文字列Wsynとを相互に照合することで参照音を複数の単位期間Uに区画する(Se4)。例えば、登録文字列Wの複数の登録区間σの各々について、当該登録区間σにおける合成文字列Wsynに類似する参照文字列Srefが推定された参照音の期間が、当該登録区間σに対応する単位期間Uとして画定される。すなわち、第4実施形態と同様に、登録区間σ毎(例えば台詞毎)の単位期間Uに参照音が時間軸上で区画される。以上の説明から理解される通り、第5実施形態の制御装置11は、参照文字列Srefと合成文字列Wsynとを照合することで、参照音のうち各登録区間σに対応する単位期間Uを画定する要素(期間画定部)として機能する。 The analysis processing unit 55 divides the reference sound into a plurality of unit periods U by mutually collating the reference character string Sref and the synthesized character string Wsyn (Se4). For example, for each of a plurality of registered sections σ of the registered character string W, the period of the reference sound in which the reference character string Sref similar to the synthesized character string Wsyn in the registered section σ is estimated is the unit corresponding to the registered section σ. Defined as period U. That is, as in the fourth embodiment, the reference sound is divided on the time axis into unit periods U for each registration section σ (for example, each line). As can be understood from the above description, the control device 11 according to the fifth embodiment compares the reference character string Sref and the synthesized character string Wsyn to determine the unit period U corresponding to each registered section σ of the reference sound. It functions as a defining element (period defining part).

以上の手順で参照音を複数の単位期間Uに区画すると、解析処理部55は、第4実施形態と同様の手順により、複数の単位期間Uの各々について識別情報Dを対応付けた登録データQを生成する(Se5)。そして、解析処理部55は、以上の手順で生成した登録データQと、参照音から別途の処理で抽出された特徴量Frefの時系列とを、記憶装置12に記憶する(Se6)。 When the reference sound is divided into a plurality of unit periods U by the above procedure, the analysis processing unit 55 generates registered data Q corresponding to each of the plurality of unit periods U with the identification information D by the same procedure as in the fourth embodiment. (Se5). Then, the analysis processing unit 55 stores the registration data Q generated by the above procedure and the time series of the feature amount Fref extracted from the reference sound by separate processing in the storage device 12 (Se6).

参照音が古語等の特殊な言葉の発話音声である場合、現代語等の通常の言葉の認識モデルを利用した音声認識では正確な認識が困難である。実演者Pは登録文字列Wを発音するが、以上の事情により、参照音に対する音声認識で推定される参照文字列Srefと、実演での発音が予定される登録文字列Wとは乖離する可能性がある。したがって、参照文字列Srefと登録文字列Wとの照合により各単位期間Uを区画する構成では、参照音を登録区間σ毎の単位期間Uに高精度に区画することが困難である。以上の構成とは対照的に、第5実施形態では、共通の認識モデル(例えば現代語等の通常の言葉の認識モデル)を利用した音声認識により推定された参照文字列Srefと合成文字列Wsynとが照合される。したがって、参照音が古語等の特殊な言葉の発話音声である場合でも、参照音を、登録区間σ毎の単位期間Uに高精度に区画することが可能である。 When the reference sound is the uttered speech of a special word such as an ancient language, accurate recognition is difficult with speech recognition using a recognition model of a normal word such as a modern language. The performer P pronounces the registered character string W, but due to the above circumstances, the reference character string Sref estimated by speech recognition of the reference sound and the registered character string W expected to be pronounced in the demonstration may diverge. have a nature. Therefore, in the configuration in which each unit period U is divided by matching the reference character string Sref and the registered character string W, it is difficult to divide the reference sound into unit periods U for each registered section σ with high accuracy. In contrast to the above configuration, in the fifth embodiment, the reference character string Sref and the synthesized character string Wsyn are estimated by speech recognition using a common recognition model (for example, a recognition model for ordinary words such as modern languages). is matched. Therefore, even when the reference sound is an utterance of a special word such as an archaic language, it is possible to segment the reference sound into unit periods U for each registration period σ with high accuracy.

なお、第5実施形態は、第1実施形態で使用される登録データQのほか、第2実施形態または第3実施形態で使用される登録データQの生成にも同様に適用される。図12の例示では、登録データQとともに参照音の特徴量Frefを記憶装置12に記憶したが(Se6)、第2実施形態では、参照音から推定(Se1)された参照文字列Srefが記憶装置12に記憶される。 The fifth embodiment is similarly applied to the generation of the registration data Q used in the second or third embodiment as well as the registration data Q used in the first embodiment. In the example of FIG. 12, the feature amount Fref of the reference sound is stored in the storage device 12 together with the registered data Q (Se6), but in the second embodiment, the reference character string Sref estimated from the reference sound (Se1) is stored in the storage device. 12.

第4実施形態および第5実施形態では、端末装置30に識別情報Dを送信する情報処理システム10が登録データQを生成する構成を想定したが、識別情報Dを送信する情報処理システム10とは別個の情報処理システムにより登録データQを生成してもよい。 In the fourth and fifth embodiments, it is assumed that the information processing system 10 that transmits the identification information D to the terminal device 30 generates the registration data Q, but the information processing system 10 that transmits the identification information D is Registration data Q may be generated by a separate information processing system.

<変形例>
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された複数の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
<Modification>
Specific modified aspects added to the above-exemplified aspects will be exemplified below. A plurality of aspects arbitrarily selected from the following examples may be combined as appropriate within a mutually consistent range.

(1)前述の各形態では参照音の音響信号Vを音声合成により生成したが、音響信号Vを生成する方法は以上の例示に限定されない。例えば、過去の実演において収録された複数の収録音から参照音の音響信号Vを生成してもよい。例えば、共通の演目を相異なる実演にて収録した収録音を表す複数の音響信号を合成することで参照音の音響信号Vが生成される。以上の手順で生成された参照音の音響信号Vから抽出された特徴量Frefの時系列(第2実施形態では参照文字列Sref)と、当該音響信号Vから生成された登録データQとが、情報処理システム10の記憶装置12に記憶される。 (1) In each of the above embodiments, the acoustic signal V of the reference sound is generated by speech synthesis, but the method of generating the acoustic signal V is not limited to the above examples. For example, the acoustic signal V of the reference sound may be generated from a plurality of recorded sounds recorded in past demonstrations. For example, the sound signal V of the reference sound is generated by synthesizing a plurality of sound signals representing sounds recorded in different demonstrations of a common program. The time series of the feature amount Fref (reference character string Sref in the second embodiment) extracted from the acoustic signal V of the reference sound generated by the above procedure, and the registered data Q generated from the acoustic signal V, It is stored in the storage device 12 of the information processing system 10 .

また、複数の収録音から抽出された特徴量の代表値(例えば平均)を参照音の特徴量Frefとして算定してもよい。以上の例示のように過去の実演において収録された複数の収録音から参照音(例えば音響信号Vまたは特徴量Fref)を生成する構成によれば、過去の実演における収録音の傾向を反映した参照音を生成することが可能である。なお、「過去の実演」には、舞台上での正式な実演のほか、正式な実演のための準備的な実演(例えばリハーサルでの実演)も含まれる。 Alternatively, a representative value (for example, an average) of feature amounts extracted from a plurality of recorded sounds may be calculated as the feature amount Fref of the reference sound. According to the configuration for generating the reference sound (for example, the acoustic signal V or the feature amount Fref) from a plurality of recorded sounds recorded in the past demonstrations as in the above examples, the reference sounds reflecting the tendency of the recorded sounds in the past demonstration It is possible to generate sounds. The "past performance" includes not only formal performances on stage but also preparatory performances for formal performances (for example, performances at rehearsals).

(2)第1実施形態では、情報配信システム20から受信した関連情報Cを端末装置30が再生したが、端末装置30の記憶装置32に記憶された関連情報Cを再生してもよい。例えば、端末装置30の記憶装置32は、複数の関連情報Cの各々を識別情報Dと対応付けて記憶する。動作制御部312は、情報抽出部311が抽出した識別情報Dに対応する関連情報Cを記憶装置32から取得して再生装置35に再生させる。以上の構成によれば、通信網40を介した通信を必要とせずに端末装置30が関連情報Cを取得できるという利点がある。他方、第1実施形態のように端末装置30が情報配信システム20から関連情報Cを受信する構成によれば、複数の関連情報Cを端末装置30の記憶装置32に保持する必要がないという利点がある。なお、前述の各形態では、端末装置30から送信された情報要求Rの受信毎に情報処理システム10から端末装置30に関連情報Cを送信したが、事前に登録された端末装置30に対して、情報要求Rの受信を必要とせずに情報処理システム10から関連情報Cを送信(プッシュ配信)してもよい。 (2) In the first embodiment, the terminal device 30 reproduces the related information C received from the information distribution system 20, but the related information C stored in the storage device 32 of the terminal device 30 may be reproduced. For example, the storage device 32 of the terminal device 30 associates each of the plurality of related information C with the identification information D and stores them. The operation control unit 312 acquires the related information C corresponding to the identification information D extracted by the information extraction unit 311 from the storage device 32 and causes the reproduction device 35 to reproduce it. According to the above configuration, there is an advantage that the terminal device 30 can acquire the related information C without requiring communication via the communication network 40 . On the other hand, according to the configuration in which the terminal device 30 receives the related information C from the information distribution system 20 as in the first embodiment, there is an advantage that it is not necessary to hold a plurality of related information C in the storage device 32 of the terminal device 30. There is In each of the above-described embodiments, the information processing system 10 transmits the related information C to the terminal device 30 each time the information request R transmitted from the terminal device 30 is received. , the related information C may be transmitted (push distribution) from the information processing system 10 without requiring the information request R to be received.

(3)第1実施形態および第2実施形態では、実演者Pが発音する台詞の文字列を関連情報Cとして端末装置30に提供したが、関連情報Cの内容は以上の例示に限定されない。例えば、実演者Pが発音する台詞を特定の言語に翻訳した文字列を関連情報Cとして端末装置30に提供してもよい。以上の構成によれば、例えば実演者Pが発音する台詞の言語を理解できない外国人でも、端末装置30が再生する関連情報Cを視認することで台詞の内容を把握できる。なお、実演者Pが発音する古語または独特の言い回しを標準的な表現(例えば現代語または標準語)に変換した文字列を関連情報Cとして端末装置30に提供してもよい。また、実演者Pによる実演に関する解説、または当該実演を解説するサイトの所在を表す情報(例えばURL)を、関連情報Cとして端末装置30に提供してもよい。 (3) In the first and second embodiments, the character string of the lines pronounced by the performer P is provided to the terminal device 30 as the related information C, but the contents of the related information C are not limited to the above examples. For example, the terminal device 30 may be provided with a character string obtained by translating a line pronounced by the performer P into a specific language as the related information C. FIG. According to the above configuration, for example, even a foreigner who cannot understand the language of the lines pronounced by the performer P can understand the contents of the lines by visually recognizing the related information C reproduced by the terminal device 30 . Note that the terminal device 30 may be provided with a character string as the related information C, which is obtained by converting an archaic language or a unique phrase pronounced by the performer P into a standard expression (for example, modern language or standard language). Also, the commentary on the performance by the performer P or the information (for example, URL) representing the location of the site explaining the performance may be provided to the terminal device 30 as the related information C. FIG.

(4)位置推定部51による観測音と参照音との照合の結果(以下「照合結果」という)を情報処理システム10が具備する表示装置に表示してもよい。照合結果は、例えば実演位置Tの時間的な変化である。照合結果は、例えば観測音と参照音との照合に並行して実時間的に表示される。情報処理システム10の管理者は、表示装置の表示を確認することで照合結果の適否を判断し、照合結果が不適切である場合(例えば実演位置Tが誤推定された場合)には、照合結果(例えば実演位置T)を手動で修正する。 (4) The result of matching between the observed sound and the reference sound by the position estimation unit 51 (hereinafter referred to as “matching result”) may be displayed on the display device provided in the information processing system 10 . The matching result is, for example, a change in the performance position T over time. The collation result is displayed in real time in parallel with the collation of the observed sound and the reference sound, for example. The administrator of the information processing system 10 determines whether the matching result is appropriate by checking the display on the display device. Manually modify the results (eg, the demonstration position T).

(5)前述の各形態では、特徴量Fxおよび特徴量FrefとしてMFCCを例示したが、特徴量Fxおよび特徴量Frefの種類は以上の例示に限定されない。例えば周波数スペクトルやスペクトログラム等の周波数特性を特徴量Fxおよび特徴量Frefとして実演位置Tの推定に利用してもよい。 (5) In each of the above embodiments, MFCC was exemplified as the feature quantity Fx and the feature quantity Fref, but the types of the feature quantity Fx and the feature quantity Fref are not limited to the above examples. For example, frequency characteristics such as a frequency spectrum and a spectrogram may be used to estimate the performance position T as the feature amount Fx and the feature amount Fref.

(6)前述の各形態では、識別情報Dを音響通信により端末装置30に送信したが、識別情報Dを送信するための通信方式は音響通信に限定されない。例えば、電波または赤外線等の電磁波を伝送媒体とした無線通信で識別情報Dを端末装置30に送信してもよい。電磁波を伝送媒体とした通信と前述の各形態で例示した音響通信とは、移動体通信網等の通信網40が介在しない近距離無線通信として包括的に表現される。 (6) In each of the above embodiments, the identification information D was transmitted to the terminal device 30 by acoustic communication, but the communication method for transmitting the identification information D is not limited to acoustic communication. For example, the identification information D may be transmitted to the terminal device 30 by wireless communication using electromagnetic waves such as radio waves or infrared rays as a transmission medium. Communication using electromagnetic waves as a transmission medium and acoustic communication exemplified in each of the above-described forms are comprehensively expressed as short-range wireless communication without intervening communication network 40 such as a mobile communication network.

(7)前述の各形態に係る情報処理システム10の機能は、各形態での例示の通り、制御装置11等の処理回路とプログラムとの協働により実現される。前述の各形態に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、通信網を介した配信の形態でプログラムをコンピュータに提供してもよい。 (7) The functions of the information processing system 10 according to each of the above-described embodiments are realized by cooperation between processing circuits such as the control device 11 and programs, as illustrated in each embodiment. The program according to each of the forms described above can be provided in a form stored in a computer-readable recording medium and installed in a computer. The recording medium is, for example, a non-transitory recording medium, and an optical recording medium (optical disc) such as a CD-ROM is a good example. Also included are recording media in the form of It should be noted that the non-transitory recording medium includes any recording medium other than transitory, propagating signals, and does not exclude volatile recording media. Alternatively, the program may be provided to the computer in the form of distribution via a communication network.

<付記>
以上に例示した形態から、例えば以下の構成が把握される。
<Appendix>
For example, the following configuration can be grasped from the form illustrated above.

本発明の好適な態様(第1態様)に係る情報処理方法は、収音装置により実演を収音した観測音と前記実演での発音が予定される参照音との照合により、前記参照音に対する前記観測音の時間軸上の位置である実演位置を推定し、前記参照音と複数の識別情報との時間的な対応を表す登録データを参照することで、前記複数の識別情報のうち前記実演位置に時間的に対応する識別情報を特定する。以上の態様によれば、収音装置により実演を収音した観測音と事前に用意された参照音との照合により参照音に対する観測音の実演位置が推定されるから、参照音との時間的な対応が登録された複数の識別情報のうち、実演位置に時間的に対応する識別情報を特定できる。したがって、実演に並行した適切な時点で識別情報を逐次的に指示する作業を必要とせずに、実演中の適切な時点で識別情報を特定することが可能である。なお、「観測音」は、典型的には発話音声(台詞を発音した音声等の言語音)であるが、楽器の演奏音等も含まれる。 An information processing method according to a preferred aspect (first aspect) of the present invention compares an observed sound picked up by a sound pickup device with a reference sound expected to be pronounced in the By estimating the performance position, which is the position of the observed sound on the time axis, and referring to registered data representing the temporal correspondence between the reference sound and the plurality of pieces of identification information, the performance position among the plurality of pieces of identification information. Identify identification information that temporally corresponds to the location. According to the above aspect, the performance position of the observation sound relative to the reference sound is estimated by collating the observation sound collected by the sound collecting device with the reference sound prepared in advance. Among the plurality of pieces of identification information for which such correspondence is registered, the identification information temporally corresponding to the performance position can be specified. Therefore, it is possible to specify the identification information at an appropriate point in time during the performance without having to sequentially indicate the identification information at appropriate points in parallel with the performance. The "observation sound" is typically speech (language sound such as speech produced by pronouncing a line), but also includes performance sound of a musical instrument.

第1態様の好適例(第2態様)において、前記参照音は、前記実演での発音が予定される文字列に対する音声合成で生成される。以上の態様によれば、観測音との照合に利用される参照音を、実演での発音が予定される文字列(例えば台本)から簡便に用意できるという利点がある。 In a preferred example of the first aspect (second aspect), the reference sound is generated by speech synthesis for a character string that is expected to be pronounced in the demonstration. According to the above aspect, there is an advantage that the reference sound used for matching with the observed sound can be easily prepared from a character string (for example, a script) that is expected to be pronounced in the demonstration.

第1態様の好適例(第3態様)において、前記参照音は、過去の実演において収録された複数の収録音から生成される。以上の態様によれば、実際の実演で発音された収録音の傾向を反映した参照音を生成することが可能である。 In a preferred example of the first aspect (third aspect), the reference sounds are generated from a plurality of recorded sounds recorded in past demonstrations. According to the above aspect, it is possible to generate the reference sound that reflects the tendency of the recorded sound pronounced in the actual demonstration.

第1態様から第3態様の何れかの好適例(第4態様)において、前記実演位置の推定では、前記観測音に対する音声認識で推定される観測文字列と、前記参照音に対する音声認識で推定される参照文字列とを照合することで、前記実演位置を推定し、前記観測音に対する音声認識と前記参照音に対する音声認識とにおいては共通の認識モデルが利用される。例えば観測音が古語等の特殊な言葉の発話音声である場合、現代語等の通常の言葉の認識モデル(例えば音響モデルおよび言語モデル)を利用した音声認識では正確な認識が困難である。したがって、観測音に対する音声認識で推定される観測文字列と、実演での発音が予定される文字列とを照合する構成では双方が乖離し、結果的に実演位置を高精度に推定することができない。共通の認識モデル(例えば現代語等の通常の言葉の認識モデル)を利用した音声認識により推定された観測文字列と参照文字列とを照合する前述の態様によれば、観測音が古語等の特殊な言葉の発話音声である場合でも、実演位置を高精度に推定することが可能である。 In a preferred example (fourth aspect) of any one of the first to third aspects (fourth aspect), the estimation of the performance position includes: an observed character string estimated by speech recognition of the observed sound; and an observed character string estimated by speech recognition of the reference sound. A common recognition model is used in the speech recognition for the observed sound and the speech recognition for the reference sound. For example, if the observed sound is an utterance of a special word such as an ancient language, accurate recognition is difficult with speech recognition using a recognition model (for example, an acoustic model and a language model) of a normal word such as a modern language. Therefore, in the configuration in which the observed character string estimated by speech recognition for the observed sound and the character string expected to be pronounced in the demonstration are matched, the two diverge, and as a result, the performance position cannot be estimated with high accuracy. Can not. According to the above-described aspect of collating the observed character string estimated by speech recognition using a common recognition model (for example, the recognition model of ordinary words such as modern language) and the reference character string, the observed sound is It is possible to estimate the position of the performance with high accuracy even if the speech is a special word.

第1態様から第3態様の何れかの好適例(第5態様)において、前記実演位置の推定では、前記観測音から抽出される特徴量と前記参照音の特徴量とを照合することで前記実演位置を推定する。以上の態様によれば、観測音の特徴量と参照音の特徴量との照合により実演位置を適切に推定することが可能である。実演位置の推定に好適な特徴量は、例えばMFCCである。 In a preferred example (fifth aspect) of any one of the first to third aspects, in the estimation of the performance position, the feature amount extracted from the observed sound and the feature amount of the reference sound are collated to perform the Estimate the location of the demonstration. According to the above aspect, it is possible to appropriately estimate the performance position by matching the feature amount of the observed sound and the feature amount of the reference sound. A feature quantity suitable for estimating the performance position is, for example, MFCC.

第1態様から第5態様の何れかの好適例(第6態様)において、前記実演に関する複数の関連情報のうち受信した識別情報に対応する関連情報を再生する端末装置に対して、前記特定した識別情報を送信する。以上の態様によれば、実演に関する複数の関連情報の各々を、当該実演に並行した適切な時点で端末装置において再生することが可能である。 In a preferred example (sixth aspect) of any one of the first to fifth aspects (sixth aspect), the specified Send identifying information. According to the above aspect, it is possible to reproduce each of the plurality of related information regarding the demonstration on the terminal device at an appropriate point in time in parallel with the demonstration.

第1態様から第5態様の何れかの好適例(第7態様)において、受信した識別情報に対応する演出動作を実行する舞台システムに対して、前記特定した識別情報を送信する。以上の態様によれば、実演に関する演出を、当該実演に並行した適切な時点で実行することが可能である。演出は、例えば、音響の再生または照明の制御等である。 In the preferred example (seventh mode) of any one of the first mode to the fifth mode, the identified identification information is transmitted to a stage system that executes a performance action corresponding to the received identification information. According to the above aspect, it is possible to execute the production related to the demonstration at an appropriate point in time in parallel with the demonstration. The production is, for example, sound reproduction, lighting control, or the like.

第1態様から第7態様の何れかに係る情報処理方法を実行する情報提供システム、または、第1態様から第7態様の何れかに係る情報処理方法をコンピュータに実行させるプログラムとしても、本発明の好適な態様は実現される。 An information providing system for executing the information processing method according to any one of the first to seventh aspects, or a program for causing a computer to execute the information processing method according to any one of the first to seventh aspects of the present invention. A preferred embodiment of is realized.

<他の態様>
本発明は、態様Aおよび態様Bとして以下に例示する通り、複数の登録区間を含む登録文字列と参照音とを照合することで、前記参照音のうち前記各登録区間に対応する単位期間を画定する方法としても特定される。
<Other aspects>
According to the present invention, as exemplified below as Aspect A and Aspect B, a unit period corresponding to each of the registered intervals among the reference sounds is determined by matching a registered character string including a plurality of registered intervals with a reference sound. Also specified as a method of definition.

本発明の態様Aは、登録文字列に対する音声合成で生成される合成音の特徴量を抽出し、参照音の特徴量と合成音の特徴量とを照合することで、参照音のうち各登録区間に対応する単位期間を画定する、コンピュータにより実現される情報処理方法である。 Aspect A of the present invention extracts a feature amount of a synthesized sound generated by speech synthesis for a registered character string, and compares the feature amount of the reference sound with the feature amount of the synthesized sound, thereby obtaining each registered sound among the reference sounds. A computer-implemented information processing method that defines a unit period corresponding to an interval.

本発明の態様Bは、登録文字列に対する音声合成で生成される合成音に対する音声認識で合成文字列を推定し、参照音に対する音声認識で推定された参照文字列と合成文字列とを照合することで、参照音のうち各登録区間に対応する単位期間を画定する、コンピュータにより実現される情報処理方法であり、前記参照音に対する音声認識と前記合成音に対する音声認識とにおいては共通の認識モデルが利用される。 Aspect B of the present invention estimates a synthesized character string by speech recognition of a synthesized sound generated by speech synthesis of a registered character string, and compares the reference character string estimated by speech recognition of a reference sound with the synthesized character string. This is a computer-implemented information processing method that defines a unit period corresponding to each registration interval of the reference sound, and a common recognition model is used for speech recognition of the reference sound and speech recognition of the synthesized sound. is used.

100…情報提供システム、200…管理システム、10…情報処理システム、11…制御装置、12…記憶装置、13…収音装置、14…放音装置、20…情報配信システム、30…端末装置、31…制御装置、311…情報抽出部、312…動作制御部、32…記憶装置、33…通信装置、34…収音装置、35…再生装置、40…通信網、51…位置推定部、52…情報特定部、53…信号処理部、531…変調処理部、532…合成処理部、55…解析処理部、60…舞台システム、61…管理装置、62…演出装置、621…音響装置、622…照明装置。
DESCRIPTION OF SYMBOLS 100... Information provision system, 200... Management system, 10... Information processing system, 11... Control device, 12... Storage device, 13... Sound collection device, 14... Sound emission device, 20... Information distribution system, 30... Terminal device, DESCRIPTION OF SYMBOLS 31... Control apparatus, 311... Information extraction part, 312... Operation control part, 32... Storage device, 33... Communication apparatus, 34... Sound collection apparatus, 35... Reproducing apparatus, 40... Communication network, 51... Position estimation part, 52 Information identification unit 53 Signal processing unit 531 Modulation processing unit 532 Synthesis processing unit 55 Analysis processing unit 60 Stage system 61 Management device 62 Production device 621 Acoustic device 622 … the lighting system.

Claims (7)

収音装置により実演を収音した観測音から抽出される特徴量と前記実演での発音が予定される参照音の特徴量との照合により、前記参照音に対する前記観測音の時間軸上の位置である実演位置を推定し、
前記参照音と複数の識別情報との時間的な対応を表す登録データを参照することで、前記複数の識別情報のうち前記実演位置に時間的に対応する識別情報を特定する
コンピュータにより実現される情報処理方法。
The position of the observed sound with respect to the reference sound on the time axis by matching the feature amount extracted from the observed sound collected by the sound collection device with the feature amount of the reference sound expected to be pronounced in the demonstration. Estimate the demonstration position where
Identifying identification information temporally corresponding to the performance position from among the plurality of identification information by referring to registration data representing the temporal correspondence between the reference sound and the plurality of identification information Implemented by a computer Information processing methods.
前記参照音は、前記実演での発音が予定される文字列に対する音声合成で生成された音であ
請求項1の情報処理方法。
2. The information processing method according to claim 1, wherein said reference sound is a sound generated by speech synthesis for a character string to be pronounced in said demonstration.
前記参照音は、過去の実演において収録された複数の収録音から生成された音であ
請求項1の情報処理方法。
2. The information processing method according to claim 1, wherein the reference sound is a sound generated from a plurality of recorded sounds recorded in past demonstrations.
前記実演に関する複数の関連情報のうち受信した識別情報に対応する関連情報を再生する端末装置に対して、前記特定した識別情報を送信する
請求項1から請求項の何れかの情報処理方法。
4. The information processing method according to any one of claims 1 to 3 , wherein the specified identification information is transmitted to a terminal device that reproduces related information corresponding to the received identification information among the plurality of related information related to the demonstration.
受信した識別情報に対応する演出動作を実行する舞台システムに対して、前記特定した識別情報を送信する
請求項1から請求項の何れかの情報処理方法。
4. The information processing method according to any one of claims 1 to 3 , wherein the identified identification information is transmitted to a stage system that executes a performance action corresponding to the received identification information.
さらに、 moreover,
前記観測音と、前記特定した識別情報の音響成分とを、放音装置により再生する reproducing the observed sound and the acoustic component of the identified identification information by a sound emitting device
請求項1の情報処理方法。 The information processing method according to claim 1.
収音装置により実演を収音した観測音から抽出される特徴量と前記実演での発音が予定される参照音の特徴量との照合により、前記参照音に対する前記観測音の時間軸上の位置である実演位置を推定する位置推定部と、
前記参照音と複数の識別情報との時間的な対応を表す登録データを参照することで、前記複数の識別情報のうち前記実演位置に時間的に対応する識別情報を特定する情報特定部と
を具備する情報処理システム。
The position of the observed sound with respect to the reference sound on the time axis by matching the feature amount extracted from the observed sound collected by the sound collection device with the feature amount of the reference sound expected to be pronounced in the demonstration. a position estimating unit that estimates a performance position that is
an information specifying unit that specifies, from among the plurality of identification information, identification information temporally corresponding to the performance position by referring to registration data representing temporal correspondence between the reference sound and the plurality of identification information; information processing system.
JP2018197793A 2018-10-19 2018-10-19 Information processing method and information processing system Active JP7200597B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018197793A JP7200597B2 (en) 2018-10-19 2018-10-19 Information processing method and information processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018197793A JP7200597B2 (en) 2018-10-19 2018-10-19 Information processing method and information processing system

Publications (2)

Publication Number Publication Date
JP2020064262A JP2020064262A (en) 2020-04-23
JP7200597B2 true JP7200597B2 (en) 2023-01-10

Family

ID=70387234

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018197793A Active JP7200597B2 (en) 2018-10-19 2018-10-19 Information processing method and information processing system

Country Status (1)

Country Link
JP (1) JP7200597B2 (en)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134613A (en) 1999-08-26 2001-05-18 Sony Corp Audio retrieval processing method, audio information retrieving device, audio information storing method, audio information storage device and audio video retrieval processing method, audio video information retrieving device, and method and device for storing audio video information
JP2001175267A (en) 1999-12-20 2001-06-29 Sony Corp System and method for authoring display lyrics, recording medium with display lyrics authoring program recorded thereon and automatic lyrics display system
JP2005221554A (en) 2004-02-03 2005-08-18 Seiko Epson Corp Controller and program
JP2008197271A (en) 2007-02-09 2008-08-28 Yamaha Corp Data reproduction device, data reproduction method, and program
JP2015219304A (en) 2014-05-15 2015-12-07 ヤマハ株式会社 Acoustic analysis device
JP2018042061A (en) 2016-09-06 2018-03-15 株式会社デンソーテン Electronic apparatus, connection object electronic apparatus, communication system, and communication method
JP2018091998A (en) 2016-12-02 2018-06-14 ヤマハ株式会社 Information processing system and information processing method

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134613A (en) 1999-08-26 2001-05-18 Sony Corp Audio retrieval processing method, audio information retrieving device, audio information storing method, audio information storage device and audio video retrieval processing method, audio video information retrieving device, and method and device for storing audio video information
JP2001175267A (en) 1999-12-20 2001-06-29 Sony Corp System and method for authoring display lyrics, recording medium with display lyrics authoring program recorded thereon and automatic lyrics display system
JP2005221554A (en) 2004-02-03 2005-08-18 Seiko Epson Corp Controller and program
JP2008197271A (en) 2007-02-09 2008-08-28 Yamaha Corp Data reproduction device, data reproduction method, and program
JP2015219304A (en) 2014-05-15 2015-12-07 ヤマハ株式会社 Acoustic analysis device
JP2018042061A (en) 2016-09-06 2018-03-15 株式会社デンソーテン Electronic apparatus, connection object electronic apparatus, communication system, and communication method
JP2018091998A (en) 2016-12-02 2018-06-14 ヤマハ株式会社 Information processing system and information processing method

Also Published As

Publication number Publication date
JP2020064262A (en) 2020-04-23

Similar Documents

Publication Publication Date Title
AU2015297648B2 (en) Terminal device, information providing system, information presentation method, and information providing method
US8311831B2 (en) Voice emphasizing device and voice emphasizing method
JP6276453B2 (en) Information providing system, program, and information providing method
WO2021083071A1 (en) Method, device, and medium for speech conversion, file generation, broadcasting, and voice processing
AU2015297647B2 (en) Information management system and information management method
US20060112812A1 (en) Method and apparatus for adapting original musical tracks for karaoke use
CN111179908A (en) Testing method and system of intelligent voice equipment
KR101312451B1 (en) Extraction method and extraction apparatus of voice signal used for voice recognition in enviroment outputting a plurality of audio sources
JP2023007405A (en) Voice conversion device, voice conversion method, program, and storage medium
JP6809177B2 (en) Information processing system and information processing method
JP7200597B2 (en) Information processing method and information processing system
JP6252420B2 (en) Speech synthesis apparatus and speech synthesis system
JP7331645B2 (en) Information provision method and communication system
WO2018173295A1 (en) User interface device, user interface method, and sound operation system
JP4595948B2 (en) Data reproducing apparatus, data reproducing method and program
CN114724540A (en) Model processing method and device, emotion voice synthesis method and device
JP7192948B2 (en) Information provision method, information provision system and program
JP2015079122A (en) Acoustic processing device
KR101321446B1 (en) Lyrics displaying method using voice recognition
CN115273860A (en) Multi-person audio processing method, device, equipment and storage medium
JP2016051036A (en) Voice synthesis system and voice synthesis device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210823

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220511

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220727

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221205

R151 Written notification of patent or utility model registration

Ref document number: 7200597

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313532