JP7048113B2 - Information processing equipment, information processing systems, and programs - Google Patents
Information processing equipment, information processing systems, and programs Download PDFInfo
- Publication number
- JP7048113B2 JP7048113B2 JP2020155497A JP2020155497A JP7048113B2 JP 7048113 B2 JP7048113 B2 JP 7048113B2 JP 2020155497 A JP2020155497 A JP 2020155497A JP 2020155497 A JP2020155497 A JP 2020155497A JP 7048113 B2 JP7048113 B2 JP 7048113B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- user terminal
- storage device
- character
- segments
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
Description
本発明は、情報処理装置、情報処理システム、および、プログラムに関する。 The present invention relates to an information processing apparatus , an information processing system, and a program.
IC(Integrated Circuit)レコーダは、マイクロフォンからのアナログ信号をアナログ/デジタル変換してデジタルの音データを生成し、音データを記憶媒体に記憶する。ICレコーダでは、生成された音データを圧縮する場合もある。ICレコーダは、例えば、会議の議事録作成、または、打合せ記録などの用途で使用される。 An IC (Integrated Circuit) recorder converts an analog signal from a microphone into analog / digital to generate digital sound data, and stores the sound data in a storage medium. The IC recorder may compress the generated sound data. The IC recorder is used, for example, for creating minutes of a meeting or recording a meeting.
例えばICレコーダなどによって生成された音データに対して各種のデータ処理を実行し、ユーザにとって利便性が高く有益なデータを生成することのニーズは高い。 For example, there is a great need to execute various data processes on sound data generated by an IC recorder or the like to generate useful data that is highly convenient for the user.
本発明は、上記実情に鑑みてなされたものであり、ユーザにとって利便性の高いデータを生成する情報処理装置、情報処理システム、および、プログラムを提供することを目的とする。 The present invention has been made in view of the above circumstances, and an object of the present invention is to provide an information processing apparatus , an information processing system, and a program that generate data highly convenient for the user.
本実施形態の情報処理装置は、記憶装置とプロセッサとを備える。記憶装置は、複数の音セグメントを記憶する。プロセッサは、ユーザ端末と通信可能であり、記憶装置からデータを読み出し、記憶装置へデータを記憶させる。プロセッサは、記憶装置に記憶されている複数の音セグメントに対する文字起こし処理によって得られる複数の文字セグメントを記憶装置へ記憶させ、ユーザ端末に、複数の文字セグメントと、複数の文字セグメントの組み込み先となり得るファイルを示すファイル情報とを表示させ、ユーザ端末に表示されている複数の文字セグメントのうちユーザに選択された複数の文字セグメントのそれぞれを示す複数のセグメント指定、および、ユーザ端末に表示されているファイル情報のうちユーザに選択された特定のファイル情報を、ユーザ端末から受信し、記憶装置に記憶されており特定のファイル情報の示すファイルに、複数のセグメント指定の示す複数の文字セグメントまたは複数の文字セグメントのデータ本体をまとめて組み込み、ユーザ端末に、ファイルを表示させ、ユーザ端末からの指示に基づいて、記憶装置に記憶されているファイルの編集を実行する。ファイルに、複数のセグメント指定の示す複数の文字セグメントまたは複数の文字セグメントのデータ本体を組み込むとは、ファイル内に、複数のセグメント指定の示す複数の文字セグメントまたは複数の文字セグメントのデータ本体を追加することである。 The information processing device of the present embodiment includes a storage device and a processor. The storage device stores a plurality of sound segments. The processor can communicate with the user terminal, reads data from the storage device, and stores the data in the storage device. The processor stores a plurality of character segments obtained by transcription processing for a plurality of sound segments stored in the storage device in the storage device, and becomes a destination for incorporating the plurality of character segments and the plurality of character segments in the user terminal. The file information indicating the file to be obtained is displayed, and among the multiple character segments displayed on the user terminal, multiple segment designations indicating each of the plurality of character segments selected by the user, and displayed on the user terminal are displayed. The specific file information selected by the user among the existing file information is received from the user terminal and stored in the storage device. The data body of the character segment of is incorporated together, the file is displayed on the user terminal, and the file stored in the storage device is edited based on the instruction from the user terminal. Incorporating a data body of multiple character segments or multiple character segments indicated by multiple segment specifications into a file means adding the data body of multiple character segments or multiple character segments indicated by multiple segment specifications to the file. It is to be.
本発明によれば、ユーザにとって利便性の高いデータを生成する情報処理装置、情報処理システム、および、プログラムを提供することができる。 According to the present invention, it is possible to provide an information processing device , an information processing system, and a program that generate data that is highly convenient for the user.
以下、図面を参照して実施形態を説明する。図面において、同一の機能及び構成要素については、同一符号を付して説明を省略するか、または、簡単に説明を行う。 Hereinafter, embodiments will be described with reference to the drawings. In the drawings, the same functions and components are designated by the same reference numerals and the description thereof will be omitted, or the description will be briefly described.
(第1の実施形態)
第1の実施形態では、複数のマイクロフォン接続用のコネクタ(接続端子)を備えるレコーダと、当該レコーダによって生成された音データ(例えば音声データ)を処理する第1のサーバ(情報処理装置)とを説明する。
(First Embodiment)
In the first embodiment, a recorder provided with connectors (connection terminals) for connecting a plurality of microphones and a first server (information processing device) for processing sound data (for example, voice data) generated by the recorder are provided. explain.
図1は、第1の実施形態に係るレコーダ1の一例を示すブロック図である。
FIG. 1 is a block diagram showing an example of the
レコーダ1は、複数の外付けのマイクロフォンM1~Mn(nは2以上の整数)と接続可能な複数のコネクタC1~Cnと、内蔵のマイクロフォンMと、操作装置(ユーザインタフェース装置)2と、表示装置3と、アナログ/デジタルコンバータ(以下、ADCという)4と、コントローラ5とを備える。コントローラ5は、例えば、プロセッサ6と、記憶装置7と、通信装置8とを備える。レコーダ1は、例えば、携帯型のICレコーダでもよい。
The
複数のコネクタC1~Cnのそれぞれは、複数のマイクロフォンM1~Mnを着脱可能である。また、複数のコネクタC1~Cnは、ADC4と接続されている。 A plurality of microphones M1 to Mn can be attached to and detached from each of the plurality of connectors C1 to Cn. Further, the plurality of connectors C1 to Cn are connected to the ADC4.
マイクロフォンMは、レコーダ1に内蔵されており、音を測定し、アナログ信号をADC4へ送信する。
The microphone M is built in the
操作装置2は、ユーザによる操作を受け付ける。操作装置2は、例えば、ユーザからの指示を受け付け、指示を例えばコントローラ5のプロセッサ6へ送信する。操作装置2は、例えば、ボタン、または、タッチパネルなどである。
The
第1の実施形態において、操作装置2は、例えば、コントローラ5のプロセッサ6から周期的にモードの問合せを受信し、問合せに対してユーザによって指定されているモードをプロセッサ6へ返す。あるいは、操作装置2は、ユーザからモードの指定を受け付けた場合に、このユーザによって指定されたモードをプロセッサ6へ通知する。
In the first embodiment, the
第1の実施形態において、モードとは、レコーダ1の動作の種類・態様を示す。レコーダ1は少なくとも2つのモードのいずれかで選択的に動作する。
In the first embodiment, the mode indicates the type / mode of operation of the
第1のモードは、非標準モード(例えばワンショットボイスモード)であり、タイトル、見出し、要約、メモ、管理情報、書誌事項の内容、解説、注意事項などの音入力に用いられる。 The first mode is a non-standard mode (for example, one-shot voice mode), which is used for inputting sounds such as titles, headings, summaries, memos, management information, contents of bibliographic items, explanations, and notes.
第2のモードは、標準モードであり、議事録、打合せの内容などの標準の音入力に用いられる。 The second mode is a standard mode, which is used for standard sound input such as minutes and meeting contents.
表示装置3は、例えばコントローラ5のプロセッサ6などによる制御にしたがって、例えば記憶装置7に記憶されている各種のデータを表示する。表示装置3は、例えば、液晶ディスプレイ、または、有機EL(Electro-Luminescence)ディスプレイなどである。
The
ADC4は、複数のマイクロフォンM1~Mnから複数のコネクタC1~Cn経由で複数のアナログ信号を受信可能である。また、ADC4は、マイクロフォンMからアナログ信号を受信可能である。第1の実施形態において、ADC4によって受信されるアナログ信号は、ステレオ信号であるとする。
The ADC 4 can receive a plurality of analog signals from the plurality of microphones M1 to Mn via the plurality of connectors C1 to Cn. Further, the
ADC4は、受信した少なくとも1つのアナログ信号に対してアナログ/デジタル変換を行い、デジタル信号をコントローラ5へ送信する。ADC4は、例えば、複数のマイクロフォンM1~Mnから複数のコネクタC1~Cn経由で複数のアナログ信号を受信した場合に、この複数のアナログ信号に基づいて1つのデジタル信号を生成(例えば合成)し、生成したデジタル信号を例えばコントローラ5のプロセッサ6へ送信する。
The ADC 4 performs analog / digital conversion on at least one received analog signal, and transmits the digital signal to the
また、ADC4は、複数のマイクロフォンM1~Mnから複数のコネクタC1~Cn経由で複数のアナログ信号を受信した場合に、複数のアナログ信号のレベルの取得、複数のアナログ信号が有効かまたは無効かの判断、複数のアナログ信号のゲイン(ボリューム)値の取得などを含む解析を実行する。そして、ADC4は、解析の結果を示す解析情報9をコントローラ5のプロセッサ6へ送信する。解析情報9は、例えば、複数のアナログ信号のレベル、複数のアナログ信号のゲイン値などを含む。
Further, when the ADC4 receives a plurality of analog signals from a plurality of microphones M1 to Mn via a plurality of connectors C1 to Cn, the ADC4 acquires a plurality of analog signal levels and determines whether the plurality of analog signals are valid or invalid. Perform analysis including judgment, acquisition of gain (volume) values of multiple analog signals, and so on. Then, the
なお、ADC4は、例えば、コントローラ5のプロセッサ6へ送信するデジタル信号または解析情報9に対してデータ圧縮を実行してもよい。
The ADC 4 may perform data compression on the digital signal or analysis information 9 transmitted to the
さらに、ADC4は、例えばコントローラ5のプロセッサ6などから受信した制御コマンド10にしたがって、複数のアナログ信号のレベルの調整、または、ゲイン値の調整などの制御を行う。これにより、デジタル信号の品質が向上する。
Further, the ADC 4 controls the level of a plurality of analog signals or the gain value according to the
記憶装置7は、例えばNAND型フラッシュメモリなどのような不揮発性メモリと、例えばDRAM(Dynamic Random Access Memory)などのような揮発性メモリとを備える。
The
記憶装置7は、例えば、オペレーティング・システム(以下、OSという)11、ソフトウェア12、メタデータ13、音データ14、解析データ15、音データ14に対応する文字データ16および翻訳データ17、音データ14に対する話者認識データ18などの各種のデータを記憶する。なお、メタデータ13、音データ14、解析データ15、文字データ16、翻訳データ17、話者認識データ18は、基本的には、第1のサーバ19で管理されており、必要に応じて、必要な部分が、第1のサーバ19から記憶装置7に部分的にダウンロードされ、記憶装置7に一時的に記憶され、レコーダ1で使用されるとしてもよい。この場合、レコーダ1の記憶装置7の記憶容量を低減させることができる。また、メタデータ13、音データ14、解析データ15、文字データ16、翻訳データ17、話者認識データ18のうちの一部が記憶装置7に記憶され、他の部分が第1のサーバ19で管理されてもよい。
The
メタデータ13は、音データ14、解析データ15、文字データ16、翻訳データ17、話者認識データ18に関するメタ情報を含む。メタデータ13は、例えば、音データ14、解析データ15、文字データ16、翻訳データ17、話者認識データ18を適宜関連付けている。メタデータ13は、音データ14、解析データ15、文字データ16、翻訳データ17、話者認識データ18の記憶位置の情報を含む。
The
音データ14は、ADC4から受信されたデジタル信号に基づいて生成される。
The
解析データ15は、音データ14に対応しておりADC4から受信された解析情報9を含む。
The
文字データ16は、音データ14に対応しており音データ14に対する文字起こし処理によって生成される例えばテキストデータを含む。
The
翻訳データ17は、音データ14に対応しており文字データ16に対する翻訳処理によって生成されるテキストデータを含む。
The
話者認識データ18は、音データ14に対応しており音データ14および解析データ15に基づいて実行された話者認識処理によって生成され、話者識別情報を含む。
The
記憶装置7に記憶されるメタデータ13、音データ14、解析データ15、文字データ16、翻訳データ17、話者認識データ18は、図2を用いて後で具体的に説明する。
The
通信装置8は、例えばプロセッサ6による制御にしたがって、無線または有線により、例えば第1のサーバ19または第2のサーバ20などの他の装置との間で、データ、情報、信号、リクエスト、コマンド、指示、通知、呼び出し、または、応答の送受信を行う。
The
プロセッサ6は、記憶装置7に記憶されているOS11およびソフトウェア12を実行することにより、例えば、制御部21、データ生成部22、判断部23、送信制御部24、受信制御部25、表示データ生成部26、表示制御部27として機能する。
By executing the OS 11 and
なお、制御部21、データ生成部22、判断部23、送信制御部24、受信制御部25、表示データ生成部26、表示制御部27は、適宜組み合わせてもよく、または、分割してもよい。例えば、送信制御部24と受信制御部25とは、通信制御部として組み合わせてもよい。例えば、表示データ生成部26と表示制御部27とは組み合わせてもよい。
The control unit 21,
制御部21は、レコーダ1に備えられている各種の構成要素、例えば、マイクロフォンM、操作装置2、表示装置3、ADC4を制御する。
The control unit 21 controls various components provided in the
制御部21は、例えば、ADC4から受信した解析情報9に基づいて、複数のマイクロフォンM1~Mnから複数のコネクタC1~Cn経由で受信する複数のアナログ信号の各レベルまたは各ゲイン値を所定範囲に調整するための制御コマンド10を決定し、制御コマンド10をADC4へ送信する。これにより、デジタル信号の品質が向上する。
The control unit 21 sets each level or each gain value of a plurality of analog signals received from the plurality of microphones M1 to Mn via the plurality of connectors C1 to Cn from the plurality of microphones M1 to Mn into a predetermined range, for example, based on the analysis information 9 received from the
制御部21は、例えば、複数のコネクタC1~Cnのうちのどのコネクタがマイクロフォンと接続状態にあるかを検出する。 The control unit 21 detects, for example, which of the plurality of connectors C1 to Cn is connected to the microphone.
制御部21は、例えば、ADC4から受信したデジタル信号、または、解析情報9に対するデータ復号を行う。
The control unit 21 performs data decoding for, for example, a digital signal received from the
判断部23は、操作装置2へモードの問合せを例えば周期的に送信し、操作装置2からモードの通知を受信する。そして、判断部23は、ユーザが第1のモードを指定しているか、または、第2のモードを指定しているかを判断する。プロセッサ6は、モードの判断結果にしたがって、例えば、通信方式、制御、処理、機能、利用するサーバを切り替え可能である。第1の実施形態では、プロセッサ6は、モードの判断結果にしたがって、利用するAPI(Application Programming Interface)を切り替える。
The
データ生成部22は、例えば、ADC4から受信したデジタル信号および解析情報9と、判断部23によるモードの判断結果とに基づいて、メタデータ13と音データ14と解析データ15とを生成する。データ生成部22は、例えば、音データ14を、時間または音のゲイン値の増減などに基づいて分割する。この分割されたデータのそれぞれを、音セグメントという。
The
そして、データ生成部22は、メタデータ13と音データ14と解析データ15とを記憶装置7へ記憶させる。
Then, the
送信制御部24は、判断部23によるモードの判断結果にしたがって、第1のサーバ19または第2のサーバ20に備えられているAPI(機能としてもよい)のうちどのAPIを使用するかを決定し、決定されたAPIを利用して、記憶装置7に記憶されているメタデータ13、音データ14、解析データ15、文字起こしリクエスト、翻訳リクエスト、話者認識リクエストを、通信装置8経由で第1のサーバ19または第2のサーバ20へ送信する。
The
なお、送信制御部24は、文字起こしリクエスト、翻訳リクエスト、話者認識リクエストなどのリクエストの送信を省略してもよい。この場合、例えば、送信制御部24が第1のサーバ19または第2のサーバ20へメタデータ13、音データ14、解析データ15を送信することで、文字起こしリクエスト、翻訳リクエスト、話者認識リクエストが送信されたものとみなす。以下の他の説明でも、リクエストの発行を省略し、データの送信をリクエストの発行とみなしてもよい。
The
第1の実施形態において、レコーダ1は、API19aを用いることにより、第1のサーバ19によって提供される機能を使用可能であり、API20aを用いることにより、第2のサーバ20によって提供される機能を使用可能である。
In the first embodiment, the
第1の実施形態において、送信制御部24は、例えば、通信装置8経由で第1のサーバ19または第2のサーバ20へ、ストリーミングにより、メタデータ13、音データ14、または、解析データ15を送信してもよい。送信制御部24は、例えば、通信装置8経由で第1のサーバ19または第2のサーバ20へ、ストリーミングではなく間隔をあけて(例えば所定のデータ量または所定の時間ごとに)、メタデータ13、音データ14、または、解析データ15をまとめて送信してもよい。送信制御部24は、例えば、データの送信開始から所定の期間、ストリーミングにより第1のサーバ19または第2のサーバ20へ、メタデータ13、音データ14、または、解析データ15を送信し、所定の期間経過後に、ストリーミングではなく間隔をあけて、第1のサーバ19または第2のサーバ20へ、メタデータ13、音データ14、または、解析データ15を送信してもよい。
In the first embodiment, the
送信制御部24は、例えば、メタデータ13、音データ14、解析データ15、文字データ16、翻訳データ17、話者認識データ18の評価(特徴検出、属性判断)演算を行い、評価値(特徴量、属性情報)に応じて利用するAPI、サーバ、または、機能を切り替えてもよい。より具体的には、送信制御部24は、例えば、文字データ16が所定の分野の用語を所定の割合以上含む場合に、分野判断結果にしたがって以降の音データを分野に特化した文字起こし処理へ送信してもよい。
The
受信制御部25は、例えば、第1のサーバ19または第2のサーバ20から通信装置8経由で、ストリーミングにより、文字データ16、翻訳データ17、話者認識データ18を受信してもよい。受信制御部25は、例えば、第1のサーバ19または第2のサーバ20から通信装置8経由で、ストリーミングではなく間隔をあけて、文字データ16、翻訳データ17、話者認識データ18を受信してもよい。受信制御部25は、例えば、データの送信開始から所定の期間、第1のサーバ19または第2のサーバ20から通信装置8経由で、ストリーミングにより文字データ16、翻訳データ17、話者認識データ18を受信し、所定の期間経過後に、第1のサーバ19または第2のサーバ20から通信装置8経由で、ストリーミングではなく間隔をあけて、文字データ16、翻訳データ17、話者認識データ18を受信してもよい。
The
受信制御部25は、受信した文字データ16、翻訳データ17、話者認識データ18を、記憶装置7に記憶させ、例えば文字データ16、翻訳データ17、話者認識データ18の位置情報を追加するなどのように、記憶装置7に記憶されているメタデータ13を更新する。
The
表示データ生成部26は、記憶装置7に記憶されている文字データ16、翻訳データ17、話者認識データ18を読み出し、ユーザの指示に対応する表示データを生成する。
The display
表示制御部27は、表示データ生成部26によって生成された表示データを表示装置3に表示させる。
The
第1の実施形態において、表示制御部27は、文字データ16または翻訳データ17をまとめて表示するのではなく、短い周期で1文字ずつ表示してもよい。これにより、ユーザは、レコーダ1が文字データ16または翻訳データ17を継続的に取得および記憶していることを認識することができる。
In the first embodiment, the
図2は、第1の実施形態に係るデータの構成の例を示すブロック図である。 FIG. 2 is a block diagram showing an example of the configuration of data according to the first embodiment.
メタデータ13は、音データ14、解析データ15、文字データ16、翻訳データ17、話者認識データ18に関する各種のメタ情報を含む。具体的には、メタデータ13は、音データ14、解析データ15、文字データ16、翻訳データ17、話者認識データ18に対して付される各種の属性情報であり、例えば、レコーダ1を使用するユーザのユーザ識別情報(ユーザID)、レコーダ1のデバイス識別情報(デバイスID)、時間情報(タイムスタンプ)、音データ14の位置情報、解析データ15の位置情報、文字データ16の位置情報、翻訳データ17の位置情報、話者認識データ18の位置情報、音データ14のサイズ、解析データ15のサイズ、文字データ16のサイズ、翻訳データ17のサイズ、話者認識データ18のサイズ、音データ14の種類情報(例えばデータ形式)、解析データ15の種類情報、文字データ16の種類情報、翻訳データ17の種類情報、話者認識データ18の種類情報などを含む。
The
音データ14は、ADC4から受信されたデジタル信号に基づいて生成されたデータである。音データ14は、複数の音セグメントSS1~SSm(mは、2以上の整数)を含む。デジタル信号に基づいて生成される音データ14のデータ本体は、時間経過、ゲイン値の増減、データ量などに基づいて複数の音セグメントSS1~SSmのデータ本体SD1~SDmに分割される。複数の音セグメントSS1~SSmのそれぞれは、メタデータSM1~SMmとデータ本体SD1~SDmを含む。音セグメントSS1~SSmに含まれるメタデータSM1~SMmは、音セグメントSS1~SSmに含まれるデータ本体SD1~SDmに関する各種のメタ情報であり、例えば、時間情報、モード種別情報などを含む。なお、音データ14内のメタデータSM1~SMmは、省略されてもよい。
The
解析データ15は、ADC4から受信された解析情報9に基づいて生成されたデータである。解析データ15は、複数の解析セグメントAS1~ASmを含む。複数の解析セグメントAS1~ASmのそれぞれは、メタデータAM1~AMmとデータ本体AD1~ADmを含む。解析セグメントAS1~ASmに含まれるメタデータAM1~AMmは、解析セグメントAS1~ASmに含まれるデータ本体AD1~ADmに関する各種のメタ情報である。
The
文字データ16は、音データ14に対する文字起こし処理により生成された例えばテキスト形式のデータである。文字データ16は、複数の文字セグメントCS1~CSmを含む。複数の文字セグメントCS1~CSmのそれぞれは、メタデータCM1~CMmとデータ本体CD1~CDmを含む。文字セグメントCS1~CSmに含まれるメタデータCM1~CMmは、文字セグメントCS1~CSmに含まれるデータ本体CD1~CDmに関する各種のメタ情報である。
The
翻訳データ17は、文字データ16に対する翻訳処理により生成された例えばテキスト形式のデータである。翻訳データ17は、複数の翻訳セグメントTS1~TSmを含む。複数の翻訳セグメントTS1~TSmのそれぞれは、メタデータTM1~TMmとデータ本体TD1~TDmを含む。翻訳セグメントTS1~TSmに含まれるメタデータTM1~TMmは、翻訳セグメントTS1~TSmに含まれるデータ本体TD1~TDmに関する各種のメタ情報である。
The
話者認識データ18は、音データ14および解析データ15に基づいて話者認識処理により生成されたデータである。話者認識データ18は、複数の話者認識セグメントRS1~RSmを含む。複数の話者認識セグメントRS1~RSmのそれぞれは、メタデータRM1~RMmとデータ本体RD1~RDmを含む。話者認識セグメントRS1~RSmに含まれるメタデータRM1~RMmは、話者認識セグメントRS1~RSmに含まれるデータ本体RD1~RDmに関する各種のメタ情報である。
The
メタデータSM1~SMm,AM1~AMm,CS1~CSm,TM1~TMm,RM1~RMmは、音セグメントSS1~SSm、解析セグメントAS1~ASm、文字セグメントCS1~CSm、翻訳セグメントTS1~TSm、話者認識セグメントRS1~RSmのそれぞれの位置情報を含む。さらに、音セグメントSS1、解析セグメントAS1、文字セグメントCS1、翻訳セグメントTS1、話者認識セグメントRS1は、例えば、それぞれのメタデータSM1,AM1,CM1,TM1,RM1内の時間情報などにより互いに関連付けられている。同様に、他の音セグメントSS2~SSm、解析セグメントAS2~ASm、文字セグメントCS2~CSm、翻訳セグメントTS2~TSm、話者認識セグメントRS2~RSmについても、メタデータSM2~SMm,AM2~AMm,CS2~CSm,TM2~TMm,RM2~RMmに基づいて、関連付けられている他のセグメントを認識可能である。 Metadata SM1 to SMm, AM1 to AMm, CS1 to CSm, TM1 to TMm, RM1 to RMm are sound segments SS1 to SSm, analysis segments AS1 to ASm, character segments CS1 to CSm, translation segments TS1 to TSm, and speaker recognition. Includes the position information of each of the segments RS1 to RSm. Further, the sound segment SS1, the analysis segment AS1, the character segment CS1, the translation segment TS1, and the speaker recognition segment RS1 are associated with each other by, for example, time information in their respective metadata SM1, AM1, CM1, TM1, RM1. There is. Similarly, for other sound segments SS2-SSm, analysis segments AS2-ASm, character segments CS2-CSm, translation segments TS2-TSm, and speaker recognition segments RS2-RSm, the metadata SM2-SMm, AM2-AMm, CS2 Other associated segments can be recognized based on ~ CSm, TM2 ~ TMm, RM2 ~ RMm.
図3は、第1の実施形態に係る第1のサーバ19の構成の一例を示すブロック図である。
FIG. 3 is a block diagram showing an example of the configuration of the
情報処理システム28は、レコーダ1と第1のサーバ19とを備える。
The
第1のサーバ19は、レコーダ1、第2のサーバ20、ユーザ端末29と、無線または有線により通信可能である。
The
第1のサーバ19は、通信装置30と、記憶装置31と、プロセッサ32とを備える。
The
通信装置30は、レコーダ1、第2のサーバ20、または、ユーザ端末29と、無線または有線により、例えば、データ、情報、信号、リクエスト、コマンド、指示、通知、呼び出し、または、応答などの送受信を行う。
The
記憶装置31は、OS33と、当該OS33によって制御されるサーバ・ソフトウェア34とを記憶している。サーバ・ソフトウェア34は、文字セグメントなどを含む表示データを、通信装置30経由でユーザ端末29のブラウザ36に提供可能である。なお、サーバ・ソフトウェア34は、例えば、メッセージ交換ソフトウェア、Web会議ソフトウェア、または、SNS(Social Networking Service)を提供するソフトウェアなどでもよい。
The
さらに、記憶装置31は、例えば、ユーザ情報68、メタデータ13、音データ14、解析データ15、文字データ16、翻訳データ17、話者認識データ18、ユーザに選択(例えばピックアップ)されたピックアップ・セグメント35を組み込んだファイル、ブログデータ50などを記憶する。ここで、ファイルにピックアップ・セグメント35を組み込むとは、例えば、ファイル内に、ピックアップ・セグメント35に含まれるデータ本体のテキストデータを追加することを意味する。
Further, the
第1の実施形態において、ユーザによって指定されたピックアップ・セグメント35は、ユーザによって指定されたファイルに組み込まれる。
In the first embodiment, the pick-up
ユーザ情報68は、第1のサーバ19で提供されるWebサイトに登録をしたユーザの各種情報を含む、具体的には、ユーザ情報68は、例えば、ユーザ識別情報、ユーザの使用するデバイス識別情報、ユーザの属性情報などを含む。ユーザ情報68は、例えば、ユーザ識別情報またはデバイス識別情報により、メタデータ13と関連付けられている。したがって、サーバ・ソフトウェア34は、ユーザ情報68に関連するメタデータ13、音データ14、解析データ15、文字データ16、翻訳データ17、話者認識データ18、ピックアップ・セグメント35を検索または読み出すことができる。
The
プロセッサ32は、レコーダ1から通信装置30経由で受信したリクエストまたはデータにしたがって、API19aに基づく各種の機能を提供する。換言すれば、第1のサーバ19は、API19aを用いて他の装置と連携して動作する。
The
プロセッサ32は、記憶装置31に記憶されているOS33およびサーバ・ソフトウェア34を実行することにより、例えば、受信部37、文字起こし部38、翻訳部39、話者認識部40、送信部41、表示制御部42、ピックアップ部43、見積生成部44、依頼部45、ブログエディタ46として機能する。
By executing the
受信部37は、レコーダ1から通信装置30経由で、文字起こしリクエストと、翻訳リクエストと、話者認識リクエストと、メタデータ13と、音データ14と、解析データ15とを受信し、ユーザ情報68と、メタデータ13と、音データ14と、解析データ15とを関連付けた状態で、記憶装置31に記憶させる。
The receiving
文字起こし部38は、受信部37によって文字起こしリクエストが受信された場合に、音データ14に対する文字起こし処理を実行し、文字データ16を生成し、文字データ16を記憶装置31に記憶させ、メタデータ13を更新する。文字起こし部38は、例えば、メタデータ13に、文字データ16の位置情報などを登録する。
When the transcription request is received by the
あるいは、文字起こし部38は、受信部37によって文字起こしリクエストが受信された場合に、通信装置30経由で第2のサーバ20に文字起こしリクエストと音データ14とを送信し、API20aを用いて第2のサーバ20に文字起こし処理47を実行させ、第2のサーバ20から通信装置30経由で文字データ16を受信し、文字データ16を記憶装置31に記憶させ、メタデータ13を更新してもよい。
Alternatively, when the transcription request is received by the
翻訳部39は、受信部37によって翻訳リクエストが受信された場合に、文字データ16に対する翻訳処理を実行し、翻訳データ17を生成し、翻訳データ17を記憶装置31に記憶させ、メタデータ13を更新する。翻訳部39は、例えば、メタデータ13に、翻訳データ17の位置情報などを登録する。
When the translation request is received by the receiving
あるいは、翻訳部39は、受信部37によって翻訳リクエストが受信された場合に、通信装置30経由で第2のサーバ20に翻訳リクエストと文字データ16とを送信し、API20aを用いて第2のサーバ20に翻訳処理48を実行させ、第2のサーバ20から通信装置30経由で翻訳データ17を受信し、翻訳データ17を記憶装置31に記憶させ、メタデータ13を更新してもよい。
Alternatively, when the translation request is received by the receiving
話者認識部40は、受信部37によって話者認識リクエストが受信された場合に、音データおよび解析データ15に基づいて話者認識処理を実行し、話者認識データ18を生成し、話者認識データ18を記憶装置31に記憶させ、メタデータ13を更新する。話者認識部40は、例えば、メタデータ13に、話者認識データ18の位置情報などを登録する。
When the speaker recognition request is received by the
あるいは、話者認識部40は、受信部37によって話者認識リクエストが受信された場合に、通信装置30経由で第2のサーバ20に話者認識リクエストと音データ14と解析データ15とを送信し、API20aを用いて第2のサーバ20に話者認識処理49を実行させ、第2のサーバ20から通信装置30経由で話者認識データ18を受信し、話者認識データ18を記憶装置31に記憶させ、メタデータ13を更新してもよい。
Alternatively, when the speaker recognition request is received by the
第1の実施形態において、解析データ15は、複数のマイクロフォンM1~Mnのそれぞれによって取得された複数のアナログ信号のレベルまたはゲイン値を含むため、音データ14の信号がどの話者による音声であるかを精度よく認識することができる。
In the first embodiment, since the
送信部41は、通信装置30経由でレコーダ1へ、文字起こしリクエストの応答である文字データ16を送信し、翻訳リクエストの応答である翻訳データ17を送信し、話者認識リクエストの応答である話者認識データ18を送信する。
The
表示制御部42は、ユーザ端末29から通信装置30経由で受信した表示リクエストにしたがって、記憶装置31に記憶されているユーザ情報68、メタデータ13、音データ14、文字データ16、翻訳データ17、話者認識データ18、ピックアップ・セグメント35に基づいて、表示データを生成し、表示データを通信装置30経由でユーザ端末29に送信する。ユーザ端末29では、ブラウザ36により受信した表示データをユーザが閲覧可能な状態で表示する。この表示データの画面は、図4を用いて後で説明する。なお、表示制御部42と、ユーザ端末29のブラウザ36などのソフトウェアとの連携により、画面表示が行われてもよい。
The
ピックアップ部43は、ユーザ端末29のブラウザ36の画面に、メニューを表示させる処理を実行する。メニューは、ユーザ端末29で表示されておりユーザによって指定されたセグメントをコピーする宛先(例えばファイル)を選択するために用いられる。このメニューは、図4を用いて後で説明する。ピックアップ部43は、ユーザによって指定されたセグメントの宛先の指定を促すメニューを生成し、メニューを通信装置30経由でユーザ端末29に表示させる。なお、ピックアップ部43と、ユーザ端末29のブラウザ36などのソフトウェアとの連携により、メニュー表示が行われてもよい。
The
ユーザは、メニューを使用してこのメニューに対応するセグメントをコピーすることおよび宛先(ファイル、フォルダ、ディレクトリ)を指定することができる。 The user can use the menu to copy the segment corresponding to this menu and specify the destination (file, folder, directory).
そして、ピックアップ部43は、ユーザ端末29による指定にしたがって、ユーザ端末29によって指定されたピックアップ・セグメント35を、ユーザ端末29によって指定された記憶装置31の宛先に記憶させる。上述のように、第1の実施形態では、ピックアップ・セグメント35は、ユーザ端末29によって指定されたファイルに組み込まれる。
Then, the
なお、ピックアップ部43は、ユーザに指定された複数のピックアップ・セグメント35を、同じファイルへまとめて組み込んでもよい。ピックアップ部43は、先に少なくとも1つのピックアップ・セグメント35の指定を受け付け、次に、宛先を受け付けてもよい。あるいは、ピックアップ部43は、先に宛先を受け付け、次に、少なくとも1つのピックアップ・セグメント35の指定を受け付けてもよい。
The
見積生成部44は、ユーザ端末29から通信装置30経由で、人による文字起こしのリクエストを受信した場合に、記憶装置31に記憶されている音データ14と文字データ16とのうちの少なくとも1つに基づいて、見積生成処理を実行し、見積データを、通信装置30経由でユーザ端末29に送信する。
The
見積生成処理は、例えば、音データ14の時間長と単位時間あたりの料金との掛け算により、見積額を計算してもよく、文字データ16の文字数と1文字あたりの料金との掛け算により、見積額を計算してもよい。
In the estimate generation process, for example, the estimated amount may be calculated by multiplying the time length of the
ユーザ端末29のブラウザ36は、見積データを表示する。ユーザ端末29は、見積データを閲覧したユーザから人による文字起こしの発注指示を受け付けると、人による文字起こしの発注リクエストを第1のサーバ19へ送信する。
The
依頼部45は、ユーザ端末29から通信装置30経由で、発注リクエストを受信した場合に、例えば、発注書データと音データ14とを、通信装置30経由で所定の文字起こし業者のアドレスへ送信する。
When the
ブログエディタ46は、記憶装置31に記憶されている例えばユーザ情報68、メタデータ13、音データ14、文字データ16、翻訳データ17、話者認識データ18、ヒックアップ・セグメント35を適宜読み出し、読み出したユーザ情報68、メタデータ13、音データ14、文字データ16、翻訳データ17、話者認識データ18、ヒックアップ・セグメント35の少なくとも一部をブログデータ50に組み込み、編集可能とする。ブログエディタ46は、編集中または編集結果であるブログデータ50を記憶装置31へ記憶させる。
The
第2のサーバ20は、API20aを用いてレコーダ1または第1のサーバ19などの他の装置と連携して動作する。第2のサーバ20は、レコーダ1または第1のサーバ19から受信した文字起こしリクエスト、翻訳リクエスト、話者認識リクエスト、または、データの受信にしたがって、文字起こし処理47、翻訳処理48、または、話者認識処理49を実行し、実行結果をリクエストまたはデータの発信元へ返す。第2のサーバ20は、例えば、ASP(Application Service Provider)のサーバである。
The
ユーザ端末29は、例えば、第1のサーバ19によって提供されるサイトへアクセス可能であり、ログインし、第1のサーバ19へデータをアップロードすることができ、第1のサーバ19からデータをダウンロードすることができる。ユーザ端末29は、ブラウザ36などを用いて、第1のサーバ19からダウンロードされたデータを表示可能である。ユーザ端末29は、マウス、タッチパネル、キーボードなどのユーザインタフェース装置によりユーザの操作を受け付け、データ、情報、信号、リクエスト、コマンド、指示、呼び出し、または、通知を第1のサーバ19へ送信する。ユーザ端末29は、第1のサーバ19からダウンロードされたデータまたはプログラムを実行することにより第1のサーバ19と連携して動作可能であり、例えばユーザの指定の受け付けまたはデータの表示などを実行する。
The
ユーザ端末29は、レコーダ1と同様に、このユーザ端末29に取得されている音データ(例えば動画データとともに再生される音データ)を第1のサーバ19へ送信し、音データに対応する文字データ、翻訳データ、話者認識データを受信し、表示してもよい。
Similar to the
図4は、第1のサーバ19からダウンロードされたデータをユーザ端末29のブラウザ36で表示した画面51の例を示す図である。
FIG. 4 is a diagram showing an example of a
画面51は、例えば、メタデータ13に含まれている例えば時間情報T、音データ14の時間変化52、文字データ16に含まれる文字セグメントCS1~CS6のデータ本体CD1~CD6、文字データ16に含まれる文字セグメントCS1~CS6のメタデータCM1~CM6に含まれる時間情報T1~T6、ユーザ情報68に含まれているユーザ名N、ユーザ名Nのユーザに関連する音データ14のログ情報52L、ユーザ名Nのユーザに関連するピックアップ・セグメント35の宛先(ファイル名)53、人による文字起こしボタン55を含む。
The
さらに、画面51は、ユーザが指定した(例えばマウスオーバーした)文字セグメントCS2のデータ本体CD2に対して表示されたメニュー54を含む。メニュー54は、ユーザに対して、ピックアップ・セグメント35の宛先53の指定を促す。図面51では、マウスオーバーされたデータ本体CD2の表示表域の右上部分に、メニュー54が表示されている。
Further, the
第1の実施形態において、ユーザがユーザ端末29を操作し、文字セグメントCS2の宛先を指定すると、ユーザ端末29は、例えば第1のサーバ19のピックアップ部43と連携して、指定された文字セグメントCS2を、ユーザ端末29によって指定された宛先に記憶させる。
In the first embodiment, when the user operates the
画面51では、音データ14の時間変化52が上から下へ時間が経過するように表示されている。文字セグメントCS1~CS6のデータ本体CD1~CD6は、音データ14の時間変化52の横に表示されており、時間情報T1~T6にしたがってデータ本体CD1~CD6と音データ14の時間変化52とが紐づけられている。
On the
人による文字起こしボタン55は、人による文字起こしを使用するユーザによって押下される。人による文字起こしボタン55が押下されると、ブラウザ36は、見積データを表示する。
The
以上説明した第1の実施形態において、レコーダ1のコントローラ5は、ADC4から受信した解析情報9に基づいてADC4を制御することができる。このため、コントローラ5は、高品質の音データ14を生成することができ、音データ14に基づいて高品質の文字データ16または翻訳データ17を取得することができる。
In the first embodiment described above, the
第1の実施形態において、レコーダ1は、複数のマイクロフォンM1~Mnを接続するための複数のコネクタC1~Cnを備えており、第1のサーバ19または第2のサーバ20は、複数のマイクロフォンM1~Mnによって取得された複数のアナログ信号の解析情報9などに基づいて話者の認識を行う。このため、話者認識を高精度に行うことができる。
In the first embodiment, the
第1の実施形態においては、レコーダ1と、第1のサーバ19と第2のサーバ20とのうちの少なくとも一方との連携により、音データ14に対応する文字データ16または翻訳データ17が生成される。このため、ユーザは、第1のサーバ19によって提供される特殊なまたは専門的な文字起こし処理、翻訳処理、話者認識処理を利用することができる。また、ユーザは、第2のサーバ20によって提供される最新の文字起こし処理47、翻訳処理48、話者認識処理49を利用することができる。これにより、ユーザは、高品質の文字データ16、翻訳データ17、話者認識データ18を取得することができる。
In the first embodiment, the
第1の実施形態において、ユーザは、レコーダ1の操作装置2を用いて、第1のモードと第2のモードとの切り替えを容易に行うことができ、モードの切り替えに応じて容易にAPI、機能、処理、サーバを切り替えることができる。このため、ユーザの利便性が向上する。
In the first embodiment, the user can easily switch between the first mode and the second mode by using the
第1の実施形態において、レコーダ1は、音データ14を記憶するとともに、文字データ16または翻訳データ17を周期的に1文字ずつ表示していく。この場合、レコーダ1の表示内容は、継続的に変化する。このため、ユーザは、レコーダ1が動作していることを容易に理解できる。
In the first embodiment, the
第1の実施形態において、ユーザは、第1のサーバ19から受信した表示データをユーザ端末29のブラウザ36により閲覧し、メタデータ13、音データ14、文字データ16、翻訳データ17、話者認識データ18を相互に関連付けて参照することができる。
In the first embodiment, the user browses the display data received from the
第1の実施形態において、ユーザは、文字セグメントCS1~CSm、翻訳セグメントTS1~TSmの中からピックアップ・セグメント35を指定すること、および、ピックアップ・セグメント35の宛先を指定することにより、ピックアップ・セグメント35を宛先のファイルに組み込んで記憶することができる。これにより、ユーザは、データの整理を効率的に行うことができる。
In the first embodiment, the user specifies the
第1の実施形態において、ユーザは、音セグメントSS1~SSm、文字セグメントCS1~CSm、翻訳セグメントTS1~TSmを組み込んで、ブログデータ50を生成することができる。これにより、ユーザは、ブログ作成・編集を効率的に行うことができる。
In the first embodiment, the user can generate the
(第2の実施形態)
第2の実施形態では、第1の実施形態で説明したレコーダ1の変形例を説明する。
(Second embodiment)
In the second embodiment, a modification of the
図5は、第2の実施形態に係るレコーダ1Aの一例を示すブロック図である。
FIG. 5 is a block diagram showing an example of the
レコーダ1Aは、複数のコネクタC1~Cnと、出力用コネクタCoと、内蔵のマイクロフォンMと、スピーカ56と、ADC4と、デジタル/アナログコンバータ(以下、DACという)57と、電源装置58と、操作装置2と、表示装置3と、時計装置59と、記憶装置7と、通信装置8と、プロセッサ(またはコントローラ)6とを備える。なお、ADC4、DAC57、時計装置59、通信装置8、プロセッサ6は、適宜組み合わせてもよい。レコーダ1Aの各種の構成要素は、例えば、バス60を介して互いにデータ、情報、信号、リクエスト、コマンド、指示、通知、呼び出し、または、応答などを送受信可能である。
The
出力用コネクタCoは、外付けのスピーカ、ヘッドフォン、または、イヤホンなどの音出力装置と接続可能である。出力用コネクタCoは、例えばDAC57から受信したアナログ信号を、この出力用コネクタCoに接続された音出力装置へ出力する。
The output connector Co can be connected to a sound output device such as an external speaker, headphones, or earphones. The output connector Co outputs, for example, an analog signal received from the
また、出力用コネクタCoは、他の情報処理装置などと接続可能である。出力用コネクタCoは、データを、この出力用コネクタCoに接続された情報処理装置へ出力する。 Further, the output connector Co can be connected to another information processing device or the like. The output connector Co outputs data to the information processing device connected to the output connector Co.
スピーカ56は、レコーダ1に内蔵されており、DAC57から受信したアナログ信号に基づいて音を出力する。
The
電源装置58は、電池を搭載可能であるか、または、充電式の電池を備えており、レコーダ1Aの各構成要素に対して電力を供給する。
The
操作装置2は、ユーザによって操作される。操作装置2は、例えば、ユーザからの指示を受け付け、指示をプロセッサ6へ通知する。操作装置2は、第1の操作部2aと第2の操作部2bとを備える。第1の操作部2aと第2の操作部2bとのうちの少なくとも一方は、例えばボタンなどでもよい。
The operating
第1の操作部2aは、ユーザからモードの指定を受け付け、ユーザのモードの指定状態をプロセッサ6へ送信する。第2の実施形態において、レコーダ1Aは少なくとも第1および第2のモードで動作可能である。
The
第2の操作部2bは、音データ生成と文字起こし(テキストデータ生成。書き起こしと表記されてもよい)と翻訳との開始をユーザから1回の指定(クリックまたは押下)で受け付け、ユーザから音データ生成と文字起こしと翻訳とが指示されたことを示す信号をプロセッサ6へ送信する。
The
なお、第2の操作部2bは、音データ生成と文字起こしとをユーザから1回の指定で受け付け、翻訳を他の指定で受け付けてもよい。
The
ADC4は、解析情報9をプロセッサ6へ送信する。なお、ADC4は、解析情報9をDAC57経由でプロセッサ6の入力ポート6pへ送信してもよい。
The
DAC57は、ADC4から受信したデジタル信号に対して、デジタル/アナログ変換を行い、アナログ信号を、プロセッサ6におけるアナログ信号用の入力ポート6pへ送信する。
The
また、DAC57は、プロセッサ6から受信した音出力用のデジタル信号をアナログ信号へ変換し、アナログ信号をスピーカ56または出力用コネクタCoへ出力する。
Further, the
時計装置59は、例えばプロセッサ6へ時間情報を送信する。
The
プロセッサ6は、入力ポート6pから入力したアナログ信号に対するアナログ/デジタル変換機能6aを備える。
The
アナログ/デジタル変換機能11aは、DAC57からプロセッサ6のアナログ信号用の入力ポート6p経由でアナログ信号を受信すると、アナログ信号をデジタル信号に変換する。
When the analog / digital conversion function 11a receives an analog signal from the
図6は、第2の実施形態に係るレコーダ1Aの外観を示す正面図である。
FIG. 6 is a front view showing the appearance of the
このレコーダ1Aの正面には、表示装置3と、第1の操作部2aと、第2の操作部2bと、第3の操作部2cと、スピーカ56と、マイクロフォンMとが配置されている。
A
表示装置3には、メタデータ13の一部と文字データ16の一部とが表示されている。
A part of the
図6には図示されていないが、例えば、レコーダ1Aの上面または側面には、外付けのマイクロフォンM1~Mn用の複数のコネクタC1~Cnが配置されている。
Although not shown in FIG. 6, for example, a plurality of connectors C1 to Cn for external microphones M1 to Mn are arranged on the upper surface or the side surface of the
第1の操作部2aは、モードの指定を受け付ける。第2の操作部2bは、文字起こしの開始と終了の指示を受け付ける。第3の操作部2cは、電源のオン/オフを受け付ける。
The
以上説明した第2の実施形態に係るレコーダ1Aを用いることにより、上記の第1の実施形態で説明したレコーダ1を用いる場合と同様の効果を得ることができる。
By using the
第2の実施形態に係るレコーダ1Aを使用するユーザは、レコーダ1Aの第2の操作部2bを用いて、音の録音と文字起こし、あるいは、音の録音と文字起こしと翻訳とを1回の指定により容易に行うことができ、ユーザの利便性を向上させることができる。
The user who uses the
(第3の実施形態)
第3の実施形態では、第1の実施形態で説明した第1のサーバ19の変形例を説明する。第3の実施形態では、第1のサーバが、レコーダ1またはユーザ端末29から、メタデータ13と、音データ14と、文字起こしリクエストとを受信した場合を例として説明する。なお、第1のサーバが、レコーダ1またはユーザ端末29から、翻訳リクエストまたは話者認識リクエストを受信した場合も、同様である。また、先で説明したように、リクエストの送受信は省略されてもよい。
(Third embodiment)
In the third embodiment, a modification of the
図7は、第3の実施形態に係る第1のサーバ19Aの構成の一例を示すブロック図である。
FIG. 7 is a block diagram showing an example of the configuration of the
第1のサーバ19Aは、ユーザの所有するレコーダ1またはユーザ端末29とゲートウェイ61を介して通信可能である。ゲートウェイ61は、インタフェースの異なる装置間での通信を可能とする。
The
第1のサーバ19Aは、API&スタティックウェブページ62、データベース63、音データ14用の記憶装置64、文字起こしタスクキュー65、文字起こし処理66、文字データ16およびピックアップ・セグメント35用の記憶装置67を備える。
The
データベース63、記憶装置64、記憶装置67は、上記第1の実施形態で説明した第1のサーバの記憶装置31に相当する。
The
API&スタティックウェブページ62は、まず、スタティックウェブページを、ゲートウェイ61経由で、レコーダ1またはユーザ端末29へ提供する。レコーダ1またはユーザ端末29は、スタティックウェブページに基づいて動作する。これにより、レコーダ1またはユーザ端末29と第1のサーバ19AとがAPIを用いて連携して動作可能となる。
The API &
API&スタティックウェブページ62は、例えば、第1の実施形態で説明した通信装置30、受信部37、表示制御部42、送信部41、ピックアップ部43、見積生成部44、依頼部45、ブログエディタ46などに相当する。
The API &
API&スタティックウェブページ62は、レコーダ1またはユーザ端末29へ、APIサービスを提供するとともに、ウェブサイトとしての機能を提供する。API&スタティックウェブページ62は、レコーダ1またはユーザ端末29からゲートウェイ61経由でリクエストまたはデータを受信した場合に、リクエストまたはデータに応じた処理を実行し、データベース63、記憶装置64、記憶装置67に記憶されておりリクエストまたはデータに対応するデータを、ゲートウェイ61経由でレコーダ1またはユーザ端末29へ送信する。
The API &
具体的には、API&スタティックウェブページ62は、例えば、レコーダ1またはユーザ端末29からゲートウェイ61経由で、メタデータ13、音データ14、文字起こしリクエストを受信する。そして、API&スタティックウェブページ62は、メタデータ13を、ユーザ情報68と関連付けた状態でデータベース63へ記憶させ、音データ14を記憶装置64へ記憶させる。
Specifically, the API &
また、API&スタティックウェブページ62は、文字起こしリクエストまたは音データ14を受信すると、文字起こしタスクキュー65に、文字起こしタスクを記憶させる。
Further, when the API &
さらに、API&スタティックウェブページ62は、必要に応じて、データベース63に記憶されているメタデータ13、記憶装置64に記憶されている音データ14、または、記憶装置67に記憶されている文字データ16またはピックアップ・セグメント35を読み出し、読み出したメタデータ13、音データ14、文字データ16、ピックアップ・セグメント35を、ゲートウェイ61経由でユーザ端末29へ送信する。
Further, the API &
文字起こしタスクキュー65は、先入先出方式で、文字起こしタスクの実行順序を管理し、実行すべき文字起こしタスクを文字起こし処理66へ提供する。
The
文字起こし処理66は、上記第1の実施形態で説明した文字起こし部38に相当する。文字起こし処理66は、文字起こしタスクキュー65から取得した文字起こしタスクにしたがって、記憶装置64に記憶されている音データ14を読み出し、音データ14に対応する文字データ16を生成し、文字データ16を記憶装置67に記憶させる。さらに、文字起こし処理66は、データベース63で管理されているメタデータ13を更新し、メタデータ13に文字データ16の位置情報を追加する。
The
文字起こし処理66は、例えばAPI20aを用いて第2のサーバ20の文字起こし処理47により文字データ16を取得してもよい。
The
以上説明した第3の実施形態に係る第1のサーバ19Aを用いることにより、上記の第1の実施形態で説明した第1のサーバ19を用いる場合と同様の効果を得ることができる。
By using the
第3の実施形態においては、メタデータ13を記憶するデータベース63と、音データ14を記憶する記憶装置64と、文字データ16およびピックアップ・セグメント35を記憶する記憶装置67とを区別している。メタデータ13、音データ14、文字データ16およびピックアップ・セグメント35は、データの形式および種類が異なる。このように、形式および種類が異なるデータを異なる記憶装置に記憶することで、データの形式および種類に適した環境で、データを管理することができ、例えば検索のスピードを速くすることができ、記憶容量を抑制することができる。
In the third embodiment, the
なお、本願発明は、上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具現化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組み合わせにより種々の発明を形成できる。例えば、各実施形態に示される全構成要素から幾つかの構成要素を削減してもよい。更に、異なる実施形態に亘る構成要素を適宜組合せてもよい。 The invention of the present application is not limited to each of the above embodiments as it is, and at the implementation stage, the components can be modified and embodied within a range that does not deviate from the gist thereof. In addition, various inventions can be formed by an appropriate combination of the plurality of components disclosed in each of the above embodiments. For example, some components may be reduced from all the components shown in each embodiment. Further, components over different embodiments may be combined as appropriate.
1,1A…レコーダ、M1~Mn,M…マイクロフォン、C1~Cn…コネクタ、2…操作装置、3…表示装置、4…ADC、5…コントローラ、6…プロセッサ、7,64,67…記憶装置、8…通信装置、9…解析情報、10…制御コマンド、13…メタデータ、14…音データ、15…解析データ、16…文字データ、17…翻訳データ、18…話者認識データ、19,19A…第1のサーバ、20…第2のサーバ、22…データ生成部、23…判断部、24…送信制御部、25…受信制御部、26…表示データ生成部、27…表示制御部、68…ユーザ情報、38…文字起こし部、39…翻訳部、40…話者認識部、44…見積生成部、43…ピックアップ部、54…メニュー、62…API&スタティックウェブページ、63…データベース、65…文字起こしタスクキュー、66…文字起こし処理。 1,1A ... Recorder, M1-Mn, M ... Microphone, C1-Cn ... Connector, 2 ... Operating device, 3 ... Display device, 4 ... ADC, 5 ... Controller, 6 ... Processor, 7,64,67 ... Storage device , 8 ... communication device, 9 ... analysis information, 10 ... control command, 13 ... metadata, 14 ... sound data, 15 ... analysis data, 16 ... character data, 17 ... translation data, 18 ... speaker recognition data, 19, 19A ... 1st server, 20 ... 2nd server, 22 ... data generation unit, 23 ... judgment unit, 24 ... transmission control unit, 25 ... reception control unit, 26 ... display data generation unit, 27 ... display control unit, 68 ... User information, 38 ... Transcription section, 39 ... Translation section, 40 ... Speaker recognition section, 44 ... Estimate generation section, 43 ... Pickup section, 54 ... Menu, 62 ... API & static web page, 63 ... Database, 65 … Transcription task queue, 66… Transcription processing.
Claims (7)
ユーザ端末と通信可能であり、前記記憶装置からデータを読み出し、前記記憶装置へデータを記憶させるプロセッサと、
を具備し、
前記プロセッサは、
前記記憶装置に記憶されている前記複数の音セグメントに対する文字起こし処理によって得られる複数の文字セグメントを前記記憶装置へ記憶させ、
前記ユーザ端末に、前記複数の文字セグメントと、前記複数の文字セグメントの組み込み先となり得るファイルを示すファイル情報とを表示させ、
前記ユーザ端末に表示されている前記複数の文字セグメントのうちユーザに選択された複数の文字セグメントのそれぞれを示す複数のセグメント指定、および、前記ユーザ端末に表示されている前記ファイル情報のうち前記ユーザに選択された特定のファイル情報を、前記ユーザ端末から受信し、
前記記憶装置に記憶されており前記特定のファイル情報の示すファイルに、前記複数のセグメント指定の示す前記複数の文字セグメントまたは前記複数の文字セグメントのデータ本体をまとめて組み込み、
前記ユーザ端末に、前記ファイルを表示させ、前記ユーザ端末からの指示に基づいて、前記記憶装置に記憶されている前記ファイルの編集を実行し、
前記ファイルに、前記複数のセグメント指定の示す前記複数の文字セグメントまたは前記複数の文字セグメントのデータ本体を組み込むとは、前記ファイル内に、前記複数のセグメント指定の示す前記複数の文字セグメントまたは前記複数の文字セグメントのデータ本体を追加することである、
情報処理装置。 A storage device that stores multiple sound segments,
A processor that can communicate with a user terminal, reads data from the storage device, and stores the data in the storage device.
Equipped with
The processor
A plurality of character segments obtained by transcription processing for the plurality of sound segments stored in the storage device are stored in the storage device.
The user terminal is displayed with the plurality of character segments and file information indicating a file that can be a destination for incorporating the plurality of character segments.
A plurality of segment designations indicating each of the plurality of character segments selected by the user among the plurality of character segments displayed on the user terminal, and the user among the file information displayed on the user terminal. The specific file information selected for is received from the user terminal and
The data body of the plurality of character segments or the plurality of character segments indicated by the plurality of segment designations is collectively incorporated into the file stored in the storage device and indicated by the specific file information.
The file is displayed on the user terminal, and the file stored in the storage device is edited based on the instruction from the user terminal.
Incorporating the plurality of character segments or the data bodies of the plurality of character segments indicated by the plurality of segment designations into the file means that the plurality of character segments or the plurality of characters indicated by the plurality of segment designations are incorporated in the file. Is to add the data body of the character segment of
Information processing equipment.
前記プロセッサは、前記ユーザ端末に、前記複数の文字セグメントを、前記複数の時間情報に基づく時間経過にそって表示させる、
請求項1の情報処理装置。 The storage device stores the plurality of character segments in association with each other and a plurality of time information.
The processor causes the user terminal to display the plurality of character segments along the passage of time based on the plurality of time information.
The information processing device according to claim 1.
先に、前記複数のセグメント指定を前記ユーザ端末から受信し、次に、前記特定のファイル情報を前記ユーザ端末から受信する、
請求項1または請求項2の情報処理装置。 The processor
First, the plurality of segment designations are received from the user terminal, and then the specific file information is received from the user terminal.
The information processing device according to claim 1 or 2.
前記ユーザ端末に表示されている複数の文字セグメントのうち前記ユーザに選択された前記複数の文字セグメントのそれぞれを示す前記複数のセグメント指定を前記ユーザ端末から受信し、
前記複数のセグメント指定の示す前記複数の文字セグメントの前記組み込み先となり得るファイルを示す前記ファイル情報を前記ユーザ端末に表示させ、
前記ユーザ端末に表示されている前記ファイル情報のうち前記ユーザに選択された前記特定のファイル情報を前記ユーザ端末から受信する、
請求項3の情報処理装置。 The processor
Among the plurality of character segments displayed on the user terminal, the plurality of segment designations indicating each of the plurality of character segments selected by the user are received from the user terminal.
The user terminal is displayed with the file information indicating the file that can be the embedding destination of the plurality of character segments indicated by the plurality of segment designations.
Among the file information displayed on the user terminal, the specific file information selected by the user is received from the user terminal.
The information processing device according to claim 3.
先に、前記特定のファイル情報を前記ユーザ端末から受信し、次に、前記複数のセグメント指定を前記ユーザ端末から受信する、
請求項1または請求項2の情報処理装置。 The processor
First, the specific file information is received from the user terminal, and then the plurality of segment designations are received from the user terminal.
The information processing device according to claim 1 or 2.
前記情報処理装置と通信可能なレコーダと、
を具備し、
前記レコーダは、
複数のマイクロフォンと接続可能な複数のコネクタと、
前記複数のコネクタのそれぞれから受信した複数のアナログ信号をデジタル信号へ変換するアナログ・デジタルコンバータと、
前記デジタル信号に基づいて音データを生成し、前記音データを前記情報処理装置へ送信するコントローラと、
を具備し、
前記コントローラは、前記アナログ・デジタルコンバータから前記複数のアナログ信号のレベルを含む解析情報を受信し、前記解析情報に基づいて前記複数のアナログ信号のレベルを調整するための制御コマンドを前記アナログ・デジタルコンバータへ送信し、
前記プロセッサは、前記コントローラから受信した前記音データを前記記憶装置に記憶させ、
前記音データは、前記複数の音セグメントを含む、
情報処理システム。 The information processing device according to any one of claims 1 to 5.
A recorder capable of communicating with the information processing device,
Equipped with
The recorder is
With multiple connectors that can be connected to multiple microphones,
An analog-to-digital converter that converts a plurality of analog signals received from each of the plurality of connectors into a digital signal.
A controller that generates sound data based on the digital signal and transmits the sound data to the information processing device.
Equipped with
The controller receives analysis information including the levels of the plurality of analog signals from the analog-to-digital converter, and issues a control command for adjusting the levels of the plurality of analog signals based on the analysis information. Send to the converter
The processor stores the sound data received from the controller in the storage device, and stores the sound data in the storage device.
The sound data includes the plurality of sound segments.
Information processing system.
記憶装置に、複数の音セグメントを記憶させる機能と、
前記記憶装置に記憶されている前記複数の音セグメントに対する文字起こし処理によって得られる複数の文字セグメントを前記記憶装置に記憶させる機能と、
前記ユーザ端末に、前記複数の文字セグメントと前記複数の文字セグメントの組み込み先となり得るファイルを示すファイル情報とを表示させる機能と、
前記ユーザ端末に表示されている前記複数の文字セグメントのうちユーザに選択された複数の文字セグメントのそれぞれを示す複数のセグメント指定、および、前記ユーザ端末に表示されている前記ファイル情報のうち前記ユーザに選択された特定のファイル情報を、前記ユーザ端末から受信する機能と、
前記記憶装置に記憶されており前記特定のファイル情報の示すファイルに、前記複数のセグメント指定の示す前記複数の文字セグメントまたは前記複数の文字セグメントのデータ本体をまとめて組み込む機能と、
前記ユーザ端末に、前記ファイルを表示させ、前記ユーザ端末からの指示に基づいて、前記記憶装置に記憶されている前記ファイルの編集を実行する機能と、
を実現させ、
前記ファイルに、前記複数のセグメント指定の示す前記複数の文字セグメントまたは前記複数の文字セグメントのデータ本体を組み込むとは、前記ファイル内に、前記複数のセグメント指定の示す前記複数の文字セグメントまたは前記複数の文字セグメントのデータ本体を追加することである、プログラム。 For computers that can communicate with user terminals
A function to store multiple sound segments in a storage device,
A function of storing a plurality of character segments obtained by transcription processing for the plurality of sound segments stored in the storage device in the storage device, and a function of storing the plurality of character segments in the storage device.
A function of displaying the plurality of character segments and file information indicating a file that can be a destination of incorporating the plurality of character segments on the user terminal.
A plurality of segment designations indicating each of the plurality of character segments selected by the user among the plurality of character segments displayed on the user terminal, and the user among the file information displayed on the user terminal. The function to receive the specific file information selected for from the user terminal, and
A function of collectively incorporating the plurality of character segments indicated by the plurality of segment designations or the data body of the plurality of character segments into a file stored in the storage device and indicated by the specific file information.
A function of displaying the file on the user terminal and editing the file stored in the storage device based on an instruction from the user terminal.
Realized,
Incorporating the plurality of character segments or the data bodies of the plurality of character segments indicated by the plurality of segment designations into the file means that the plurality of character segments or the plurality of characters indicated by the plurality of segment designations are incorporated in the file. A program that is to add the data body of a character segment of.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020155497A JP7048113B2 (en) | 2020-09-16 | 2020-09-16 | Information processing equipment, information processing systems, and programs |
PCT/JP2021/003498 WO2021161834A1 (en) | 2020-02-10 | 2021-02-01 | Recorder, information processing device, information processing system, and information processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020155497A JP7048113B2 (en) | 2020-09-16 | 2020-09-16 | Information processing equipment, information processing systems, and programs |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020103824A Division JP6770769B1 (en) | 2020-02-10 | 2020-06-16 | Information processing equipment, information processing systems, and programs |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021128744A JP2021128744A (en) | 2021-09-02 |
JP7048113B2 true JP7048113B2 (en) | 2022-04-05 |
Family
ID=81259152
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020155497A Active JP7048113B2 (en) | 2020-02-10 | 2020-09-16 | Information processing equipment, information processing systems, and programs |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7048113B2 (en) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010532521A (en) | 2007-06-29 | 2010-10-07 | マイクロソフト コーポレーション | Providing the audio item selected by the sender to the conversation participant |
WO2010146869A1 (en) | 2009-06-18 | 2010-12-23 | 日本電気株式会社 | Editing support system, editing support method and editing support program |
JP2016119600A (en) | 2014-12-22 | 2016-06-30 | オリンパス株式会社 | Editing device and editing method |
JP2019050482A (en) | 2017-09-08 | 2019-03-28 | オリンパス株式会社 | Information acquisition device, display method, and program |
-
2020
- 2020-09-16 JP JP2020155497A patent/JP7048113B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010532521A (en) | 2007-06-29 | 2010-10-07 | マイクロソフト コーポレーション | Providing the audio item selected by the sender to the conversation participant |
WO2010146869A1 (en) | 2009-06-18 | 2010-12-23 | 日本電気株式会社 | Editing support system, editing support method and editing support program |
JP2016119600A (en) | 2014-12-22 | 2016-06-30 | オリンパス株式会社 | Editing device and editing method |
JP2019050482A (en) | 2017-09-08 | 2019-03-28 | オリンパス株式会社 | Information acquisition device, display method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP2021128744A (en) | 2021-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7508535B2 (en) | Stand alone multimedia printer with user interface for allocating processing | |
US7773977B2 (en) | Data-sharing system and data-sharing method | |
US7386193B2 (en) | Information processing apparatus, information processing method, information processing system and program thereof | |
US7890470B2 (en) | Method and apparatus for synchronizing device providing content directory service with device not providing content directory | |
KR100803580B1 (en) | Electronic music distribution service system and method using synchronous multimedia integration language format | |
US8340797B2 (en) | Method and system for generating and processing digital content based on text-to-speech conversion | |
CN103166941A (en) | Data sharing method and device | |
CN101459564A (en) | Information processing device and home network system | |
KR20150024188A (en) | A method for modifiying text data corresponding to voice data and an electronic device therefor | |
JP2008293219A (en) | Content management system, information processor in content management system, link information generation system in information processor, link information generation program in information processor, and recording medium with link information generation program recorded thereon | |
CN106470146A (en) | The method and apparatus that instant messaging applicating Chinese is originally converted to voice | |
WO2023125847A1 (en) | Audio processing method and system, and related apparatuses | |
JP2016058103A (en) | Method for wireless charging of mobile terminal | |
JP7048113B2 (en) | Information processing equipment, information processing systems, and programs | |
JP6770769B1 (en) | Information processing equipment, information processing systems, and programs | |
KR100465818B1 (en) | Multimedia data management system and method of controlling the same | |
CN107948408A (en) | The playback method and device of a kind of media file | |
WO2021161834A1 (en) | Recorder, information processing device, information processing system, and information processing method | |
JP6736116B1 (en) | Recorder and information processing device | |
CN109218813A (en) | A kind of playback method of media data, device, electronic equipment and storage medium | |
JP6051075B2 (en) | A communication karaoke system that can continue duet singing in the event of a communication failure | |
KR20150022639A (en) | Electronic device and method for using captured image in electronic device | |
JP2009037320A (en) | Information processor and control method for information processor | |
KR101909543B1 (en) | Apparatus and Method for Generating Combined Profile | |
JP2014199282A (en) | Singing motion picture data generation device capable of using still picture imaged by user camera |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200916 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20200916 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20201008 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210216 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210415 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210713 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210907 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220215 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220316 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7048113 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |