JP6172770B2 - 要約筆記支援システム、情報配信装置、要約筆記支援方法、及びプログラム - Google Patents

要約筆記支援システム、情報配信装置、要約筆記支援方法、及びプログラム Download PDF

Info

Publication number
JP6172770B2
JP6172770B2 JP2015506661A JP2015506661A JP6172770B2 JP 6172770 B2 JP6172770 B2 JP 6172770B2 JP 2015506661 A JP2015506661 A JP 2015506661A JP 2015506661 A JP2015506661 A JP 2015506661A JP 6172770 B2 JP6172770 B2 JP 6172770B2
Authority
JP
Japan
Prior art keywords
data
writer
utterance
terminal device
interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015506661A
Other languages
English (en)
Other versions
JPWO2014148190A1 (ja
Inventor
知也 西村
知也 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Solutions Innovators Ltd
Original Assignee
NEC Solutions Innovators Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Solutions Innovators Ltd filed Critical NEC Solutions Innovators Ltd
Publication of JPWO2014148190A1 publication Critical patent/JPWO2014148190A1/ja
Application granted granted Critical
Publication of JP6172770B2 publication Critical patent/JP6172770B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/009Teaching or communicating with deaf persons
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L2021/065Aids for the handicapped in understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Description

本発明は、話者の要約筆記を支援するための、要約筆記支援システム、情報配信装置、端末装置、要約筆記支援方法、及びこれらを実現するためのプログラムに関する。
両耳の聴力がマイナス100デシベル以上の聴覚障がい者(以下、単に「聴覚障がい者」と記す)は、補聴器等を付けても、ほとんど音声中の言語情報を聞き取ることができない。このため従来から、聴覚障がい者が講演及び学校での授業等を聴講するに際して、手話通訳者を付ける場合と、要約筆記通訳者を付ける場合とがあった。
このうち、要約筆記通訳者を付ける場合には、通常、聴覚障がい者1人に対して、例えば学校での授業であれば、要約筆記通訳者が2人以上付けられる。そして、これらの要約筆記者は、先生の話す内容などを、PC(Personal Computer)又は紙のノート等によって文字化し、これを聴覚障がい者に対して提示する。なお、要約筆記通訳者が2人以上必要となるのは、要約筆記作業は負担が大きく、1人では要約精度が低下しやすいからである。
ところで、18歳以下の聴覚障がい学生が平成20年度の厚生労働省の調べでは全国で約2万人存在し、それに対し、正式に登録されている要約筆記通訳者は全国で約1万人である。その上で、聴覚障がい学生1人に対して2人以上の要約筆記通訳者が付くとすると、支援を受けることが可能な聴覚障がい学生は、単純に計算しても全体の1/4である。さらに、地域によって要約筆記者の数及び聴覚障がい学生の数には、ばらつきがある。これらの理由から、より少ない人数の聴覚障がい学生しか、学校において支援を受けることが出来ないのが現状である。
そこで、要約筆記通訳者の数を増やすために各団体で養成等が行われ、新しい要約筆記通訳者は、1年間の講習及び訓練の義務付け等によって能力が鍛えられた上で、要約筆記者として登録される。しかし、要約筆記者の数は微増でしかないため、依然として支援を受けられない学生が多くいるという問題がある。
ところで、特許文献1及び2は、字幕を書き起こす際に筆記者を支援するシステムを開示している。特許文献1及び2に開示されたシステムは、音声の再生速度を調整する機能と、字幕作成者が入力したテキストデータを映像データに自動的に合成する機能とを備えている。このようなシステムであれば、要約筆記通訳者の数が足りないという上記問題の解決に貢献できるとも考えられる。
また、特許文献3は、プレゼンテーションの際に、音声を音声認識しながら、リアルタイムで認識結果を修正し、そして修正後の認識結果を字幕として表示するシステムを開示している。特許文献3に開示されたシステムを導入すれば、要約筆記通訳者の数が足りないという上記問題の解決により確実に貢献できると考えられる。
特開2003−223199号公報 特開2003−223200号公報 特開2007−256714号公報
しかしながら、特許文献1及び2に開示されたシステムは、筆記者が、放送又は放映の前に、映像を見ながら音声を聞いて字幕を作成する際に、筆記者を支援することを目的としており、リアルタイムでの発話を文字化する際の支援を目的としたものではない。このため、特許文献1又は2に開示されたシステムを採用しても、要約筆記通訳者不足を解消することは困難である。
一方、また、特許文献3に開示されたシステムでは、発話に対してリアルタイムで字幕を表示することができるので、特許文献1及び2のような問題は生じないと考えられるが、音声認識が行なわれるため、それに起因する問題が存在している。
つまり、特許文献3に開示されたシステムでは、音声認識精度の向上のため、1又は複数の文字列候補と文字列候補毎の確信度とに基づき、現在の処理状況に応じて、自動での候補提示、又は手動での候補提示が行なわれる。加えて、手動の場合に候補を提示できないときは、マッチングスコアに基づいて候補が提示される。
しかしながら、音声認識における認識率は、発話環境によっては大きく低下する場合がある。例えば、発話の音声に対して周囲の環境音が大きい場合、複数の話者が同時に発生する場合、言葉に方言及び略語が含まれている場合である。このような場合、特許文献3に開示されたシステムでは、正確な情報を提供できないという問題がある。
本発明の目的の一例は、上記問題を解消し、要約筆記を実施する者の要約筆記の経験が浅い場合でも、聴覚障がい者に正確な情報を提供し得る、要約筆記支援システム、情報配信装置、要約筆記支援方法、及びプログラムを提供することにある。
上記目的を達成するため、本発明の一側面における要約筆記支援システムは、話者の発話の要約筆記を支援するためのシステムであって、
前記要約筆記を行なう筆記者が使用する筆記者用の端末装置と、前記端末装置に前記発話の音声データを送信する情報配信装置と、を備え、
前記情報配信装置は、
前記発話の音声から無音区間を特定し、特定した前記無音区間のうち、設定条件を満たす前記無音区間を前記話者の息継ぎ区間として特定する、息継ぎ検知部と、
筆記者に割り当てられた割当時間毎に、前記息継ぎ区間が、当該割当時間の終点を基準とした範囲内に存在するかどうかを判定し、
前記息継ぎ区間が前記範囲内に存在すると判定する場合に、当該割当時間の開始点から前記息継ぎ区間までにおける前記発話の音声データを生成し、
前記息継ぎ区間が前記範囲内に存在しないと判定する場合に、当該割当時間の開始点から終点までにおける前記発話の音声データを生成する、データ処理部と、
前記データ処理部によって生成された前記音声データを、前記割当時間が割り当てられている前記筆記者の前記端末装置に送信する、データ送信部と、を備え、
前記筆記者用の端末装置は、
前記情報配信装置から送信されてきた前記音声データを受信する、データ受信部と、
前記音声データに対応して入力されたテキストデータの入力を受け付ける入力部と、
入力が受け付けられた前記テキストデータを、要約筆記の利用者が使用する利用者用の端末装置に送信する、データ送信部と、を備えている、
ことを特徴とする。
また、上記目的を達成するため、本発明の一側面における情報配信装置は、話者の発話の要約筆記を行なう筆記者が使用する筆記者用の端末装置に、前記発話の音声データを送信するための装置であって、
前記発話の音声から無音区間を特定し、特定した前記無音区間のうち、設定条件を満たす前記無音区間を前記話者の息継ぎ区間として特定する、息継ぎ検知部と、
筆記者に割り当てられた割当時間毎に、前記息継ぎ区間が、当該割当時間の終点を基準とした範囲内に存在するかどうかを判定し、
前記息継ぎ区間が前記範囲内に存在すると判定する場合に、当該割当時間の開始点から前記息継ぎ区間までにおける前記発話の音声データを生成し、
前記息継ぎ区間が前記範囲内に存在しないと判定する場合に、当該割当時間の開始点から終点までにおける前記発話の音声データを生成する、データ処理部と、
前記データ処理部によって生成された前記音声データを、前記割当時間が割り当てられている前記筆記者の前記端末装置に送信する、データ送信部と、を備えている、
ことを特徴とする。
上記目的を達成するため、本発明の一側面における端末装置は、話者の発話の要約筆記を行なう筆記者が使用する端末装置であって、
前記発話の音声データを送信する情報配信装置から、前記筆記者に割り当てられた割当時間毎に、前記音声データを受信する、データ受信部と、
前記音声データに対応して入力されたテキストデータの入力を受け付ける入力部と、
入力が受け付けられた前記テキストデータを、要約筆記の利用者が使用する利用者用の端末装置に送信する、データ送信部と、を備えている、
ことを特徴とする。
また、上記目的を達成するため、本発明の一側面における要約筆記支援方法は、話者の発話の要約筆記を行なう筆記者が使用する筆記者用の端末装置と、前記端末装置に前記発話の音声データを送信する情報配信装置と、を用いて、要約筆記を支援するための方法であって、
(a)前記情報配信装置によって、前記発話の音声から無音区間を特定し、特定した前記無音区間のうち、設定条件を満たす前記無音区間を前記話者の息継ぎ区間として特定する、ステップと、
(b)前記情報配信装置によって、前記筆記者に割り当てられた割当時間毎に、前記息継ぎ区間が、当該割当時間の終点を基準とした範囲内に存在するかどうかを判定し、
前記息継ぎ区間が前記範囲内に存在すると判定する場合に、当該割当時間の開始点から前記息継ぎ区間までにおける前記発話の音声データを生成し、
前記息継ぎ区間が前記範囲内に存在しないと判定する場合に、当該割当時間の開始点から終点までにおける前記発話の音声データを生成する、ステップと、
(c)前記情報配信装置によって、前記(b)のステップで生成された前記音声データを、前記割当時間が割り当てられている前記筆記者の前記端末装置に送信する、ステップと、
(d)前記筆記者用の端末装置によって、前記情報配信装置から送信されてきた前記音声データを受信する、ステップと、
(e)前記筆記者用の端末装置によって、前記音声データに対応して入力されたテキストデータの入力を受け付けるステップと、
(f)前記筆記者用の端末装置によって、前記(e)のステップで入力が受け付けられた前記テキストデータを、要約筆記の利用者が使用する利用者用の端末装置に送信する、ステップと、
を有することを特徴とする。
上記目的を達成するため、本発明の一側面における第1のプログラムは、コンピュータによって、話者の発話の要約筆記を行なう筆記者が使用する筆記者用の端末装置に、前記発話の音声データを送信するためのプログラムであって、
前記コンピュータに、
(a)前記発話の音声から無音区間を特定し、特定した前記無音区間のうち、設定条件を満たす前記無音区間を前記話者の息継ぎ区間として特定する、ステップと、
(b)筆記者に割り当てられた割当時間毎に、前記息継ぎ区間が、当該割当時間の終点を基準とした範囲内に存在するかどうかを判定し、
前記息継ぎ区間が前記範囲内に存在すると判定する場合に、当該割当時間の開始点から前記息継ぎ区間までにおける前記発話の音声データを生成し、
前記息継ぎ区間が前記範囲内に存在しないと判定する場合に、当該割当時間の開始点から終点までにおける前記発話の音声データを生成する、ステップと、
(c)前記(b)のステップによって生成された前記音声データを、前記割当時間が割り当てられている前記筆記者の前記端末装置に送信する、ステップと、
を実行させることを特徴とする。
また、上記目的を達成するため、本発明の一側面における第2のプログラムは、話者の発話の要約筆記を行なう筆記者が使用するコンピュータに、
(a)前記発話の音声データを送信する情報配信装置から、前記筆記者に割り当てられた割当時間毎に、前記音声データを受信する、ステップと、
(b)前記音声データに対応して入力されたテキストデータの入力を受け付ける、ステップと、
(c)前記(b)のステップで入力が受け付けられた前記テキストデータを、要約筆記の利用者が使用する利用者用の端末装置に送信する、ステップと、
を実行させることを特徴とする。
以上のように、本発明によれば、要約筆記を実施する者の要約筆記の経験が浅い場合でも、聴覚障がい者に正確な情報を提供することができる。
図1は、本発明の実施の形態における要約筆記支援システムの全体構成を示す構成図である。 図2は、本発明の実施の形態における要約筆記支援システムの構成を具体的に示すブロック図である。 図3は、図2に示す音声認識部、息継ぎ検知部、及びデータ処理部での処理を模式的に示す図である。 図4は、本発明の実施の形態における情報配信装置の動作を示すフロー図である。 図5は、本発明の実施の形態における筆記者端末の動作を示すフロー図である。 図6は、本発明の実施の形態における利用者端末の動作を示すフロー図である。 図7は、本発明の実施の形態における情報配信装置、筆記者端末及び利用者端末を実現するコンピュータの一例を示すブロック図である。 図8は、本発明の実施例における音声認識部、息継ぎ検知部、及びデータ処理部での処理を示す図である。
(発明の概要)
本発明は、話者の発話に対して要約筆記を行なう筆記者を支援する。本発明では、情報配信装置は、筆記者に割り当てられている割当時間に基づいて、話者の音声データを区切り、得られた音声データを、ネットワークを介して、筆記者の端末装置に送信する。
このとき、筆記者に割り当てる割当時間の長さは、例えば、筆記者の要約筆記の能力に合わせて設定される。具体的には、要約筆記の経験が浅い筆記者の場合は、30秒未満等の短い時間が割り当てられる。そして、音声データは、話者の息継ぎのタイミングに合せて区切られる。このため、筆記者の経験が浅く、短時間で要約を作成するのが難しい場合であっても、利用者である聴覚障がい者が理解しやすい要約が作成されることになる。
また、本発明の好ましい態様では、情報配信装置は、筆記者の端末装置に、音声データだけでなく、映像を配信することもできる。この態様では、筆記者は、配信されてきた映像の中から、要約に最も相応しい場面を選択でき、筆記者の選択した場面の静止画像が、要約のテキストデータと共に、利用者の端末装置へと送信される。このため、利用者における要約の理解がよりいっそう高まることになる。また、このとき、筆記者は、利用者の理解を助けるため、要約筆記の内容に加えて、自身のコメントを加えることもできる。
更に、上記の好ましい態様では、情報配信装置は、話者の周辺を撮影する複数のカメラから映像を取得し、取得した複数の映像を、筆記者の端末装置に配信することができる。この場合、筆記者は、より適切な場面を選択することができる。
(実施の形態)
以下、本発明の実施の形態における、要約筆記支援システム、情報配信装置、端末装置、要約筆記支援方法、及びプログラムについて、図1〜図7を参照しながら説明する。
[システム構成]
最初に、図1を用いて、要約筆記支援システムのシステム構成について説明する。図1は、本発明の実施の形態における要約筆記支援システムの全体構成を示す構成図である。
図1に示す、本実施の形態における要約筆記支援システム400は、話者40の発話の要約筆記を支援するためのシステムである。図1に示すように、要約筆記支援システム400は、要約筆記を行なう筆記者50が使用する筆記者用の端末装置(以下「筆記者端末」と表記する。)200と、筆記者端末200に発話の音声データを送信する情報配信装置100とを備えている。
また、図1において、端末装置300は、要約筆記の利用者60である聴覚障がい者が利用する利用者用の端末装置(以下「利用者端末」と表記する。)である。利用者60は、利用者端末300を介して、筆記者50による要約筆記サービスを受けることができる。
また、本実施の形態において、情報配信装置100、筆記者端末200、及び利用者端末300は、インターネット等のネットワーク410を介して接続されており、互いに情報をやり取りする。なお、図1の例では、筆記者端末200は2台、利用者端末300は1台であるが、これらの端末装置の数は特に限定されるものではない。
図1に示すように、情報配信装置100は、息継ぎ検知部104と、データ処理部105と、データ送信部106とを備えている。このうち、息継ぎ検知部104は、発話の音声から無音区間を特定し、特定した無音区間のうち、設定条件を満たす無音区間を話者40の息継ぎ区間として特定する。
データ処理部105は、まず、各筆記者50に割り当てられた時間(以下「割当時間」と表記する。)毎に、息継ぎ区間が、いずれかの割当時間の終点を基準とした範囲内に存在するかどうかを判定する。図1の例では、筆記者50は2人であるので、各筆記者50に交互に担当の割当時間が割り当てられる。
そして、データ処理部105は、息継ぎ区間が範囲内に存在すると判定する場合は、該当する割当時間の開始点から息継ぎ区間までにおける発話の音声データを生成する。一方、データ処理部105は、息継ぎ区間が範囲内に存在しないと判定する場合は、該当する割当時間の開始点から終点までにおける発話の音声データを生成する。
データ送信部106は、データ処理部105によって生成された音声データ(以下「要約筆記用音声データ」と表記する。)を、該当する割当時間が割り当てられている筆記者50の筆記者端末200に送信する。
また、図1に示すように、筆記者端末200は、データ受信部201と、入力部203と、データ送信部207とを備えている。このうち、データ受信部201は、情報配信装置100から送信されてきた要約筆記用音声データを受信する。
入力部203は、受信された要約筆記用音声データに対応して入力されたテキストデータの入力を受け付ける。データ送信部207は、入力が受け付けられたテキストデータを、利用者端末300に送信する。
以上のように、本実施の形態では、各筆記者50には、割当時間に合せた音声データが送信されるので、筆記者の経験が浅い場合は、時間が短い音声データを送信することができる。また、音声データは、話者の息継ぎのタイミングに合せて区切られる。このため、筆記者の経験が浅く、短時間で要約を作成するのが難しい場合であっても、利用者である聴覚障がい者が理解しやすい要約が作成されることになる。
特に、割当時間を30秒未満等の短い時間に設定した場合は、筆記者50は、聞いた音声をそのままテキスト化するだけでも良いため、特別な訓練を十分に受けていない筆記者50であっても、聴覚障がい者をサポートすることができる。また、筆記者端末200は、ネットワーク410を介して、情報配信装置100と利用者端末300とに接続されていれば良いことから、筆記者50は、遠隔に存在していても要約筆記を行なうことができる。以上の理由から、本実施の形態によれば、要約筆記への参加障壁を下げることができるので、要約筆記によるサポートを受けることができる聴覚障がい者の数を増やすことができる。
続いて、要約筆記支援システム400、情報配信装置100、筆記者端末200、利用者端末300の構成について、図2及び図3を用いて更に具体的に説明する。図2は、本発明の実施の形態における要約筆記支援システムの構成を具体的に示すブロック図である。また、以下の例では、要約筆記支援システム400は、例えば、学校、講演会等での講義に利用されているとする。
[システム構成:情報配信装置]
図2に示すように、情報配信装置100には、映像入力装置10と、音声入力装置20とが接続されている。映像入力装置10は、講義風景等を撮影するカメラであり、映像データを情報配信装置100へと出力している。また、音声入力装置20は、マイクであり、講師を含む話者の発話の音声を音声データに変換し、変換した音声データを情報配信装置100へと出力している。
また、図2に示すように、情報配信装置100は、息継ぎ検知部104、データ処理部105、データ送信部106に加えて、映像入力部101と、音声入力部102と、音声認識部103とを備えている。
映像入力部101は、映像入力装置10から出力されてきた映像データを受け取り、これをデータ処理部105に入力する。この場合、データ処理部105は、入力された映像データを、割当時間に合せて分割し、分割後の映像データをデータ送信部106に出力する。その後、データ送信部106は、要約筆記用音声データと共に、分割された映像データを、該当する割当時間が割り当てられている筆記者50の筆記者端末200に送信する。
音声入力部102は、音声入力装置20から出力されてきた音声データを受け取り、これを音声認識部103に出力する。音声認識部103は、この音声データを、音のレベルが設定値以下で無音であると見なせる状態が連続している区間(無音区間)と、そうでない状態が連続している区間(音声区間)とに分離する。そして、本実施の形態では、息継ぎ検知部104は、音声認識部103の処理結果から、無音区間を特定し、特定した無音区間の長さが閾値以下の場合に、特定した無音区間を話者40の息継ぎ区間として特定する。
ここで、音声認識部103、息継ぎ検知部104、及びデータ処理部105で行なわれる処理について図3を用いて説明する。図3は、図2に示す音声認識部、息継ぎ検知部、及びデータ処理部での処理を模式的に示す図である。
図3に示すように、音声認識部103は、発話音声21の音声データが音声入力部102から入力されると、これを音声区間22−1〜22−3と無音区間23−1〜23−4とに分離する。本実施の形態では、音声区間と無音区間との分離は、既存の音声認識エンジンを利用することによって行なうことができる。そして、音声認識部103は、分離された無音区間23−1〜23−4の位置を特定する情報を、息継ぎ検知部104に出力する。
息継ぎ検知部104は、音声認識部103からの情報に基づいて、無音区間23−1〜23−4を特定し、各無音区間の長さが、閾値以下であるかどうかを判定する。息継ぎ検知部104は、長さが閾値以下の無音区間については息継ぎと判定し、そうでない無音区間については無音と判定する。図3の例では、無音区間23−2〜23−4は、それぞれ、息継ぎ区間24−1〜24−3と判定されている。なお、この場合の閾値は、情報配信装置の管理者によって状況等に応じて適宜設定されれば良い。
続いて、データ処理部105は、息継ぎ検知部104によって息継ぎと判定された息継ぎ区間24−1〜24−3と、筆記者50に割り当てられた割当時間25とを比較する。そして、データ処理部105は、各息継ぎ区間が、割当時間25の終点25bを基準とした範囲内に存在しているかどうかを判定する。具体的には、データ処理部105は、各息継ぎ区間が、終点25bの前に設定される前指定区間26と後に設定される後指定区間27とを合せた区間内に存在しているかどうかを判定する。
図3の例では、息継ぎ区間24−2が、前指定区間26と後指定区間27とを合せた区間内に存在しているので、データ処理部105は、割当時間25の開始点25aから息継ぎ区間までにおける発話の音声データ(要約筆記用音声データ)28を生成する。つまり、この場合は、データ処理部105は、割当時間25の終点25bを息継ぎ区間24−2の開始点に変更して、要約筆記用音声データ28を生成する。なお、割当時間25の終点25bは、息継ぎ区間24−中に存在すれば良く、その開始点以外の点、例えば、中間点、終点に変更されても良い。
一方、図3の例と異なり、いずれの息継ぎ区間も、前指定区間26と後指定区間27とを合せた区間内に存在していない場合は、データ処理部105は、割当時間25の開始点25aから終点25bまでにおける発話の音声データ(破線で表示)を生成する。
また、息継ぎ区間が、割当時間の終点を基準とした範囲内に存在している場合は、データ処理部105は、割当時間の終点を、この息継ぎ区間の開始点に変更し、これに合せて、次の割当時間の開始点を変更する。更に、データ処理部105は、割当時間の終点を変更した場合は、変更後の割当時間に基づいて、上述した映像データの分割を実行する。
また、本実施の形態では、各筆記者50に割り当てられる割当時間の長さは、各筆記者50の要約筆記の能力に応じて設定される。例えば、筆記者50の経験が浅い場合は、音声データを聞きながらのテキスト入力が困難にならないよう、30秒以下に設定されるのが良い。また、割当時間が短すぎると、利用者60において、不便となるので、割当時間の長さは、例えば、15秒以上に設定されるのが良い。
[システム構成:筆記者端末]
図2に示すように、筆記者端末200には、音声出力装置30、表示装置31、及び入力装置32が接続されている。音声出力装置30は、例えば、筆記者端末200に備えられているスピーカー等である。表示装置31は、例えば、筆記者端末200に備えられている液晶表示装置等である。入力装置32は、マウス、キーボード、タッチパネルといった入力機器であり、入力部203に接続されている。
また、図2に示すように、筆記者端末200は、データ受信部201、入力部203、データ送信部207に加えて、データ再生部202と、画像加工部204と、表示部205と、データ処理部206とを備えている。
データ再生部202は、データ受信部201において、要約筆記用音声データと映像データとが受信されると、これらを取得する。そして、データ再生部202は、要約筆記用音声データを音声出力装置30に出力し、これを再生させる。また、データ再生部202は、映像データを表示部205に出力する。表示部205は、映像データを表示装置31の画面に表示させる。
画像加工部204は、入力装置32から入力部203を介して入力された筆記者50の指示に応じて、映像データから、静止画像を取り出し、取り出した静止画像の画像データをデータ処理部206に出力する。データ処理部206は、筆記者50が入力したテキストデータ、即ち要約の内容と、画像加工部204から出力されてきた静止画像の画像データとを、一組のデータセットとし、これをデータ送信部207に出力する。
データ送信部207は、データ処理部206からデータセットを受け取ると、このデータセットを利用者端末300に送信する。
[システム構成:利用者端末]
図2に示すように、利用者端末300は、データ受信部301と、データ再生部302と、表示部303とを備えている。このうち、データ受信部301は、筆記者端末200から送信されてくるデータセットを受信し、これをデータ再生部302に入力する。
データ再生部302は、データセットを、それに含まれるテキストデータと、静止画像の画像データとに分解し、それぞれを表示部303に入力する。表示部303は、テキストデータと画像データとを受け取ると、それぞれを表示装置33の画面上の所定の領域に表示させる。表示装置33は、筆記者端末200の表示装置31と同様に、例えば、利用者端末300に備えられている液晶表示装置等である。
また、上述した情報配信装置100、筆記者端末200、利用者端末300は、後述する処理を実行するプログラムをコンピュータに実行させることによって構築できる。この場合、コンピュータとしては、パーソナルコンピュータ、サーバコンピュータ、更には、スマートフォン、タブレット型端末も挙げられる。
[システム動作]
次に、本発明の実施の形態における要約筆記支援システム400の動作について図4〜図6を用いて説明する。以下の説明においては、適宜図1〜図3を参酌する。また、本実施の形態では、要約筆記支援システム400を動作させることによって、要約筆記支援方法が実施される。よって、本実施の形態における要約筆記支援方法の説明は、以下の要約筆記支援システム400の動作説明に代える。
[システム動作:情報配信装置]
まず、図4を用いて、情報配信装置100における動作について説明する。図4は、本発明の実施の形態における情報配信装置の動作を示すフロー図である。
最初に、図4に示すように、情報配信装置100は、筆記者端末200及び利用者端末300との間で、ネットワーク通信の接続確認を実行する(ステップA1)。具体的には、情報配信装置100上のプログラムと、筆記者端末200上のプログラムと、利用者端末300上のプログラムとの間で、接続を確立するためのデータ通信が行なわれる。
そして、授業が開始され、講師を含む話者が音声を発する。これにより、映像入力装置10から、情報配信装置100に、映像データが入力され、映像入力部101は、映像データの取得を開始する(ステップA2)。また、映像入力部101は、取得した映像データをデータ処理部105に入力する。
同時に、音声入力装置20から、情報配信装置100に音声データが入力され、音声入力部102は音声データの取得を開始する(ステップA3)。また、音声入力部102は、取得した音声データを音声認識部103に入力する。
また、本実施の形態において、映像データとしては、MEPG−4等のフォーマットで生成された動画データが挙げられる。また、音声データとしては、PCM等のフォーマットで生成された音データが挙げられる。
次に、音声認識部103は、音声データが音声入力部102から入力されると、これを音声区間と無音区間とに分離する(図3参照)(ステップA4)。そして、音声認識部103は、分離された無音区間の位置を特定する情報を、息継ぎ検知部104に出力する。
次に、息継ぎ検知部104は、音声認識部103からの情報に基づいて、無音区間を特定し、各無音区間の長さが、閾値以下であるかどうかを判定することによって、息継ぎ区間を特定する(ステップA5)。また、息継ぎ検知部104は、息継ぎ区間を特定する情報を、データ処理部105に出力する。
次に、データ処理部105は、配信用のデータを生成する(ステップA6)。具体的には、データ処理部105は、息継ぎ検知部104から受け取った情報に基づいて、各息継ぎ区間が、割当時間の終点を基準とした範囲内に存在しているかどうかを判定し、判定結果に基づいて、要約筆記用音声データを生成する(図3参照)。
また、データ処理部105は、映像入力部101から入力された映像データを、割当時間(変更された場合は変更後の割当時間)に合せて分割し、配信用の映像データを生成する。そして、データ処理部105は、要約筆記用音声データと、配信用の映像データとを、データ送信部106に出力する。
次に、データ送信部106は、出力されてきた映像データと要約筆記用音声データとを、これらのデータの割当時間が割り当てられている筆記者50の筆記者端末200に送信する(ステップA7)。また、情報配信装置100においては、上述のステップA1〜A7は、繰り返し実行される。
[システム動作:筆記者端末]
続いて、図5を用いて、筆記者端末200における動作について説明する。図5は、本発明の実施の形態における筆記者端末の動作を示すフロー図である。
最初に、図5に示すように、筆記者端末200において、データ受信部201は、情報配信装置100から送信されてきた映像データと要約筆記用音声データとを受信する(ステップB1)。
次に、データ再生部202は、要約筆記用音声データを音声出力装置30に出力し、映像データを表示部205に出力する(ステップB2)。これにより、表示部205は、映像データを表示装置31の画面に表示させ(ステップB3)、音声出力装置30は、音声データを再生する(ステップB5)。
次に、画像加工部204は、入力装置32から筆記者50が画像の選択を指示した場合は、入力部203を経由して、選択指示を受け取る。そして、画像加工部204は、選択指示に応じて、映像データから、静止画像を取り出し、取り出した静止画像の画像データをデータ処理部206に出力する(ステップB4)。
また、入力部203は、ステップB5で再生された要約筆記用音声データに対応して、筆記者50が入力装置32からテキストを入力すると、それを受け付け、入力されたテキストのテキストデータをデータ処理部206に出力する(ステップB6)。
次に、データ処理部206は、筆記者50が入力したテキストデータ、即ち要約の内容と、画像加工部204から出力されてきた静止画像の画像データとを、一組のデータセットとし、これをデータ送信部207に出力する(ステップB7)。
次に、データ送信部207は、データ処理部206からデータセットを受け取ると、このデータセットを利用者端末300に送信する(ステップB8)。その後、次の割当時間となると、再度ステップB1〜B8が実行される。
[システム動作:利用者端末]
続いて、図6を用いて、利用者端末300における動作について説明する。図6は、本発明の実施の形態における利用者端末の動作を示すフロー図である。
最初に、図6に示すように、利用者端末300において、データ受信部301は、筆記者端末200から送信されてくるデータセットを受信し、これをデータ再生部302に入力する(ステップC1)。
次に、データ再生部302は、データセットを、それに含まれるテキストデータと、静止画像の画像データとに分解し、それぞれを表示部303に入力する(ステップC2)。
次に、表示部303は、テキストデータと画像データとを受け取ると、それぞれを表示装置33の画面上の所定の領域に表示させる(ステップC3)。ステップC1〜C3は、筆記者端末200からデータセットが送信されてくる度に行なわれ、各筆記者端末200から送信されてきたテキストデータ及び画像データは、時系列に沿って、表示される。また、このとき、利用者60における要約筆記の理解を高めるため、各テキストデータと各画像データとは、同一の時間軸に沿って、表示されているのが好ましい。
[実施の形態における効果]
以上のように本実施の形態によれば、各筆記者50の割当時間は短時間に設定され、更に、音声データは話者40の息継ぎのタイミングに合せて区切られているので、筆記者50は、聞いた音声をそのままテキスト化するだけでも良い。よって、筆記者50の経験が浅い場合、筆記者50が特別な訓練を十分に受けていない場合であっても、聴覚障がい者への要約筆記が可能となる。また、筆記者端末200は、ネットワーク410を介して、情報配信装置100と利用者端末300とに接続されていれば良く、筆記者50は、遠隔に存在していても良い。以上の理由から、本実施の形態によれば、要約筆記によるサポートを受けることができる聴覚障がい者の数を増やすことができる。
[プログラム]
本実施の形態における第1のプログラムは、コンピュータに、図4に示すステップA1〜A7を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態における情報配信装置100を実現することができる。この場合、コンピュータのCPU(Central Processing Unit)は、映像入力部101、音声入力部102、音声認識部103、息継ぎ検知部104、データ処理部105、及びデータ送信部106として機能し、処理を行なう。
また、本実施の形態における第2のプログラムは、コンピュータに、図5に示すステップB1〜B6を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態における筆記者端末200を実現することができる。この場合、コンピュータのCPU(Central Processing Unit)は、データ受信部201、データ再生部202、入力部203、画像加工部204、表示部205、データ処理部206、及びデータ送信部207として機能し、処理を行なう。
ここで、実施の形態におけるプログラムを実行することによって、情報配信装置100、筆記者端末200、及び利用者端末300を実現するコンピュータについて図7を用いて説明する。図7は、本発明の実施の形態における情報配信装置、筆記者端末及び利用者端末を実現するコンピュータの一例を示すブロック図である。
図7に示すように、コンピュータ110は、CPU111と、メインメモリ112と、記憶装置113と、入力インターフェイス114と、表示コントローラ115と、データリーダ/ライタ116と、通信インターフェイス117とを備える。これらの各部は、バス121を介して、互いにデータ通信可能に接続される。
CPU111は、記憶装置113に格納された、本実施の形態におけるプログラム(コード)をメインメモリ112に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ112は、典型的には、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体120に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス117を介して接続されたインターネット上で流通するものであっても良い。
また、記憶装置113の具体例としては、ハードディスクの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス114は、CPU111と、キーボード及びマウスといった入力機器118との間のデータ伝送を仲介する。表示コントローラ115は、ディスプレイ装置119と接続され、ディスプレイ装置119での表示を制御する。
データリーダ/ライタ116は、CPU111と記録媒体120との間のデータ伝送を仲介し、記録媒体120からのプログラムの読み出し、及びコンピュータ110における処理結果の記録媒体120への書き込みを実行する。通信インターフェイス117は、CPU111と、他のコンピュータとの間のデータ伝送を仲介する。
また、記録媒体120の具体例としては、CF(Compact Flash(登録商標))及びSD(Secure Digital)等の汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)等の磁気記憶媒体、又はCD−ROM(Compact Disk Read Only Memory)などの光学記憶媒体が挙げられる。
続いて、図8を用いて、本発明の実施例について説明する。なお、以下の実施例の説明は、図4〜図6に示した各ステップに沿って行う。図8は、本発明の実施例における音声認識部、息継ぎ検知部、及びデータ処理部での処理を示す図である。
[ステップA1]
まず、情報配信装置100は、筆記者端末200及び利用者端末300との間で、ネットワーク通信の接続確認を実行する(ステップA1)。そして、話者が、授業において、「1+2=3(いちたすにいこーるさん)」と発声したとする。
[ステップA2、A3]
これにより、映像入力部101は、MEPG−4等でフォーマットされた映像データを取得し(ステップA2)、取得した映像データをデータ処理部105に入力する。音声入力部102は、PCM等でフォーマットされた音声データを取得し(ステップA3)、取得した音声データを音声認識部103に入力する。
[ステップA4]
次に、音声認識部103は、図8に示すように、発話音声21の音声データがリアルタイムで音声入力部102から入力されると、これを音声区間22−1〜22−3と無音区間23−1〜23−4とに分離する。そして、音声認識部103は、分離された無音区間23−1〜23−4の位置(開始点及び終点)を特定する情報を、息継ぎ検知部104に出力する。
[ステップA5]
次に、息継ぎ検知部104は、音声認識部103からの情報に基づいて、無音区間23−1〜23−4を特定し、各無音区間の長さが、閾値である1秒以下であるかどうかを判定する。図8の例では、無音区間23−2〜23−4それぞれの長さは1秒間であったので、それぞれ、息継ぎ区間24−1〜24−3と判定されている。
[ステップA6]
続いて、データ処理部105は、息継ぎ検知部104によって息継ぎと判定された息継ぎ区間24−1〜24−3と、筆記者50に割り当てられた割当時間25とを比較する。そして、データ処理部105は、各息継ぎ区間が、割当時間25の終点25bの前に設定される前指定区間26と後に設定される後指定区間27とを合せた区間内に存在しているかどうかを判定する。なお、本実施例では、割当時間25の長さは20秒間に設定されている。また、前指定区間26及び後指定区間27の長さはそれぞれ5秒間に設定されている。
具体的には、データ処理部105は、まず、8秒間の音声区間22−1の後に、1秒間の無音区間23−2を確認するが、これについては条件を満たさないと判断する。一方、データ処理部105は、8秒間の音声区間22−2の後に、1秒間の無音区間23−3を確認するが、無音区間23−3の開始点は、割当区間25の開始点25aから17秒後の位置にあり、その長さは1秒間であるので、条件を満たすと判断する。
そして、データ処理部105は、割当区間の見直しを行ない、割当時間25の終点25bを息継ぎ区間24−2の開始点(開始点25aから17秒)に変更して、要約筆記用音声データ28を生成する。また、データ処理部105は、映像入力部101から入力された映像データを、変更後の割当時間(17秒)に合せて分割し、配信用の映像データを生成する。
[ステップA6]
そして、データ処理部105は、要約筆記用音声データと、配信用の映像データとを、データ送信部106に出力する。また、本実例では、音声データの送信は、VOICE/IPプロトコルに従って行なわれ、映像データの送信はTCP/IPプロトコルに従って行なわれる。
[ステップB1]
筆記者端末200では、データ受信部201が、映像データと要約筆記用音声データとを受信する。
[ステップB2、B3、B5]
次に、データ再生部202は、要約筆記用音声データを音声出力装置30に出力し、映像データを表示部205に出力する。これにより、映像データが表示装置31の画面に表示させる。また、スピーカーである音声出力装置30から、音声が再生される。本実施例では、「いちたすにいこーるさん」という話者の声が聞こえる。
[ステップB4]
そして、筆記者が、映像を見ながら、入力装置32から、話者の音声と関係している黒板の文字が記入されている箇所を選択すると、画像加工部204は、選択された箇所の静止画像を取り出し、取り出した静止画像の画像データをデータ処理部206に出力する。
[ステップB6]
また、筆記者が、音声をききながら、入力装置32から、「1+2=3(いちたすにいこーるさん)」を入力すると、入力部203は、入力されたテキストのテキストデータをデータ処理部206に出力する。
[ステップB7、B8]
次に、データ処理部206は、筆記者50が入力したテキストデータと静止画像の画像データとを、一組のデータセットとして、データ送信部207に出力する。そして、データ送信部207は、データ処理部206からデータセットを受け取ると、TCP/IPに従って、このデータセットを利用者端末300に送信する。
[ステップC1、C2]
利用者端末300では、データ受信部301は、筆記者端末200から送信されてくるデータセットを受信し、これをデータ再生部302に入力する。そして、データ再生部302は、データセットを、それに含まれるテキストデータと、静止画像の画像データとに分解し、それぞれを表示部303に入力する。
[ステップC3]
次に、表示部303は、テキストデータと画像データとを受け取ると、それぞれを表示装置33の画面上の所定の領域に表示させる。具体的には、表示部303は、テキストデータ「1+2=3」を、画面の文字表示エリアに表示し、静止画像を、画面の画像表示エリアに表示する。
以上の処理により、話者の発話についての要約筆記の内容と、関連する画像とが、利用者の端末装置300に表示されるので、利用者である聴覚障がい者は、授業の内容を理解することができる。
上述した実施の形態及び実施例の一部又は全部は、以下に記載する(付記1)〜(付記20)によって表現することができるが、以下の記載に限定されるものではない。
(付記1)
話者の発話の要約筆記を支援するためのシステムであって、
前記要約筆記を行なう筆記者が使用する筆記者用の端末装置と、前記端末装置に前記発話の音声データを送信する情報配信装置と、を備え、
前記情報配信装置は、
前記発話の音声から無音区間を特定し、特定した前記無音区間のうち、設定条件を満たす前記無音区間を前記話者の息継ぎ区間として特定する、息継ぎ検知部と、
筆記者に割り当てられた割当時間毎に、前記息継ぎ区間が、当該割当時間の終点を基準とした範囲内に存在するかどうかを判定し、
前記息継ぎ区間が前記範囲内に存在すると判定する場合に、当該割当時間の開始点から前記息継ぎ区間までにおける前記発話の音声データを生成し、
前記息継ぎ区間が前記範囲内に存在しないと判定する場合に、当該割当時間の開始点から終点までにおける前記発話の音声データを生成する、データ処理部と、
前記データ処理部によって生成された前記音声データを、前記割当時間が割り当てられている前記筆記者の前記端末装置に送信する、データ送信部と、を備え、
前記筆記者用の端末装置は、
前記情報配信装置から送信されてきた前記音声データを受信する、データ受信部と、
前記音声データに対応して入力されたテキストデータの入力を受け付ける入力部と、
入力が受け付けられた前記テキストデータを、要約筆記の利用者が使用する利用者用の端末装置に送信する、データ送信部と、を備えている、
ことを特徴とする要約筆記支援システム。
(付記2)
前記情報配信装置の前記データ送信部が、更に、前記筆記者に割り当てられた割当時間に対応する映像データを、前記端末装置に対して送信し、
前記筆記者用の端末装置が、外部からの指示に応じて、送信されてきた前記映像データから、静止画像を取り出す、画像加工部を更に備え、
前記筆記者用の端末装置の前記データ送信部は、入力が受け付けられた前記テキストデータと、取り出された前記静止画像の画像データとを、前記利用者用の端末装置に送信する、
付記1に記載の要約筆記支援システム。
(付記3)
前記息継ぎ検知部が、前記無音区間の長さが閾値以下の場合に、前記無音区間を前記話者の息継ぎ区間として特定する、
付記1または2に記載の要約筆記支援システム。
(付記4)
前記筆記者に割り当てられる割当時間の長さが、前記筆記者の要約筆記の能力に応じて設定されている、付記1〜3のいずれかに記載の要約筆記支援システム。
(付記5)
話者の発話の要約筆記を行なう筆記者が使用する筆記者用の端末装置に、前記発話の音声データを送信するための装置であって、
前記発話の音声から無音区間を特定し、特定した前記無音区間のうち、設定条件を満たす前記無音区間を前記話者の息継ぎ区間として特定する、息継ぎ検知部と、
筆記者に割り当てられた割当時間毎に、前記息継ぎ区間が、当該割当時間の終点を基準とした範囲内に存在するかどうかを判定し、
前記息継ぎ区間が前記範囲内に存在すると判定する場合に、当該割当時間の開始点から前記息継ぎ区間までにおける前記発話の音声データを生成し、
前記息継ぎ区間が前記範囲内に存在しないと判定する場合に、当該割当時間の開始点から終点までにおける前記発話の音声データを生成する、データ処理部と、
前記データ処理部によって生成された前記音声データを、前記割当時間が割り当てられている前記筆記者の前記端末装置に送信する、データ送信部と、を備えている、
ことを特徴とする情報配信装置。
(付記6)
前記データ送信部が、更に、前記筆記者に割り当てられた割当時間に対応する映像データを、前記端末装置に対して送信する、
付記5に記載の情報配信装置。
(付記7)
前記息継ぎ検知部が、前記無音区間の長さが閾値以下の場合に、前記無音区間を前記話者の息継ぎ区間として特定する、
付記5または6に記載の情報配信装置。
(付記8)
前記筆記者に割り当てられる割当時間の長さが、前記筆記者の要約筆記の能力に応じて設定されている、付記5〜7のいずれかに記載の情報配信装置。
(付記9)
話者の発話の要約筆記を行なう筆記者が使用する端末装置であって、
前記発話の音声データを送信する情報配信装置から、前記筆記者に割り当てられた割当時間毎に、前記音声データを受信する、データ受信部と、
前記音声データに対応して入力されたテキストデータの入力を受け付ける入力部と、
入力が受け付けられた前記テキストデータを、要約筆記の利用者が使用する利用者用の端末装置に送信する、データ送信部と、を備えている、
ことを特徴とする端末装置。
(付記10)
前記情報配信装置が、更に、前記筆記者に割り当てられた割当時間に対応する映像データを、前記端末装置に対して送信してきた場合に、外部からの指示に応じて、送信されてきた前記映像データから、静止画像を取り出す、画像加工部、を更に備え、
前記データ送信部は、入力が受け付けられた前記テキストデータと、取り出された前記静止画像の画像データとを、前記利用者用の端末装置に送信する、
付記9に記載の端末装置。
(付記11)
話者の発話の要約筆記を行なう筆記者が使用する筆記者用の端末装置と、前記端末装置に前記発話の音声データを送信する情報配信装置と、を用いて、要約筆記を支援するための方法であって、
(a)前記情報配信装置によって、前記発話の音声から無音区間を特定し、特定した前記無音区間のうち、設定条件を満たす前記無音区間を前記話者の息継ぎ区間として特定する、ステップと、
(b)前記情報配信装置によって、前記筆記者に割り当てられた割当時間毎に、前記息継ぎ区間が、当該割当時間の終点を基準とした範囲内に存在するかどうかを判定し、
前記息継ぎ区間が前記範囲内に存在すると判定する場合に、当該割当時間の開始点から前記息継ぎ区間までにおける前記発話の音声データを生成し、
前記息継ぎ区間が前記範囲内に存在しないと判定する場合に、当該割当時間の開始点から終点までにおける前記発話の音声データを生成する、ステップと、
(c)前記情報配信装置によって、前記(b)のステップで生成された前記音声データを、前記割当時間が割り当てられている前記筆記者の前記端末装置に送信する、ステップと、
(d)前記筆記者用の端末装置によって、前記情報配信装置から送信されてきた前記音声データを受信する、ステップと、
(e)前記筆記者用の端末装置によって、前記音声データに対応して入力されたテキストデータの入力を受け付けるステップと、
(f)前記筆記者用の端末装置によって、前記(e)のステップで入力が受け付けられた前記テキストデータを、要約筆記の利用者が使用する利用者用の端末装置に送信する、ステップと、
を有することを特徴とする要約筆記支援方法。
(付記12)
(g)前記情報配信装置によって、更に、前記筆記者に割り当てられた割当時間に対応する映像データを、前記端末装置に対して送信する、ステップと、
(h)前記筆記者用の端末装置によって、外部からの指示に応じて、前記(g)のステップで送信されてきた前記映像データから、静止画像を取り出す、ステップと、
前記(f)のステップにおいて、前記(e)のステップで入力が受け付けられた前記テキストデータと、前記(h)のステップで取り出された前記静止画像の画像データとを、前記利用者用の端末装置に送信する、
付記11に記載の要約筆記支援方法。
(付記13)
前記(a)のステップで、前記無音区間の長さが閾値以下の場合に、前記無音区間を前記話者の息継ぎ区間として特定する、
付記11または12に記載の要約筆記支援方法。
(付記14)
前記筆記者に割り当てられる割当時間の長さが、前記筆記者の要約筆記の能力に応じて設定されている、付記11〜13のいずれかに記載の要約筆記支援方法。
(付記15)
コンピュータによって、話者の発話の要約筆記を行なう筆記者が使用する筆記者用の端末装置に、前記発話の音声データを送信するためのプログラムであって、
前記コンピュータに、
(a)前記発話の音声から無音区間を特定し、特定した前記無音区間のうち、設定条件を満たす前記無音区間を前記話者の息継ぎ区間として特定する、ステップと、
(b)筆記者に割り当てられた割当時間毎に、前記息継ぎ区間が、当該割当時間の終点を基準とした範囲内に存在するかどうかを判定し、
前記息継ぎ区間が前記範囲内に存在すると判定する場合に、当該割当時間の開始点から前記息継ぎ区間までにおける前記発話の音声データを生成し、
前記息継ぎ区間が前記範囲内に存在しないと判定する場合に、当該割当時間の開始点から終点までにおける前記発話の音声データを生成する、ステップと、
(c)前記(b)のステップによって生成された前記音声データを、前記割当時間が割り当てられている前記筆記者の前記端末装置に送信する、ステップと、
を実行させるプログラム。
(付記16)
前記(c)のステップで、更に、前記筆記者に割り当てられた割当時間に対応する映像データを、前記端末装置に対して送信する、
付記15に記載のプログラム
(付記17)
前記(a)のステップで、前記無音区間の長さが閾値以下の場合に、前記無音区間を前記話者の息継ぎ区間として特定する、
付記15または16に記載のプログラム
(付記18)
前記筆記者に割り当てられる割当時間の長さが、前記筆記者の要約筆記の能力に応じて設定されている、付記15〜17のいずれかに記載のプログラム
(付記19)
話者の発話の要約筆記を行なう筆記者が使用するコンピュータに、
(a)前記発話の音声データを送信する情報配信装置から、前記筆記者に割り当てられた割当時間毎に、前記音声データを受信する、ステップと、
(b)前記音声データに対応して入力されたテキストデータの入力を受け付ける、ステップと、
(c)前記(b)のステップで入力が受け付けられた前記テキストデータを、要約筆記の利用者が使用する利用者用の端末装置に送信する、ステップと、
を実行させるプログラム。
(付記20)
前記プログラムが、
(d)前記情報配信装置が、更に、前記筆記者に割り当てられた割当時間に対応する映像データを、前記コンピュータに送信してきた場合に、外部からの指示に応じて、送信されてきた前記映像データから、静止画像を取り出す、ステップを更に前記コンピュータに実行させ、
前記(c)のステップにおいて、入力が受け付けられた前記テキストデータと、取り出された前記静止画像の画像データとを、前記利用者用の端末装置に送信する、
付記19に記載のプログラム
また、本発明は、上述した実施の形態及び実施例に限定されず、話者の発話の通訳を支援するために用いることもできる。即ち、本発明は、通訳の支援に用いられる、システム、情報配信装置、端末装置、通訳支援方法、及びこれらを実現するためのプログラムに関していても良い。この場合、これらの特徴は以下の通りとなる。
本発明における、話者の発話の通訳を支援するためのシステムは、
前記通訳を行なう通訳者が使用する通訳者用の端末装置と、前記端末装置に前記発話の音声データを送信する情報配信装置と、を備え、
前記情報配信装置は、
前記発話の音声から無音区間を特定し、特定した前記無音区間のうち、設定条件を満たす前記無音区間を前記話者の息継ぎ区間として特定する、息継ぎ検知部と、
通訳者に割り当てられた割当時間毎に、前記息継ぎ区間が、当該割当時間の終点を基準とした範囲内に存在するかどうかを判定し、
前記息継ぎ区間が前記範囲内に存在すると判定する場合に、当該割当時間の開始点から前記息継ぎ区間までにおける前記発話の音声データを生成し、
前記息継ぎ区間が前記範囲内に存在しないと判定する場合に、当該割当時間の開始点から終点までにおける前記発話の音声データを生成する、データ処理部と、
前記データ処理部によって生成された前記音声データを、前記割当時間が割り当てられている前記通訳者の前記端末装置に送信する、データ送信部と、を備え、
前記通訳者用の端末装置は、
前記情報配信装置から送信されてきた前記音声データを受信する、データ受信部と、
前記音声データに対応して入力されたテキストデータの入力を受け付ける入力部と、
入力が受け付けられた前記テキストデータを、通訳の利用者が使用する利用者用の端末装置に送信する、データ送信部と、を備えている、
ことを特徴とする。
本発明における、話者の発話の通訳を行なう通訳者が使用する通訳者用の端末装置に、前記発話の音声データを送信するための情報配信装置は、
前記発話の音声から無音区間を特定し、特定した前記無音区間のうち、設定条件を満たす前記無音区間を前記話者の息継ぎ区間として特定する、息継ぎ検知部と、
通訳者に割り当てられた割当時間毎に、前記息継ぎ区間が、当該割当時間の終点を基準とした範囲内に存在するかどうかを判定し、
前記息継ぎ区間が前記範囲内に存在すると判定する場合に、当該割当時間の開始点から前記息継ぎ区間までにおける前記発話の音声データを生成し、
前記息継ぎ区間が前記範囲内に存在しないと判定する場合に、当該割当時間の開始点から終点までにおける前記発話の音声データを生成する、データ処理部と、
前記データ処理部によって生成された前記音声データを、前記割当時間が割り当てられている前記通訳者の前記端末装置に送信する、データ送信部と、を備えている、
ことを特徴とする。
本発明における、話者の発話の通訳を行なう通訳者が使用する端末装置は、
前記発話の音声データを送信する情報配信装置から、前記通訳者に割り当てられた割当時間毎に、前記音声データを受信する、データ受信部と、
前記音声データに対応して入力されたテキストデータの入力を受け付ける入力部と、
入力が受け付けられた前記テキストデータを、通訳の利用者が使用する利用者用の端末装置に送信する、データ送信部と、を備えている、
ことを特徴とする。
本発明における、話者の発話の通訳を行なう通訳者が使用する通訳者用の端末装置と、前記端末装置に前記発話の音声データを送信する情報配信装置と、を用いて、通訳を支援するための通訳支援方法は、
(a)前記情報配信装置によって、前記発話の音声から無音区間を特定し、特定した前記無音区間のうち、設定条件を満たす前記無音区間を前記話者の息継ぎ区間として特定する、ステップと、
(b)前記情報配信装置によって、前記通訳者に割り当てられた割当時間毎に、前記息継ぎ区間が、当該割当時間の終点を基準とした範囲内に存在するかどうかを判定し、
前記息継ぎ区間が前記範囲内に存在すると判定する場合に、当該割当時間の開始点から前記息継ぎ区間までにおける前記発話の音声データを生成し、
前記息継ぎ区間が前記範囲内に存在しないと判定する場合に、当該割当時間の開始点から終点までにおける前記発話の音声データを生成する、ステップと、
(c)前記情報配信装置によって、前記(b)のステップで生成された前記音声データを、前記割当時間が割り当てられている前記通訳者の前記端末装置に送信する、ステップと、
(d)前記通訳者用の端末装置によって、前記情報配信装置から送信されてきた前記音声データを受信する、ステップと、
(e)前記通訳者用の端末装置によって、前記音声データに対応して入力されたテキストデータの入力を受け付けるステップと、
(f)前記通訳者用の端末装置によって、前記(e)のステップで入力が受け付けられた前記テキストデータを、通訳の利用者が使用する利用者用の端末装置に送信する、ステップと、
を有することを特徴とする。
本発明における、コンピュータによって、話者の発話の通訳を行なう通訳者が使用する通訳者用の端末装置に、前記発話の音声データを送信するためのプログラムは
前記コンピュータに、
(a)前記発話の音声から無音区間を特定し、特定した前記無音区間のうち、設定条件を満たす前記無音区間を前記話者の息継ぎ区間として特定する、ステップと、
(b)通訳者に割り当てられた割当時間毎に、前記息継ぎ区間が、当該割当時間の終点を基準とした範囲内に存在するかどうかを判定し、
前記息継ぎ区間が前記範囲内に存在すると判定する場合に、当該割当時間の開始点から前記息継ぎ区間までにおける前記発話の音声データを生成し、
前記息継ぎ区間が前記範囲内に存在しないと判定する場合に、当該割当時間の開始点から終点までにおける前記発話の音声データを生成する、ステップと、
(c)前記(b)のステップによって生成された前記音声データを、前記割当時間が割り当てられている前記通訳者の前記端末装置に送信する、ステップと、
を実行させることを特徴とする。
本発明における、別のプログラムは、
話者の発話の通訳を行なう通訳者が使用するコンピュータに、
(a)前記発話の音声データを送信する情報配信装置から、前記通訳者に割り当てられた割当時間毎に、前記音声データを受信する、ステップと、
(b)前記音声データに対応して入力されたテキストデータの入力を受け付ける、ステップと、
(c)前記(b)のステップで入力が受け付けられた前記テキストデータを、通訳の利用者が使用する利用者用の端末装置に送信する、ステップと、
を実行させることを特徴とする。
以上、実施の形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施の形態及び実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2013年3月19日に出願された日本出願特願2013−056292を基礎とする優先権を主張し、その開示の全てをここに取り込む。
以上のように、本発明によれば、要約筆記を実施する者の要約筆記の経験が浅い場合でも、聴覚障がい者に正確な情報を提供することができる。本発明は、要約筆記が必要な分野であれば、学校等における授業に限られず、種々の講演等にも有用である。
10 映像入力装置
20 音声入力装置
21 発話音声
22−1〜22−3 音声区間
23−1〜23−4 無音区間
24−1〜24−4 息継ぎ区間
25 割当時間
25a 開始点
25b 終点
26 前指定区間
27 後指定区間
28 要約筆記用音声データ
30 音声出力装置
31 表示装置
32 入力装置
33 表示装置
40 話者
50 筆記者
60 利用者
100 情報配信装置
101 映像入力部
102 音声入力部
103 音声認識部
104 息継ぎ検知部
105 データ処理部
106 データ送信部
110 コンピュータ
111 CPU
112 メインメモリ
113 記憶装置
114 入力インターフェイス
115 表示コントローラ
116 データリーダ/ライタ
117 通信インターフェイス
118 入力機器
119 ディスプレイ装置
120 記録媒体
121 バス
200 筆記者端末
201 データ受信部
202 データ再生部
203 入力部
204 画像加工部
205 表示部
206 データ処理部
207 データ送信部
300 利用者端末
301 データ受信部
302 データ再生部
303 表示部
400 要約筆記支援システム
410 ネットワーク

Claims (7)

  1. 話者の発話の要約筆記を支援するためのシステムであって、
    前記要約筆記を行なう筆記者が使用する筆記者用の端末装置と、前記端末装置に前記発話の音声データを送信する情報配信装置と、を備え、
    前記情報配信装置は、
    前記発話の音声から無音区間を特定し、特定した前記無音区間のうち、設定条件を満たす前記無音区間を前記話者の息継ぎ区間として特定する、息継ぎ検知部と、
    筆記者に割り当てられた割当時間毎に、前記息継ぎ区間が、当該割当時間の終点を基準とした範囲内に存在するかどうかを判定し、
    前記息継ぎ区間が前記範囲内に存在すると判定する場合に、当該割当時間の開始点から前記息継ぎ区間までにおける前記発話の音声データを生成し、
    前記息継ぎ区間が前記範囲内に存在しないと判定する場合に、当該割当時間の開始点から終点までにおける前記発話の音声データを生成する、データ処理部と、
    前記データ処理部によって生成された前記音声データを、前記割当時間が割り当てられている前記筆記者の前記端末装置に送信する、データ送信部と、を備え、
    前記筆記者用の端末装置は、
    前記情報配信装置から送信されてきた前記音声データを受信する、データ受信部と、
    前記音声データに対応して入力されたテキストデータの入力を受け付ける入力部と、
    入力が受け付けられた前記テキストデータを、要約筆記の利用者が使用する利用者用の端末装置に送信する、データ送信部と、を備えている、
    ことを特徴とする要約筆記支援システム。
  2. 前記情報配信装置の前記データ送信部が、更に、前記筆記者に割り当てられた割当時間に対応する映像データを、前記端末装置に対して送信し、
    前記筆記者用の端末装置が、外部からの指示に応じて、送信されてきた前記映像データから、静止画像を取り出す、画像加工部を更に備え、
    前記筆記者用の端末装置の前記データ送信部は、入力が受け付けられた前記テキストデータと、取り出された前記静止画像の画像データとを、前記利用者用の端末装置に送信する、
    請求項1に記載の要約筆記支援システム。
  3. 前記息継ぎ検知部が、前記無音区間の長さが閾値以下の場合に、前記無音区間を前記話者の息継ぎ区間として特定する、
    請求項1または2に記載の要約筆記支援システム。
  4. 前記筆記者に割り当てられる割当時間の長さが、前記筆記者の要約筆記の能力に応じて設定されている、請求項1〜3のいずれかに記載の要約筆記支援システム。
  5. 話者の発話の要約筆記を行なう筆記者が使用する筆記者用の端末装置に、前記発話の音声データを送信するための装置であって、
    前記発話の音声から無音区間を特定し、特定した前記無音区間のうち、設定条件を満たす前記無音区間を前記話者の息継ぎ区間として特定する、息継ぎ検知部と、
    筆記者に割り当てられた割当時間毎に、前記息継ぎ区間が、当該割当時間の終点を基準とした範囲内に存在するかどうかを判定し、
    前記息継ぎ区間が前記範囲内に存在すると判定する場合に、当該割当時間の開始点から前記息継ぎ区間までにおける前記発話の音声データを生成し、
    前記息継ぎ区間が前記範囲内に存在しないと判定する場合に、当該割当時間の開始点から終点までにおける前記発話の音声データを生成する、データ処理部と、
    前記データ処理部によって生成された前記音声データを、前記割当時間が割り当てられている前記筆記者の前記端末装置に送信する、データ送信部と、を備えている、
    ことを特徴とする情報配信装置。
  6. 話者の発話の要約筆記を行なう筆記者が使用する筆記者用の端末装置と、前記端末装置に前記発話の音声データを送信する情報配信装置と、を用いて、要約筆記を支援するための方法であって、
    (a)前記情報配信装置によって、前記発話の音声から無音区間を特定し、特定した前記無音区間のうち、設定条件を満たす前記無音区間を前記話者の息継ぎ区間として特定する、ステップと、
    (b)前記情報配信装置によって、前記筆記者に割り当てられた割当時間毎に、前記息継ぎ区間が、当該割当時間の終点を基準とした範囲内に存在するかどうかを判定し、
    前記息継ぎ区間が前記範囲内に存在すると判定する場合に、当該割当時間の開始点から前記息継ぎ区間までにおける前記発話の音声データを生成し、
    前記息継ぎ区間が前記範囲内に存在しないと判定する場合に、当該割当時間の開始点から終点までにおける前記発話の音声データを生成する、ステップと、
    (c)前記情報配信装置によって、前記(b)のステップで生成された前記音声データを、前記割当時間が割り当てられている前記筆記者の前記端末装置に送信する、ステップと、
    (d)前記筆記者用の端末装置によって、前記情報配信装置から送信されてきた前記音声データを受信する、ステップと、
    (e)前記筆記者用の端末装置によって、前記音声データに対応して入力されたテキストデータの入力を受け付けるステップと、
    (f)前記筆記者用の端末装置によって、前記(e)のステップで入力が受け付けられた前記テキストデータを、要約筆記の利用者が使用する利用者用の端末装置に送信する、ステップと、
    を有することを特徴とする要約筆記支援方法。
  7. コンピュータによって、話者の発話の要約筆記を行なう筆記者が使用する筆記者用の端末装置に、前記発話の音声データを送信するためのプログラムであって、
    前記コンピュータに、
    (a)前記発話の音声から無音区間を特定し、特定した前記無音区間のうち、設定条件を満たす前記無音区間を前記話者の息継ぎ区間として特定する、ステップと、
    (b)筆記者に割り当てられた割当時間毎に、前記息継ぎ区間が、当該割当時間の終点を基準とした範囲内に存在するかどうかを判定し、
    前記息継ぎ区間が前記範囲内に存在すると判定する場合に、当該割当時間の開始点から前記息継ぎ区間までにおける前記発話の音声データを生成し、
    前記息継ぎ区間が前記範囲内に存在しないと判定する場合に、当該割当時間の開始点から終点までにおける前記発話の音声データを生成する、ステップと、
    (c)前記(b)のステップによって生成された前記音声データを、前記割当時間が割り当てられている前記筆記者の前記端末装置に送信する、ステップと、
    を実行させるプログラム。
JP2015506661A 2013-03-19 2014-02-20 要約筆記支援システム、情報配信装置、要約筆記支援方法、及びプログラム Active JP6172770B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013056292 2013-03-19
JP2013056292 2013-03-19
PCT/JP2014/054010 WO2014148190A1 (ja) 2013-03-19 2014-02-20 要約筆記支援システム、情報配信装置、端末装置、要約筆記支援方法、及びコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JPWO2014148190A1 JPWO2014148190A1 (ja) 2017-02-16
JP6172770B2 true JP6172770B2 (ja) 2017-08-02

Family

ID=51579882

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015506661A Active JP6172770B2 (ja) 2013-03-19 2014-02-20 要約筆記支援システム、情報配信装置、要約筆記支援方法、及びプログラム

Country Status (6)

Country Link
US (1) US9697851B2 (ja)
EP (1) EP2977983A1 (ja)
JP (1) JP6172770B2 (ja)
KR (1) KR20150131287A (ja)
CN (1) CN105378829B (ja)
WO (1) WO2014148190A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2544257A (en) * 2015-09-19 2017-05-17 Philip Pisani Justin Greeting gesture device
GB2583117B (en) * 2019-04-17 2021-06-30 Sonocent Ltd Processing and visualising audio signals
FI20225762A1 (fi) * 2022-08-31 2024-03-01 Elisa Oyj Tietokoneimplementoitu menetelmä aktiivisuuden havaitsemiseksi äänivirrassa

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2119397C (en) * 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
GB2291571A (en) * 1994-07-19 1996-01-24 Ibm Text to speech system; acoustic processor requests linguistic processor output
JP4030162B2 (ja) * 1997-11-04 2008-01-09 富士通株式会社 息検出機能付情報処理装置及び息検出による画像表示制御方法
US6505153B1 (en) * 2000-05-22 2003-01-07 Compaq Information Technologies Group, L.P. Efficient method for producing off-line closed captions
JP2003223200A (ja) 2002-01-28 2003-08-08 Telecommunication Advancement Organization Of Japan 話速変換による書き起こし支援システム及び半自動型字幕番組制作システム
JP2003223199A (ja) 2002-01-28 2003-08-08 Telecommunication Advancement Organization Of Japan 字幕用書き起こしテキストの作成支援システム及び半自動型字幕番組制作システム
US7539086B2 (en) * 2002-10-23 2009-05-26 J2 Global Communications, Inc. System and method for the secure, real-time, high accuracy conversion of general-quality speech into text
CN1792082B (zh) * 2003-04-22 2010-07-21 斯皮沃克斯有限公司 操作方执行的语音邮件转录
US20070118372A1 (en) * 2005-11-23 2007-05-24 General Electric Company System and method for generating closed captions
JP4158937B2 (ja) 2006-03-24 2008-10-01 インターナショナル・ビジネス・マシーンズ・コーポレーション 字幕修正装置
CN101178790A (zh) * 2006-11-10 2008-05-14 胡鹏 智能虚拟断句实现协同听打录入的方法
US8332212B2 (en) * 2008-06-18 2012-12-11 Cogi, Inc. Method and system for efficient pacing of speech for transcription
US8370142B2 (en) * 2009-10-30 2013-02-05 Zipdx, Llc Real-time transcription of conference calls
US8843372B1 (en) * 2010-03-19 2014-09-23 Herbert M. Isenberg Natural conversational technology system and method
US9286886B2 (en) * 2011-01-24 2016-03-15 Nuance Communications, Inc. Methods and apparatus for predicting prosody in speech synthesis
JP5505989B2 (ja) 2011-03-31 2014-05-28 Necシステムテクノロジー株式会社 筆記支援装置、筆記支援方法、およびプログラム
JP5424359B2 (ja) 2011-07-01 2014-02-26 Necシステムテクノロジー株式会社 理解支援システム、支援端末、理解支援方法およびプログラム
JP5892598B2 (ja) 2012-02-29 2016-03-23 Necソリューションイノベータ株式会社 音声文字変換作業支援装置、音声文字変換システム、音声文字変換作業支援方法及びプログラム
US9208798B2 (en) * 2012-04-09 2015-12-08 Board Of Regents, The University Of Texas System Dynamic control of voice codec data rate

Also Published As

Publication number Publication date
US20160300587A1 (en) 2016-10-13
CN105378829A (zh) 2016-03-02
WO2014148190A1 (ja) 2014-09-25
EP2977983A1 (en) 2016-01-27
KR20150131287A (ko) 2015-11-24
JPWO2014148190A1 (ja) 2017-02-16
CN105378829B (zh) 2019-04-02
US9697851B2 (en) 2017-07-04

Similar Documents

Publication Publication Date Title
US11114091B2 (en) Method and system for processing audio communications over a network
US8515728B2 (en) Language translation of visual and audio input
JP5750380B2 (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP2018106148A (ja) 多重話者音声認識修正システム
JP6945130B2 (ja) 音声提示方法、音声提示プログラム、音声提示システム及び端末装置
JP2003345379A6 (ja) 音声映像変換装置及び方法、音声映像変換プログラム
JP6172770B2 (ja) 要約筆記支援システム、情報配信装置、要約筆記支援方法、及びプログラム
JP2018174439A (ja) 会議支援システム、会議支援方法、会議支援装置のプログラム、および端末のプログラム
US8553855B2 (en) Conference support apparatus and conference support method
JP2018174442A (ja) 会議支援システム、会議支援方法、会議支援装置のプログラム、および端末のプログラム
US20220208190A1 (en) Information providing method, apparatus, and storage medium, that transmit related information to a remote terminal based on identification information received from the remote terminal
JP3930402B2 (ja) オンライン教育システム、情報処理装置、情報提供方法及びプログラム
CN115359796A (zh) 数字人手语播报方法、装置、设备及存储介质
KR101920653B1 (ko) 비교음 생성을 통한 어학학습방법 및 어학학습프로그램
JP5791124B2 (ja) 要約筆記支援システム、要約筆記支援装置、要約筆記支援方法、及びプログラム
JP7471979B2 (ja) 会議支援システム
JP5846649B2 (ja) 要約筆記支援システム、配信装置、要約筆記支援方法、及びプログラム
US20230267942A1 (en) Audio-visual hearing aid
JP7087745B2 (ja) 端末装置、情報提供システム、端末装置の動作方法および情報提供方法
JP2021085999A (ja) ライブ字幕表示システム
JP2018067050A (ja) 音声処理装置、ウェアラブル端末、携帯端末、および音声処理方法
JP2016186646A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP2015187738A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP2022056593A (ja) 会議支援システム、会議支援方法およびプログラム
JP2008191976A (ja) リアルタイム字幕提示装置、及び、方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161108

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170606

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170629

R150 Certificate of patent or registration of utility model

Ref document number: 6172770

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150