JP6172770B2 - 要約筆記支援システム、情報配信装置、要約筆記支援方法、及びプログラム - Google Patents
要約筆記支援システム、情報配信装置、要約筆記支援方法、及びプログラム Download PDFInfo
- Publication number
- JP6172770B2 JP6172770B2 JP2015506661A JP2015506661A JP6172770B2 JP 6172770 B2 JP6172770 B2 JP 6172770B2 JP 2015506661 A JP2015506661 A JP 2015506661A JP 2015506661 A JP2015506661 A JP 2015506661A JP 6172770 B2 JP6172770 B2 JP 6172770B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- writer
- utterance
- terminal device
- interval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B21/00—Teaching, or communicating with, the blind, deaf or mute
- G09B21/009—Teaching or communicating with deaf persons
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L2021/065—Aids for the handicapped in understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Description
前記要約筆記を行なう筆記者が使用する筆記者用の端末装置と、前記端末装置に前記発話の音声データを送信する情報配信装置と、を備え、
前記情報配信装置は、
前記発話の音声から無音区間を特定し、特定した前記無音区間のうち、設定条件を満たす前記無音区間を前記話者の息継ぎ区間として特定する、息継ぎ検知部と、
筆記者に割り当てられた割当時間毎に、前記息継ぎ区間が、当該割当時間の終点を基準とした範囲内に存在するかどうかを判定し、
前記息継ぎ区間が前記範囲内に存在すると判定する場合に、当該割当時間の開始点から前記息継ぎ区間までにおける前記発話の音声データを生成し、
前記息継ぎ区間が前記範囲内に存在しないと判定する場合に、当該割当時間の開始点から終点までにおける前記発話の音声データを生成する、データ処理部と、
前記データ処理部によって生成された前記音声データを、前記割当時間が割り当てられている前記筆記者の前記端末装置に送信する、データ送信部と、を備え、
前記筆記者用の端末装置は、
前記情報配信装置から送信されてきた前記音声データを受信する、データ受信部と、
前記音声データに対応して入力されたテキストデータの入力を受け付ける入力部と、
入力が受け付けられた前記テキストデータを、要約筆記の利用者が使用する利用者用の端末装置に送信する、データ送信部と、を備えている、
ことを特徴とする。
前記発話の音声から無音区間を特定し、特定した前記無音区間のうち、設定条件を満たす前記無音区間を前記話者の息継ぎ区間として特定する、息継ぎ検知部と、
筆記者に割り当てられた割当時間毎に、前記息継ぎ区間が、当該割当時間の終点を基準とした範囲内に存在するかどうかを判定し、
前記息継ぎ区間が前記範囲内に存在すると判定する場合に、当該割当時間の開始点から前記息継ぎ区間までにおける前記発話の音声データを生成し、
前記息継ぎ区間が前記範囲内に存在しないと判定する場合に、当該割当時間の開始点から終点までにおける前記発話の音声データを生成する、データ処理部と、
前記データ処理部によって生成された前記音声データを、前記割当時間が割り当てられている前記筆記者の前記端末装置に送信する、データ送信部と、を備えている、
ことを特徴とする。
前記発話の音声データを送信する情報配信装置から、前記筆記者に割り当てられた割当時間毎に、前記音声データを受信する、データ受信部と、
前記音声データに対応して入力されたテキストデータの入力を受け付ける入力部と、
入力が受け付けられた前記テキストデータを、要約筆記の利用者が使用する利用者用の端末装置に送信する、データ送信部と、を備えている、
ことを特徴とする。
(a)前記情報配信装置によって、前記発話の音声から無音区間を特定し、特定した前記無音区間のうち、設定条件を満たす前記無音区間を前記話者の息継ぎ区間として特定する、ステップと、
(b)前記情報配信装置によって、前記筆記者に割り当てられた割当時間毎に、前記息継ぎ区間が、当該割当時間の終点を基準とした範囲内に存在するかどうかを判定し、
前記息継ぎ区間が前記範囲内に存在すると判定する場合に、当該割当時間の開始点から前記息継ぎ区間までにおける前記発話の音声データを生成し、
前記息継ぎ区間が前記範囲内に存在しないと判定する場合に、当該割当時間の開始点から終点までにおける前記発話の音声データを生成する、ステップと、
(c)前記情報配信装置によって、前記(b)のステップで生成された前記音声データを、前記割当時間が割り当てられている前記筆記者の前記端末装置に送信する、ステップと、
(d)前記筆記者用の端末装置によって、前記情報配信装置から送信されてきた前記音声データを受信する、ステップと、
(e)前記筆記者用の端末装置によって、前記音声データに対応して入力されたテキストデータの入力を受け付けるステップと、
(f)前記筆記者用の端末装置によって、前記(e)のステップで入力が受け付けられた前記テキストデータを、要約筆記の利用者が使用する利用者用の端末装置に送信する、ステップと、
を有することを特徴とする。
前記コンピュータに、
(a)前記発話の音声から無音区間を特定し、特定した前記無音区間のうち、設定条件を満たす前記無音区間を前記話者の息継ぎ区間として特定する、ステップと、
(b)筆記者に割り当てられた割当時間毎に、前記息継ぎ区間が、当該割当時間の終点を基準とした範囲内に存在するかどうかを判定し、
前記息継ぎ区間が前記範囲内に存在すると判定する場合に、当該割当時間の開始点から前記息継ぎ区間までにおける前記発話の音声データを生成し、
前記息継ぎ区間が前記範囲内に存在しないと判定する場合に、当該割当時間の開始点から終点までにおける前記発話の音声データを生成する、ステップと、
(c)前記(b)のステップによって生成された前記音声データを、前記割当時間が割り当てられている前記筆記者の前記端末装置に送信する、ステップと、
を実行させることを特徴とする。
(a)前記発話の音声データを送信する情報配信装置から、前記筆記者に割り当てられた割当時間毎に、前記音声データを受信する、ステップと、
(b)前記音声データに対応して入力されたテキストデータの入力を受け付ける、ステップと、
(c)前記(b)のステップで入力が受け付けられた前記テキストデータを、要約筆記の利用者が使用する利用者用の端末装置に送信する、ステップと、
を実行させることを特徴とする。
本発明は、話者の発話に対して要約筆記を行なう筆記者を支援する。本発明では、情報配信装置は、筆記者に割り当てられている割当時間に基づいて、話者の音声データを区切り、得られた音声データを、ネットワークを介して、筆記者の端末装置に送信する。
以下、本発明の実施の形態における、要約筆記支援システム、情報配信装置、端末装置、要約筆記支援方法、及びプログラムについて、図1〜図7を参照しながら説明する。
最初に、図1を用いて、要約筆記支援システムのシステム構成について説明する。図1は、本発明の実施の形態における要約筆記支援システムの全体構成を示す構成図である。
図2に示すように、情報配信装置100には、映像入力装置10と、音声入力装置20とが接続されている。映像入力装置10は、講義風景等を撮影するカメラであり、映像データを情報配信装置100へと出力している。また、音声入力装置20は、マイクであり、講師を含む話者の発話の音声を音声データに変換し、変換した音声データを情報配信装置100へと出力している。
図2に示すように、筆記者端末200には、音声出力装置30、表示装置31、及び入力装置32が接続されている。音声出力装置30は、例えば、筆記者端末200に備えられているスピーカー等である。表示装置31は、例えば、筆記者端末200に備えられている液晶表示装置等である。入力装置32は、マウス、キーボード、タッチパネルといった入力機器であり、入力部203に接続されている。
図2に示すように、利用者端末300は、データ受信部301と、データ再生部302と、表示部303とを備えている。このうち、データ受信部301は、筆記者端末200から送信されてくるデータセットを受信し、これをデータ再生部302に入力する。
次に、本発明の実施の形態における要約筆記支援システム400の動作について図4〜図6を用いて説明する。以下の説明においては、適宜図1〜図3を参酌する。また、本実施の形態では、要約筆記支援システム400を動作させることによって、要約筆記支援方法が実施される。よって、本実施の形態における要約筆記支援方法の説明は、以下の要約筆記支援システム400の動作説明に代える。
まず、図4を用いて、情報配信装置100における動作について説明する。図4は、本発明の実施の形態における情報配信装置の動作を示すフロー図である。
続いて、図5を用いて、筆記者端末200における動作について説明する。図5は、本発明の実施の形態における筆記者端末の動作を示すフロー図である。
続いて、図6を用いて、利用者端末300における動作について説明する。図6は、本発明の実施の形態における利用者端末の動作を示すフロー図である。
以上のように本実施の形態によれば、各筆記者50の割当時間は短時間に設定され、更に、音声データは話者40の息継ぎのタイミングに合せて区切られているので、筆記者50は、聞いた音声をそのままテキスト化するだけでも良い。よって、筆記者50の経験が浅い場合、筆記者50が特別な訓練を十分に受けていない場合であっても、聴覚障がい者への要約筆記が可能となる。また、筆記者端末200は、ネットワーク410を介して、情報配信装置100と利用者端末300とに接続されていれば良く、筆記者50は、遠隔に存在していても良い。以上の理由から、本実施の形態によれば、要約筆記によるサポートを受けることができる聴覚障がい者の数を増やすことができる。
本実施の形態における第1のプログラムは、コンピュータに、図4に示すステップA1〜A7を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態における情報配信装置100を実現することができる。この場合、コンピュータのCPU(Central Processing Unit)は、映像入力部101、音声入力部102、音声認識部103、息継ぎ検知部104、データ処理部105、及びデータ送信部106として機能し、処理を行なう。
まず、情報配信装置100は、筆記者端末200及び利用者端末300との間で、ネットワーク通信の接続確認を実行する(ステップA1)。そして、話者が、授業において、「1+2=3(いちたすにいこーるさん)」と発声したとする。
これにより、映像入力部101は、MEPG−4等でフォーマットされた映像データを取得し(ステップA2)、取得した映像データをデータ処理部105に入力する。音声入力部102は、PCM等でフォーマットされた音声データを取得し(ステップA3)、取得した音声データを音声認識部103に入力する。
次に、音声認識部103は、図8に示すように、発話音声21の音声データがリアルタイムで音声入力部102から入力されると、これを音声区間22−1〜22−3と無音区間23−1〜23−4とに分離する。そして、音声認識部103は、分離された無音区間23−1〜23−4の位置(開始点及び終点)を特定する情報を、息継ぎ検知部104に出力する。
次に、息継ぎ検知部104は、音声認識部103からの情報に基づいて、無音区間23−1〜23−4を特定し、各無音区間の長さが、閾値である1秒以下であるかどうかを判定する。図8の例では、無音区間23−2〜23−4それぞれの長さは1秒間であったので、それぞれ、息継ぎ区間24−1〜24−3と判定されている。
続いて、データ処理部105は、息継ぎ検知部104によって息継ぎと判定された息継ぎ区間24−1〜24−3と、筆記者50に割り当てられた割当時間25とを比較する。そして、データ処理部105は、各息継ぎ区間が、割当時間25の終点25bの前に設定される前指定区間26と後に設定される後指定区間27とを合せた区間内に存在しているかどうかを判定する。なお、本実施例では、割当時間25の長さは20秒間に設定されている。また、前指定区間26及び後指定区間27の長さはそれぞれ5秒間に設定されている。
そして、データ処理部105は、要約筆記用音声データと、配信用の映像データとを、データ送信部106に出力する。また、本実例では、音声データの送信は、VOICE/IPプロトコルに従って行なわれ、映像データの送信はTCP/IPプロトコルに従って行なわれる。
筆記者端末200では、データ受信部201が、映像データと要約筆記用音声データとを受信する。
次に、データ再生部202は、要約筆記用音声データを音声出力装置30に出力し、映像データを表示部205に出力する。これにより、映像データが表示装置31の画面に表示させる。また、スピーカーである音声出力装置30から、音声が再生される。本実施例では、「いちたすにいこーるさん」という話者の声が聞こえる。
そして、筆記者が、映像を見ながら、入力装置32から、話者の音声と関係している黒板の文字が記入されている箇所を選択すると、画像加工部204は、選択された箇所の静止画像を取り出し、取り出した静止画像の画像データをデータ処理部206に出力する。
また、筆記者が、音声をききながら、入力装置32から、「1+2=3(いちたすにいこーるさん)」を入力すると、入力部203は、入力されたテキストのテキストデータをデータ処理部206に出力する。
次に、データ処理部206は、筆記者50が入力したテキストデータと静止画像の画像データとを、一組のデータセットとして、データ送信部207に出力する。そして、データ送信部207は、データ処理部206からデータセットを受け取ると、TCP/IPに従って、このデータセットを利用者端末300に送信する。
利用者端末300では、データ受信部301は、筆記者端末200から送信されてくるデータセットを受信し、これをデータ再生部302に入力する。そして、データ再生部302は、データセットを、それに含まれるテキストデータと、静止画像の画像データとに分解し、それぞれを表示部303に入力する。
次に、表示部303は、テキストデータと画像データとを受け取ると、それぞれを表示装置33の画面上の所定の領域に表示させる。具体的には、表示部303は、テキストデータ「1+2=3」を、画面の文字表示エリアに表示し、静止画像を、画面の画像表示エリアに表示する。
話者の発話の要約筆記を支援するためのシステムであって、
前記要約筆記を行なう筆記者が使用する筆記者用の端末装置と、前記端末装置に前記発話の音声データを送信する情報配信装置と、を備え、
前記情報配信装置は、
前記発話の音声から無音区間を特定し、特定した前記無音区間のうち、設定条件を満たす前記無音区間を前記話者の息継ぎ区間として特定する、息継ぎ検知部と、
筆記者に割り当てられた割当時間毎に、前記息継ぎ区間が、当該割当時間の終点を基準とした範囲内に存在するかどうかを判定し、
前記息継ぎ区間が前記範囲内に存在すると判定する場合に、当該割当時間の開始点から前記息継ぎ区間までにおける前記発話の音声データを生成し、
前記息継ぎ区間が前記範囲内に存在しないと判定する場合に、当該割当時間の開始点から終点までにおける前記発話の音声データを生成する、データ処理部と、
前記データ処理部によって生成された前記音声データを、前記割当時間が割り当てられている前記筆記者の前記端末装置に送信する、データ送信部と、を備え、
前記筆記者用の端末装置は、
前記情報配信装置から送信されてきた前記音声データを受信する、データ受信部と、
前記音声データに対応して入力されたテキストデータの入力を受け付ける入力部と、
入力が受け付けられた前記テキストデータを、要約筆記の利用者が使用する利用者用の端末装置に送信する、データ送信部と、を備えている、
ことを特徴とする要約筆記支援システム。
前記情報配信装置の前記データ送信部が、更に、前記筆記者に割り当てられた割当時間に対応する映像データを、前記端末装置に対して送信し、
前記筆記者用の端末装置が、外部からの指示に応じて、送信されてきた前記映像データから、静止画像を取り出す、画像加工部を更に備え、
前記筆記者用の端末装置の前記データ送信部は、入力が受け付けられた前記テキストデータと、取り出された前記静止画像の画像データとを、前記利用者用の端末装置に送信する、
付記1に記載の要約筆記支援システム。
前記息継ぎ検知部が、前記無音区間の長さが閾値以下の場合に、前記無音区間を前記話者の息継ぎ区間として特定する、
付記1または2に記載の要約筆記支援システム。
前記筆記者に割り当てられる割当時間の長さが、前記筆記者の要約筆記の能力に応じて設定されている、付記1〜3のいずれかに記載の要約筆記支援システム。
話者の発話の要約筆記を行なう筆記者が使用する筆記者用の端末装置に、前記発話の音声データを送信するための装置であって、
前記発話の音声から無音区間を特定し、特定した前記無音区間のうち、設定条件を満たす前記無音区間を前記話者の息継ぎ区間として特定する、息継ぎ検知部と、
筆記者に割り当てられた割当時間毎に、前記息継ぎ区間が、当該割当時間の終点を基準とした範囲内に存在するかどうかを判定し、
前記息継ぎ区間が前記範囲内に存在すると判定する場合に、当該割当時間の開始点から前記息継ぎ区間までにおける前記発話の音声データを生成し、
前記息継ぎ区間が前記範囲内に存在しないと判定する場合に、当該割当時間の開始点から終点までにおける前記発話の音声データを生成する、データ処理部と、
前記データ処理部によって生成された前記音声データを、前記割当時間が割り当てられている前記筆記者の前記端末装置に送信する、データ送信部と、を備えている、
ことを特徴とする情報配信装置。
前記データ送信部が、更に、前記筆記者に割り当てられた割当時間に対応する映像データを、前記端末装置に対して送信する、
付記5に記載の情報配信装置。
前記息継ぎ検知部が、前記無音区間の長さが閾値以下の場合に、前記無音区間を前記話者の息継ぎ区間として特定する、
付記5または6に記載の情報配信装置。
前記筆記者に割り当てられる割当時間の長さが、前記筆記者の要約筆記の能力に応じて設定されている、付記5〜7のいずれかに記載の情報配信装置。
話者の発話の要約筆記を行なう筆記者が使用する端末装置であって、
前記発話の音声データを送信する情報配信装置から、前記筆記者に割り当てられた割当時間毎に、前記音声データを受信する、データ受信部と、
前記音声データに対応して入力されたテキストデータの入力を受け付ける入力部と、
入力が受け付けられた前記テキストデータを、要約筆記の利用者が使用する利用者用の端末装置に送信する、データ送信部と、を備えている、
ことを特徴とする端末装置。
前記情報配信装置が、更に、前記筆記者に割り当てられた割当時間に対応する映像データを、前記端末装置に対して送信してきた場合に、外部からの指示に応じて、送信されてきた前記映像データから、静止画像を取り出す、画像加工部、を更に備え、
前記データ送信部は、入力が受け付けられた前記テキストデータと、取り出された前記静止画像の画像データとを、前記利用者用の端末装置に送信する、
付記9に記載の端末装置。
話者の発話の要約筆記を行なう筆記者が使用する筆記者用の端末装置と、前記端末装置に前記発話の音声データを送信する情報配信装置と、を用いて、要約筆記を支援するための方法であって、
(a)前記情報配信装置によって、前記発話の音声から無音区間を特定し、特定した前記無音区間のうち、設定条件を満たす前記無音区間を前記話者の息継ぎ区間として特定する、ステップと、
(b)前記情報配信装置によって、前記筆記者に割り当てられた割当時間毎に、前記息継ぎ区間が、当該割当時間の終点を基準とした範囲内に存在するかどうかを判定し、
前記息継ぎ区間が前記範囲内に存在すると判定する場合に、当該割当時間の開始点から前記息継ぎ区間までにおける前記発話の音声データを生成し、
前記息継ぎ区間が前記範囲内に存在しないと判定する場合に、当該割当時間の開始点から終点までにおける前記発話の音声データを生成する、ステップと、
(c)前記情報配信装置によって、前記(b)のステップで生成された前記音声データを、前記割当時間が割り当てられている前記筆記者の前記端末装置に送信する、ステップと、
(d)前記筆記者用の端末装置によって、前記情報配信装置から送信されてきた前記音声データを受信する、ステップと、
(e)前記筆記者用の端末装置によって、前記音声データに対応して入力されたテキストデータの入力を受け付けるステップと、
(f)前記筆記者用の端末装置によって、前記(e)のステップで入力が受け付けられた前記テキストデータを、要約筆記の利用者が使用する利用者用の端末装置に送信する、ステップと、
を有することを特徴とする要約筆記支援方法。
(g)前記情報配信装置によって、更に、前記筆記者に割り当てられた割当時間に対応する映像データを、前記端末装置に対して送信する、ステップと、
(h)前記筆記者用の端末装置によって、外部からの指示に応じて、前記(g)のステップで送信されてきた前記映像データから、静止画像を取り出す、ステップと、
前記(f)のステップにおいて、前記(e)のステップで入力が受け付けられた前記テキストデータと、前記(h)のステップで取り出された前記静止画像の画像データとを、前記利用者用の端末装置に送信する、
付記11に記載の要約筆記支援方法。
前記(a)のステップで、前記無音区間の長さが閾値以下の場合に、前記無音区間を前記話者の息継ぎ区間として特定する、
付記11または12に記載の要約筆記支援方法。
前記筆記者に割り当てられる割当時間の長さが、前記筆記者の要約筆記の能力に応じて設定されている、付記11〜13のいずれかに記載の要約筆記支援方法。
コンピュータによって、話者の発話の要約筆記を行なう筆記者が使用する筆記者用の端末装置に、前記発話の音声データを送信するためのプログラムであって、
前記コンピュータに、
(a)前記発話の音声から無音区間を特定し、特定した前記無音区間のうち、設定条件を満たす前記無音区間を前記話者の息継ぎ区間として特定する、ステップと、
(b)筆記者に割り当てられた割当時間毎に、前記息継ぎ区間が、当該割当時間の終点を基準とした範囲内に存在するかどうかを判定し、
前記息継ぎ区間が前記範囲内に存在すると判定する場合に、当該割当時間の開始点から前記息継ぎ区間までにおける前記発話の音声データを生成し、
前記息継ぎ区間が前記範囲内に存在しないと判定する場合に、当該割当時間の開始点から終点までにおける前記発話の音声データを生成する、ステップと、
(c)前記(b)のステップによって生成された前記音声データを、前記割当時間が割り当てられている前記筆記者の前記端末装置に送信する、ステップと、
を実行させるプログラム。
前記(c)のステップで、更に、前記筆記者に割り当てられた割当時間に対応する映像データを、前記端末装置に対して送信する、
付記15に記載のプログラム。
前記(a)のステップで、前記無音区間の長さが閾値以下の場合に、前記無音区間を前記話者の息継ぎ区間として特定する、
付記15または16に記載のプログラム。
前記筆記者に割り当てられる割当時間の長さが、前記筆記者の要約筆記の能力に応じて設定されている、付記15〜17のいずれかに記載のプログラム。
話者の発話の要約筆記を行なう筆記者が使用するコンピュータに、
(a)前記発話の音声データを送信する情報配信装置から、前記筆記者に割り当てられた割当時間毎に、前記音声データを受信する、ステップと、
(b)前記音声データに対応して入力されたテキストデータの入力を受け付ける、ステップと、
(c)前記(b)のステップで入力が受け付けられた前記テキストデータを、要約筆記の利用者が使用する利用者用の端末装置に送信する、ステップと、
を実行させるプログラム。
前記プログラムが、
(d)前記情報配信装置が、更に、前記筆記者に割り当てられた割当時間に対応する映像データを、前記コンピュータに送信してきた場合に、外部からの指示に応じて、送信されてきた前記映像データから、静止画像を取り出す、ステップを更に前記コンピュータに実行させ、
前記(c)のステップにおいて、入力が受け付けられた前記テキストデータと、取り出された前記静止画像の画像データとを、前記利用者用の端末装置に送信する、
付記19に記載のプログラム。
前記通訳を行なう通訳者が使用する通訳者用の端末装置と、前記端末装置に前記発話の音声データを送信する情報配信装置と、を備え、
前記情報配信装置は、
前記発話の音声から無音区間を特定し、特定した前記無音区間のうち、設定条件を満たす前記無音区間を前記話者の息継ぎ区間として特定する、息継ぎ検知部と、
通訳者に割り当てられた割当時間毎に、前記息継ぎ区間が、当該割当時間の終点を基準とした範囲内に存在するかどうかを判定し、
前記息継ぎ区間が前記範囲内に存在すると判定する場合に、当該割当時間の開始点から前記息継ぎ区間までにおける前記発話の音声データを生成し、
前記息継ぎ区間が前記範囲内に存在しないと判定する場合に、当該割当時間の開始点から終点までにおける前記発話の音声データを生成する、データ処理部と、
前記データ処理部によって生成された前記音声データを、前記割当時間が割り当てられている前記通訳者の前記端末装置に送信する、データ送信部と、を備え、
前記通訳者用の端末装置は、
前記情報配信装置から送信されてきた前記音声データを受信する、データ受信部と、
前記音声データに対応して入力されたテキストデータの入力を受け付ける入力部と、
入力が受け付けられた前記テキストデータを、通訳の利用者が使用する利用者用の端末装置に送信する、データ送信部と、を備えている、
ことを特徴とする。
前記発話の音声から無音区間を特定し、特定した前記無音区間のうち、設定条件を満たす前記無音区間を前記話者の息継ぎ区間として特定する、息継ぎ検知部と、
通訳者に割り当てられた割当時間毎に、前記息継ぎ区間が、当該割当時間の終点を基準とした範囲内に存在するかどうかを判定し、
前記息継ぎ区間が前記範囲内に存在すると判定する場合に、当該割当時間の開始点から前記息継ぎ区間までにおける前記発話の音声データを生成し、
前記息継ぎ区間が前記範囲内に存在しないと判定する場合に、当該割当時間の開始点から終点までにおける前記発話の音声データを生成する、データ処理部と、
前記データ処理部によって生成された前記音声データを、前記割当時間が割り当てられている前記通訳者の前記端末装置に送信する、データ送信部と、を備えている、
ことを特徴とする。
前記発話の音声データを送信する情報配信装置から、前記通訳者に割り当てられた割当時間毎に、前記音声データを受信する、データ受信部と、
前記音声データに対応して入力されたテキストデータの入力を受け付ける入力部と、
入力が受け付けられた前記テキストデータを、通訳の利用者が使用する利用者用の端末装置に送信する、データ送信部と、を備えている、
ことを特徴とする。
(a)前記情報配信装置によって、前記発話の音声から無音区間を特定し、特定した前記無音区間のうち、設定条件を満たす前記無音区間を前記話者の息継ぎ区間として特定する、ステップと、
(b)前記情報配信装置によって、前記通訳者に割り当てられた割当時間毎に、前記息継ぎ区間が、当該割当時間の終点を基準とした範囲内に存在するかどうかを判定し、
前記息継ぎ区間が前記範囲内に存在すると判定する場合に、当該割当時間の開始点から前記息継ぎ区間までにおける前記発話の音声データを生成し、
前記息継ぎ区間が前記範囲内に存在しないと判定する場合に、当該割当時間の開始点から終点までにおける前記発話の音声データを生成する、ステップと、
(c)前記情報配信装置によって、前記(b)のステップで生成された前記音声データを、前記割当時間が割り当てられている前記通訳者の前記端末装置に送信する、ステップと、
(d)前記通訳者用の端末装置によって、前記情報配信装置から送信されてきた前記音声データを受信する、ステップと、
(e)前記通訳者用の端末装置によって、前記音声データに対応して入力されたテキストデータの入力を受け付けるステップと、
(f)前記通訳者用の端末装置によって、前記(e)のステップで入力が受け付けられた前記テキストデータを、通訳の利用者が使用する利用者用の端末装置に送信する、ステップと、
を有することを特徴とする。
前記コンピュータに、
(a)前記発話の音声から無音区間を特定し、特定した前記無音区間のうち、設定条件を満たす前記無音区間を前記話者の息継ぎ区間として特定する、ステップと、
(b)通訳者に割り当てられた割当時間毎に、前記息継ぎ区間が、当該割当時間の終点を基準とした範囲内に存在するかどうかを判定し、
前記息継ぎ区間が前記範囲内に存在すると判定する場合に、当該割当時間の開始点から前記息継ぎ区間までにおける前記発話の音声データを生成し、
前記息継ぎ区間が前記範囲内に存在しないと判定する場合に、当該割当時間の開始点から終点までにおける前記発話の音声データを生成する、ステップと、
(c)前記(b)のステップによって生成された前記音声データを、前記割当時間が割り当てられている前記通訳者の前記端末装置に送信する、ステップと、
を実行させることを特徴とする。
話者の発話の通訳を行なう通訳者が使用するコンピュータに、
(a)前記発話の音声データを送信する情報配信装置から、前記通訳者に割り当てられた割当時間毎に、前記音声データを受信する、ステップと、
(b)前記音声データに対応して入力されたテキストデータの入力を受け付ける、ステップと、
(c)前記(b)のステップで入力が受け付けられた前記テキストデータを、通訳の利用者が使用する利用者用の端末装置に送信する、ステップと、
を実行させることを特徴とする。
20 音声入力装置
21 発話音声
22−1〜22−3 音声区間
23−1〜23−4 無音区間
24−1〜24−4 息継ぎ区間
25 割当時間
25a 開始点
25b 終点
26 前指定区間
27 後指定区間
28 要約筆記用音声データ
30 音声出力装置
31 表示装置
32 入力装置
33 表示装置
40 話者
50 筆記者
60 利用者
100 情報配信装置
101 映像入力部
102 音声入力部
103 音声認識部
104 息継ぎ検知部
105 データ処理部
106 データ送信部
110 コンピュータ
111 CPU
112 メインメモリ
113 記憶装置
114 入力インターフェイス
115 表示コントローラ
116 データリーダ/ライタ
117 通信インターフェイス
118 入力機器
119 ディスプレイ装置
120 記録媒体
121 バス
200 筆記者端末
201 データ受信部
202 データ再生部
203 入力部
204 画像加工部
205 表示部
206 データ処理部
207 データ送信部
300 利用者端末
301 データ受信部
302 データ再生部
303 表示部
400 要約筆記支援システム
410 ネットワーク
Claims (7)
- 話者の発話の要約筆記を支援するためのシステムであって、
前記要約筆記を行なう筆記者が使用する筆記者用の端末装置と、前記端末装置に前記発話の音声データを送信する情報配信装置と、を備え、
前記情報配信装置は、
前記発話の音声から無音区間を特定し、特定した前記無音区間のうち、設定条件を満たす前記無音区間を前記話者の息継ぎ区間として特定する、息継ぎ検知部と、
筆記者に割り当てられた割当時間毎に、前記息継ぎ区間が、当該割当時間の終点を基準とした範囲内に存在するかどうかを判定し、
前記息継ぎ区間が前記範囲内に存在すると判定する場合に、当該割当時間の開始点から前記息継ぎ区間までにおける前記発話の音声データを生成し、
前記息継ぎ区間が前記範囲内に存在しないと判定する場合に、当該割当時間の開始点から終点までにおける前記発話の音声データを生成する、データ処理部と、
前記データ処理部によって生成された前記音声データを、前記割当時間が割り当てられている前記筆記者の前記端末装置に送信する、データ送信部と、を備え、
前記筆記者用の端末装置は、
前記情報配信装置から送信されてきた前記音声データを受信する、データ受信部と、
前記音声データに対応して入力されたテキストデータの入力を受け付ける入力部と、
入力が受け付けられた前記テキストデータを、要約筆記の利用者が使用する利用者用の端末装置に送信する、データ送信部と、を備えている、
ことを特徴とする要約筆記支援システム。 - 前記情報配信装置の前記データ送信部が、更に、前記筆記者に割り当てられた割当時間に対応する映像データを、前記端末装置に対して送信し、
前記筆記者用の端末装置が、外部からの指示に応じて、送信されてきた前記映像データから、静止画像を取り出す、画像加工部を更に備え、
前記筆記者用の端末装置の前記データ送信部は、入力が受け付けられた前記テキストデータと、取り出された前記静止画像の画像データとを、前記利用者用の端末装置に送信する、
請求項1に記載の要約筆記支援システム。 - 前記息継ぎ検知部が、前記無音区間の長さが閾値以下の場合に、前記無音区間を前記話者の息継ぎ区間として特定する、
請求項1または2に記載の要約筆記支援システム。 - 前記筆記者に割り当てられる割当時間の長さが、前記筆記者の要約筆記の能力に応じて設定されている、請求項1〜3のいずれかに記載の要約筆記支援システム。
- 話者の発話の要約筆記を行なう筆記者が使用する筆記者用の端末装置に、前記発話の音声データを送信するための装置であって、
前記発話の音声から無音区間を特定し、特定した前記無音区間のうち、設定条件を満たす前記無音区間を前記話者の息継ぎ区間として特定する、息継ぎ検知部と、
筆記者に割り当てられた割当時間毎に、前記息継ぎ区間が、当該割当時間の終点を基準とした範囲内に存在するかどうかを判定し、
前記息継ぎ区間が前記範囲内に存在すると判定する場合に、当該割当時間の開始点から前記息継ぎ区間までにおける前記発話の音声データを生成し、
前記息継ぎ区間が前記範囲内に存在しないと判定する場合に、当該割当時間の開始点から終点までにおける前記発話の音声データを生成する、データ処理部と、
前記データ処理部によって生成された前記音声データを、前記割当時間が割り当てられている前記筆記者の前記端末装置に送信する、データ送信部と、を備えている、
ことを特徴とする情報配信装置。 - 話者の発話の要約筆記を行なう筆記者が使用する筆記者用の端末装置と、前記端末装置に前記発話の音声データを送信する情報配信装置と、を用いて、要約筆記を支援するための方法であって、
(a)前記情報配信装置によって、前記発話の音声から無音区間を特定し、特定した前記無音区間のうち、設定条件を満たす前記無音区間を前記話者の息継ぎ区間として特定する、ステップと、
(b)前記情報配信装置によって、前記筆記者に割り当てられた割当時間毎に、前記息継ぎ区間が、当該割当時間の終点を基準とした範囲内に存在するかどうかを判定し、
前記息継ぎ区間が前記範囲内に存在すると判定する場合に、当該割当時間の開始点から前記息継ぎ区間までにおける前記発話の音声データを生成し、
前記息継ぎ区間が前記範囲内に存在しないと判定する場合に、当該割当時間の開始点から終点までにおける前記発話の音声データを生成する、ステップと、
(c)前記情報配信装置によって、前記(b)のステップで生成された前記音声データを、前記割当時間が割り当てられている前記筆記者の前記端末装置に送信する、ステップと、
(d)前記筆記者用の端末装置によって、前記情報配信装置から送信されてきた前記音声データを受信する、ステップと、
(e)前記筆記者用の端末装置によって、前記音声データに対応して入力されたテキストデータの入力を受け付けるステップと、
(f)前記筆記者用の端末装置によって、前記(e)のステップで入力が受け付けられた前記テキストデータを、要約筆記の利用者が使用する利用者用の端末装置に送信する、ステップと、
を有することを特徴とする要約筆記支援方法。 - コンピュータによって、話者の発話の要約筆記を行なう筆記者が使用する筆記者用の端末装置に、前記発話の音声データを送信するためのプログラムであって、
前記コンピュータに、
(a)前記発話の音声から無音区間を特定し、特定した前記無音区間のうち、設定条件を満たす前記無音区間を前記話者の息継ぎ区間として特定する、ステップと、
(b)筆記者に割り当てられた割当時間毎に、前記息継ぎ区間が、当該割当時間の終点を基準とした範囲内に存在するかどうかを判定し、
前記息継ぎ区間が前記範囲内に存在すると判定する場合に、当該割当時間の開始点から前記息継ぎ区間までにおける前記発話の音声データを生成し、
前記息継ぎ区間が前記範囲内に存在しないと判定する場合に、当該割当時間の開始点から終点までにおける前記発話の音声データを生成する、ステップと、
(c)前記(b)のステップによって生成された前記音声データを、前記割当時間が割り当てられている前記筆記者の前記端末装置に送信する、ステップと、
を実行させるプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013056292 | 2013-03-19 | ||
JP2013056292 | 2013-03-19 | ||
PCT/JP2014/054010 WO2014148190A1 (ja) | 2013-03-19 | 2014-02-20 | 要約筆記支援システム、情報配信装置、端末装置、要約筆記支援方法、及びコンピュータ読み取り可能な記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2014148190A1 JPWO2014148190A1 (ja) | 2017-02-16 |
JP6172770B2 true JP6172770B2 (ja) | 2017-08-02 |
Family
ID=51579882
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015506661A Active JP6172770B2 (ja) | 2013-03-19 | 2014-02-20 | 要約筆記支援システム、情報配信装置、要約筆記支援方法、及びプログラム |
Country Status (6)
Country | Link |
---|---|
US (1) | US9697851B2 (ja) |
EP (1) | EP2977983A1 (ja) |
JP (1) | JP6172770B2 (ja) |
KR (1) | KR20150131287A (ja) |
CN (1) | CN105378829B (ja) |
WO (1) | WO2014148190A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2544257A (en) * | 2015-09-19 | 2017-05-17 | Philip Pisani Justin | Greeting gesture device |
GB2583117B (en) * | 2019-04-17 | 2021-06-30 | Sonocent Ltd | Processing and visualising audio signals |
FI20225762A1 (fi) * | 2022-08-31 | 2024-03-01 | Elisa Oyj | Tietokoneimplementoitu menetelmä aktiivisuuden havaitsemiseksi äänivirrassa |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2119397C (en) * | 1993-03-19 | 2007-10-02 | Kim E.A. Silverman | Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation |
GB2291571A (en) * | 1994-07-19 | 1996-01-24 | Ibm | Text to speech system; acoustic processor requests linguistic processor output |
JP4030162B2 (ja) * | 1997-11-04 | 2008-01-09 | 富士通株式会社 | 息検出機能付情報処理装置及び息検出による画像表示制御方法 |
US6505153B1 (en) * | 2000-05-22 | 2003-01-07 | Compaq Information Technologies Group, L.P. | Efficient method for producing off-line closed captions |
JP2003223200A (ja) | 2002-01-28 | 2003-08-08 | Telecommunication Advancement Organization Of Japan | 話速変換による書き起こし支援システム及び半自動型字幕番組制作システム |
JP2003223199A (ja) | 2002-01-28 | 2003-08-08 | Telecommunication Advancement Organization Of Japan | 字幕用書き起こしテキストの作成支援システム及び半自動型字幕番組制作システム |
US7539086B2 (en) * | 2002-10-23 | 2009-05-26 | J2 Global Communications, Inc. | System and method for the secure, real-time, high accuracy conversion of general-quality speech into text |
CN1792082B (zh) * | 2003-04-22 | 2010-07-21 | 斯皮沃克斯有限公司 | 操作方执行的语音邮件转录 |
US20070118372A1 (en) * | 2005-11-23 | 2007-05-24 | General Electric Company | System and method for generating closed captions |
JP4158937B2 (ja) | 2006-03-24 | 2008-10-01 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 字幕修正装置 |
CN101178790A (zh) * | 2006-11-10 | 2008-05-14 | 胡鹏 | 智能虚拟断句实现协同听打录入的方法 |
US8332212B2 (en) * | 2008-06-18 | 2012-12-11 | Cogi, Inc. | Method and system for efficient pacing of speech for transcription |
US8370142B2 (en) * | 2009-10-30 | 2013-02-05 | Zipdx, Llc | Real-time transcription of conference calls |
US8843372B1 (en) * | 2010-03-19 | 2014-09-23 | Herbert M. Isenberg | Natural conversational technology system and method |
US9286886B2 (en) * | 2011-01-24 | 2016-03-15 | Nuance Communications, Inc. | Methods and apparatus for predicting prosody in speech synthesis |
JP5505989B2 (ja) | 2011-03-31 | 2014-05-28 | Necシステムテクノロジー株式会社 | 筆記支援装置、筆記支援方法、およびプログラム |
JP5424359B2 (ja) | 2011-07-01 | 2014-02-26 | Necシステムテクノロジー株式会社 | 理解支援システム、支援端末、理解支援方法およびプログラム |
JP5892598B2 (ja) | 2012-02-29 | 2016-03-23 | Necソリューションイノベータ株式会社 | 音声文字変換作業支援装置、音声文字変換システム、音声文字変換作業支援方法及びプログラム |
US9208798B2 (en) * | 2012-04-09 | 2015-12-08 | Board Of Regents, The University Of Texas System | Dynamic control of voice codec data rate |
-
2014
- 2014-02-20 WO PCT/JP2014/054010 patent/WO2014148190A1/ja active Application Filing
- 2014-02-20 US US14/777,784 patent/US9697851B2/en active Active
- 2014-02-20 CN CN201480017147.XA patent/CN105378829B/zh active Active
- 2014-02-20 JP JP2015506661A patent/JP6172770B2/ja active Active
- 2014-02-20 KR KR1020157029366A patent/KR20150131287A/ko not_active Application Discontinuation
- 2014-02-20 EP EP14769854.2A patent/EP2977983A1/en not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
US20160300587A1 (en) | 2016-10-13 |
CN105378829A (zh) | 2016-03-02 |
WO2014148190A1 (ja) | 2014-09-25 |
EP2977983A1 (en) | 2016-01-27 |
KR20150131287A (ko) | 2015-11-24 |
JPWO2014148190A1 (ja) | 2017-02-16 |
CN105378829B (zh) | 2019-04-02 |
US9697851B2 (en) | 2017-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11114091B2 (en) | Method and system for processing audio communications over a network | |
US8515728B2 (en) | Language translation of visual and audio input | |
JP5750380B2 (ja) | 音声翻訳装置、音声翻訳方法および音声翻訳プログラム | |
JP2018106148A (ja) | 多重話者音声認識修正システム | |
JP6945130B2 (ja) | 音声提示方法、音声提示プログラム、音声提示システム及び端末装置 | |
JP2003345379A6 (ja) | 音声映像変換装置及び方法、音声映像変換プログラム | |
JP6172770B2 (ja) | 要約筆記支援システム、情報配信装置、要約筆記支援方法、及びプログラム | |
JP2018174439A (ja) | 会議支援システム、会議支援方法、会議支援装置のプログラム、および端末のプログラム | |
US8553855B2 (en) | Conference support apparatus and conference support method | |
JP2018174442A (ja) | 会議支援システム、会議支援方法、会議支援装置のプログラム、および端末のプログラム | |
US20220208190A1 (en) | Information providing method, apparatus, and storage medium, that transmit related information to a remote terminal based on identification information received from the remote terminal | |
JP3930402B2 (ja) | オンライン教育システム、情報処理装置、情報提供方法及びプログラム | |
CN115359796A (zh) | 数字人手语播报方法、装置、设备及存储介质 | |
KR101920653B1 (ko) | 비교음 생성을 통한 어학학습방법 및 어학학습프로그램 | |
JP5791124B2 (ja) | 要約筆記支援システム、要約筆記支援装置、要約筆記支援方法、及びプログラム | |
JP7471979B2 (ja) | 会議支援システム | |
JP5846649B2 (ja) | 要約筆記支援システム、配信装置、要約筆記支援方法、及びプログラム | |
US20230267942A1 (en) | Audio-visual hearing aid | |
JP7087745B2 (ja) | 端末装置、情報提供システム、端末装置の動作方法および情報提供方法 | |
JP2021085999A (ja) | ライブ字幕表示システム | |
JP2018067050A (ja) | 音声処理装置、ウェアラブル端末、携帯端末、および音声処理方法 | |
JP2016186646A (ja) | 音声翻訳装置、音声翻訳方法および音声翻訳プログラム | |
JP2015187738A (ja) | 音声翻訳装置、音声翻訳方法および音声翻訳プログラム | |
JP2022056593A (ja) | 会議支援システム、会議支援方法およびプログラム | |
JP2008191976A (ja) | リアルタイム字幕提示装置、及び、方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161108 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161227 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170606 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170629 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6172770 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |