JP2020024277A - データ・セグメンテーション装置 - Google Patents
データ・セグメンテーション装置 Download PDFInfo
- Publication number
- JP2020024277A JP2020024277A JP2018148249A JP2018148249A JP2020024277A JP 2020024277 A JP2020024277 A JP 2020024277A JP 2018148249 A JP2018148249 A JP 2018148249A JP 2018148249 A JP2018148249 A JP 2018148249A JP 2020024277 A JP2020024277 A JP 2020024277A
- Authority
- JP
- Japan
- Prior art keywords
- data
- unit
- sentence
- boundary
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
(仮定1):
単語wtの後の位置に文章の境界(区切り位置)は存在せず、入力データは、・・・,wt−1,wt,wt+1,・・・のままであるものとする。
(仮定2):
単語wtの後の位置に文章の境界(区切り位置)が存在し、入力データは、・・・,wt−1,wt,</s>,<s>,wt+1,・・・であるものとする。なお、「</s>」は、文章の終端位置を示し、「<s>」は、文章の開始位置を示している。
F1=2×Precision×Recall/(Precision+Recall)
Precision:正しいと予測したデータのうち、実際に正しいデータであった割合
Recall:実際に正しいデータであるもののうち、正しいと予測されたデータの割合
とし、
評価値scoreを
score=F1−α×latency
latency:遅延時間(遅延量)
α:係数
としたとき、
閾値ベクトルθをチューニングするために用いるデータセットにおいて、評価値scoreが所定の値よりも大きな値となるように、閾値ベクトルθを設定する。
第1実施形態について、図面を参照しながら、以下説明する。
図1は、第1実施形態に係る同時通訳システム1000の概略構成図である。
xoRNN1(t)=Wrec×xoRNN1(t−1)+W1×xoemb(t)
Wrec:重み行列
W1:重み行列
に相当する処理を実行し、時刻tの第1RNN層の出力データxoRNN1(t)を取得し、当該データを第2RNN層223に出力する。
xoRNN2(t)=Wrec2×xoRNN2(t−1)+W2×xoRNN1(t)
Wrec2:重み行列
W2:重み行列
に相当する処理を実行し、時刻tの第2RNN層の出力データxoRNN2(t)を取得し、当該データを第3RNN層224に出力する。
xoRNN3(t)=Wrec3×xoRNN3(t−1)+W3×xoRNN2(t)
Wrec3:重み行列
W3:重み行列
に相当する処理を実行し、時刻tの第3RNN層の出力データxoRNN3(t)を取得し、当該データを出力マッピング層225に出力する。
ソフトマックス層226は、各ノードに対応する出力値yt(i)を要素とするm+1次元のベクトルデータを取得し、取得したm+1次元のベクトルデータを出力データyt(センテンス・セグメンテーション判定用データyt)として文章境界検出部23に出力する。
以上のように構成された同時通訳システム1000の動作について説明する。
まず、同時通訳システム1000において、文章分割装置100のニューラルネットワーク部22のニューラルネットワークの学習処理について、説明する。
Si=(w1 i,w2 i,・・・,wni i)
であり、
(1)1≦t≦niの場合、
xt=wt i
であり、
(2)ni+1≦t≦ni+mの場合、
xt=wt−ni i+1
とする。なお、Xi=(x1,x2,・・・,xni+m)であり、Xiは、入力単語のシーケンスである。
yt <k>=1 if 1≦t≦ni、k=m+1
yt <k>=1 if ni+1≦t≦ni+m、k=t−ni
yt <k>=0 otherwise(上記以外の場合)
したがって、実データyt(訓練用データを入力したときの出力データyt)と教師データとのクロスエントロピーE(S)を最小にするために、以下の基準を採用する。
文章分割装置100のニューラルネットワーク部22では、訓練用データを入力し、出力データytを取得する。そして、取得したデータytについて、上記クロスエントロピーE(S)が所定の基準を満たすように、ニューラルネットワーク部22のニューラルネットワークのパラメータ(各シナプス間の重み付け)を決定する。そして、決定したパラメータ(各シナプス間の重み付け)を用いて、ニューラルネットワーク部22のニューラルネットワークにおいて、学習済みモデルを構築する。
x1=「i」
x2=「‘d」
x3=「like」
x4=「some」
x5=「strawberries」
x6=「how」
x7=「much」
x8=「does」
そして、ニューラルネットワーク部22の出力は、m+1次元のベクトルである。時刻tのニューラルネットワーク部22の出力は、ytであり、
yt=(yt <1>,yt <2>,・・・,yt <m>,yt <m+1>)
yt <1>:単語wt−1(入力データxt−1)の後に文章の境界(区切り)がある確率
yt <2>:単語wt−2(入力データxt−2)の後に文章の境界(区切り)がある確率
・・・
yt <m>:単語wt−m(入力データxt−m)の後に文章の境界(区切り)がある確率
yt <m+1>:ytの全ての要素の加算値を「1」とするための値
yt <m+1>は、以下の数式を満たす。
上記の場合、図3に示すように、「strawberries」の後に文章の境界があるので、教師データytを以下のデータとして、学習を行う。
y1=y2=y3=y4=y5=(0,0,0,1)
y6=(1,0,0,0)
y7=(0,1,0,0)
y8=(0,0,1,0)
上記以外の訓練用データについても同様にして学習を行う。つまり、上記クロスエントロピーE(S)が所定の基準を満たすように、ニューラルネットワーク部22のニューラルネットワークのパラメータ(各シナプス間の重み付け)を決定する。そして、決定したパラメータ(各シナプス間の重み付け)を用いて、ニューラルネットワーク部22のニューラルネットワークにおいて、学習済みモデルを構築する。
次に、同時通訳システム1000において、上記学習処理により取得した学習済みモデルを用いた予測処理、すなわち、同時通訳処理について説明する。
x1=「i」
x2=「‘d」
x3=「like」
x4=「some」
x5=「strawberries」
x6=「how」
x7=「much」
x8=「does」
埋込層221では、入力された単語データxtに対応する分散表現データが取得される。取得された分散表現データは、第1RNN層222に入力される。
xoRNN1(t)=Wrec×xoRNN1(t−1)+W1×xoemb(t)
Wrec:重み行列
W1:重み行列
に相当する処理を実行し、時刻tの第1RNN層の出力データxoRNN1(t)を取得し、当該データを第2RNN層223に出力する。
xoRNN2(t)=Wrec2×xoRNN2(t−1)+W2×xoRNN1(t)
Wrec2:重み行列
W2:重み行列
に相当する処理を実行し、時刻tの第2RNN層の出力データxoRNN2(t)を取得し、当該データを第3RNN層224に出力する。
xoRNN3(t)=Wrec3×xoRNN3(t−1)+W3×xoRNN2(t)
Wrec3:重み行列
W3:重み行列
に相当する処理を実行し、時刻tの第3RNN層の出力データxoRNN3(t)を取得し、当該データを出力マッピング層225に出力する。
ソフトマックス層226は、各ノードに対応する出力値yt(i)を要素とするm+1次元のベクトルデータを取得し、取得したm+1次元のベクトルデータを出力データyt(センテンス・セグメンテーション判定用データyt)として文章境界検出部23に出力する。
y1=(y1 <1>,y1 <2>,y1 <3>,y1 <4>)
=(0.15,0.21,0.18,0.46)
y2=(y2 <1>,y2 <2>,y2 <3>,y2 <4>)
=(0.13,0.24,0.21,0.42)
y3=(y3 <1>,y3 <2>,y3 <3>,y3 <4>)
=(0.25,0.11,0.22,0.42)
y4=(y4 <1>,y4 <2>,y4 <3>,y4 <4>)
=(0.36,0.24,0.21,0.19)
y5=(y5 <1>,y5 <2>,y5 <3>,y5 <4>)
=(0.17,0.19,0.13,0.51)
y6=(y6 <1>,y6 <2>,y6 <3>,y6 <4>)
=(0.33,0.24,0.21,0.22)
y7=(y7 <1>,y7 <2>,y7 <3>,y7 <4>)
=(0.15,0.51,0.12,0.22)
y8=(y8 <1>,y8 <2>,y8 <3>,y8 <4>)
=(0.13,0.24,0.61,0.02)
また、閾値ベクトル設定部1は、所定のデータセットを用いて学習した閾値ベクトルθをセンテンス分割部2に出力する。なお、ここでは、閾値ベクトルθは、
θ=(θ<1>,θ<2>,θ<3>)=(0.4,0.5,0.6)
であるものとする。
ステップS1において、文章境界検出部23は、i=1に設定する処理を行う。
ステップS2において、文章境界検出部23は、センテンス・セグメンテーション判定用データytのi番目の要素yt <i>と、閾値ベクトルθのi番目の要素θ<i>との比較処理を行う。そして、yt <i>>θ<i>である場合、処理をステップS3に進め、yt <i>>θ<i>ではない場合、処理をステップS4に進める。
ステップS3において、文章境界検出部23は、文章境界決定処理を行う。具体的には、文章境界検出部23は、yt <i>>θ<i>であるので、文章境界(文章の区切り位置)が時刻t−iにニューラルネットワーク部22に入力された単語xt−iの後であると判定する。そして、文章境界検出部23は、当該判定結果を含むデータをセンテンス取得部24に出力する。具体的には、文章境界検出部23は、時刻tにおいて、ニューラルネットワーク部22に入力された単語xtの後に文章境界があると判定した場合、δt=1とし、ニューラルネットワーク部22に入力された単語xtの後に文章境界がないと判定した場合、δt=0とする。そして、δtを含むデータをセンテンス取得部24に出力する。
ステップS4において、文章境界検出部23は、値iと値mとを比較し、i>mである場合、処理を終了させ、i>mではない場合、処理をステップS5に進める。
次に、第1実施形態の変形例について、説明する。
F1=2×Precision×Recall/(Precision+Recall)
Precision:正しいと予測したデータのうち、実際に正しいデータであった割合
Recall:実際に正しいデータであるもののうち、正しいと予測されたデータの割合
とする。
score=F1−α×latency
latency:遅延時間(遅延量)
とする。
次に、第2実施形態について、説明する。
次に、第3実施形態について、説明する。
次に、第3実施形態の第1変形例について、説明する。
次に、第3実施形態の第2変形例について、説明する。
上記実施形態(変形例を含む)で説明した同時通訳システムの各機能部は、1つの装置(システム)により実現されてもよいし、複数の装置により実現されてもよい。
100 文章分割装置(データ・セグメンテーション装置)
1 閾値ベクトル設定部
2 センテンス分割部
21 単語取得部
22 ニューラルネットワーク部
23 文章境界検出部
24 センテンス取得部
Claims (6)
- 時系列に連続するデータであるシーケンスデータを構成する単位データを入力し、
各要素がシーケンスデータの境界位置である確率を示すデータであるm個(m:自然数)の要素と、もう1つの要素との合計m+1個の要素からなるm+1次元ベクトルデータを出力するニューラルネットワーク部と、
前記ニューラルネットワーク部から出力される前記m+1次元ベクトルデータに基づいて、シーケンスデータの境界位置を決定する境界検出部と、
を備えるデータ・セグメンテーション装置。 - 前記ニューラルネットワーク部は、
再帰型ニューラルネットワークを含む、
請求項1に記載のデータ・セグメンテーション装置。 - m次元の閾値ベクトルを設定する閾値ベクトル設定部をさらに備え、
前記境界検出部は、
前記m次元の閾値ベクトルと前記m+1次元ベクトルデータとに基づいて、シーケンスデータの境界位置を決定する、
請求項1または2に記載のデータ・セグメンテーション装置。 - 前記境界検出部は、
前記m次元の閾値ベクトルのm個の要素と、前記m+1次元ベクトルデータのシーケンスデータの境界位置である確率を示すデータであるm個の要素とを、それぞれ、比較することにより、シーケンスデータの境界位置を決定する、
請求項3に記載のデータ・セグメンテーション装置。 - 前記境界検出部は、
前記m次元の閾値ベクトルのm個の要素と、前記m+1次元ベクトルデータのシーケンスデータの境界位置である確率を示すデータであるm個の要素とを、検出する対象のシーケンスデータの境界位置が現時刻から時間的に近い順に、比較することで文章の境界位置を決定する処理を行い、文章の境界位置が決定されたとき、以降の比較処理を行わない、
請求項4に記載のデータ・セグメンテーション装置。 - 前記閾値ベクトル設定部は、
値F1を
F1=2×Precision×Recall/(Precision+Recall)
Precision:正しいと予測したデータのうち、実際に正しいデータであった割合
Recall:実際に正しいデータであるもののうち、正しいと予測されたデータの割合
とし、
評価値scoreを
score=F1−α×latency
latency:遅延時間(遅延量)
α:係数
としたとき、
閾値ベクトルθをチューニングするために用いるデータセットにおいて、前記評価値scoreが所定の値よりも大きな値となるように、閾値ベクトルθを設定する、
請求項3から5のいずれかに記載のデータ・セグメンテーション装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018148249A JP7113474B2 (ja) | 2018-08-07 | 2018-08-07 | データ・セグメンテーション装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018148249A JP7113474B2 (ja) | 2018-08-07 | 2018-08-07 | データ・セグメンテーション装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020024277A true JP2020024277A (ja) | 2020-02-13 |
JP7113474B2 JP7113474B2 (ja) | 2022-08-05 |
Family
ID=69618578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018148249A Active JP7113474B2 (ja) | 2018-08-07 | 2018-08-07 | データ・セグメンテーション装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7113474B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112699689A (zh) * | 2021-01-05 | 2021-04-23 | 虎博网络技术(上海)有限公司 | 音频切分方法、装置和电子设备 |
CN112733927A (zh) * | 2021-01-05 | 2021-04-30 | 福州数据技术研究院有限公司 | 一种基于一维卷积神经网络的风叶声音边界定位方法和存储设备 |
KR20210136791A (ko) * | 2020-05-08 | 2021-11-17 | 쿠팡 주식회사 | 경합하는 신경 캐릭터 언어 모델에 기초한 단어 분할을 위한 시스템 및 방법 |
WO2023135963A1 (ja) * | 2022-01-13 | 2023-07-20 | 株式会社Nttドコモ | 翻訳装置 |
JP7488002B2 (ja) | 2021-01-20 | 2024-05-21 | Tvs Regza株式会社 | 映像処理装置、映像処理装置の作動方法および映像処理プログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04117560A (ja) * | 1990-09-07 | 1992-04-17 | Fujitsu Ltd | 節/句境界抽出方式 |
JP2017058507A (ja) * | 2015-09-16 | 2017-03-23 | 日本電信電話株式会社 | 音声認識装置、音声認識方法、プログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100645660B1 (ko) | 2001-11-09 | 2006-11-13 | 에스케이 주식회사 | 탄화수소 유분으로부터 노말파라핀을 분리하는 공정 및분리된 유분의 활용 |
-
2018
- 2018-08-07 JP JP2018148249A patent/JP7113474B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04117560A (ja) * | 1990-09-07 | 1992-04-17 | Fujitsu Ltd | 節/句境界抽出方式 |
JP2017058507A (ja) * | 2015-09-16 | 2017-03-23 | 日本電信電話株式会社 | 音声認識装置、音声認識方法、プログラム |
Non-Patent Citations (2)
Title |
---|
CHENGLIN XU ET AL.: "A Bidirectional LSTM Approach with Word Embeddings for Sentence Boundary Detection", JOURNAL OF SIGNAL PROCESSING SYSTEMS[ONLINE], JPN6022025713, September 2017 (2017-09-01), ISSN: 0004811592 * |
帖佐克己他: "同時音声翻訳のための構文情報を用いた文分割に基づく機械翻訳", 情報処理学会研究報告, vol. Vol.2016-NL-229, No.6, JPN6022025715, December 2016 (2016-12-01), pages 1 - 4, ISSN: 0004811593 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210136791A (ko) * | 2020-05-08 | 2021-11-17 | 쿠팡 주식회사 | 경합하는 신경 캐릭터 언어 모델에 기초한 단어 분할을 위한 시스템 및 방법 |
KR102330819B1 (ko) | 2020-05-08 | 2021-12-01 | 쿠팡 주식회사 | 경합하는 신경 캐릭터 언어 모델에 기초한 단어 분할을 위한 시스템 및 방법 |
CN112699689A (zh) * | 2021-01-05 | 2021-04-23 | 虎博网络技术(上海)有限公司 | 音频切分方法、装置和电子设备 |
CN112733927A (zh) * | 2021-01-05 | 2021-04-30 | 福州数据技术研究院有限公司 | 一种基于一维卷积神经网络的风叶声音边界定位方法和存储设备 |
JP7488002B2 (ja) | 2021-01-20 | 2024-05-21 | Tvs Regza株式会社 | 映像処理装置、映像処理装置の作動方法および映像処理プログラム |
WO2023135963A1 (ja) * | 2022-01-13 | 2023-07-20 | 株式会社Nttドコモ | 翻訳装置 |
Also Published As
Publication number | Publication date |
---|---|
JP7113474B2 (ja) | 2022-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2020024277A (ja) | データ・セグメンテーション装置 | |
KR102339716B1 (ko) | 음성 인식 방법 및 그 장치 | |
US10210862B1 (en) | Lattice decoding and result confirmation using recurrent neural networks | |
JP6066354B2 (ja) | 信頼度計算の方法及び装置 | |
JP6222821B2 (ja) | 誤り修正モデル学習装置、及びプログラム | |
CN110245221B (zh) | 训练对话状态跟踪分类器的方法和计算机设备 | |
JP5598331B2 (ja) | 言語モデル作成装置 | |
JP2021515905A (ja) | 音声認識方法、並びにその装置、デバイス、記憶媒体及びプログラム | |
CN111461004B (zh) | 基于图注意力神经网络的事件检测方法、装置和电子设备 | |
KR20180005850A (ko) | 자동 통역 방법 및 장치, 및 기계 번역 방법 및 장치 | |
CN111145733B (zh) | 语音识别方法、装置、计算机设备和计算机可读存储介质 | |
JP2010537321A (ja) | 統計的分類のための最適な選択方略の方法及びシステム | |
JP2011070192A (ja) | 音声検索装置及び音声検索方法 | |
JP2008203469A (ja) | 音声認識装置及び方法 | |
EP3550454A1 (en) | Electronic device and control method | |
CN110164416B (zh) | 一种语音识别方法及其装置、设备和存储介质 | |
CN106843523B (zh) | 基于人工智能的文字输入方法和装置 | |
JP2020020872A (ja) | 識別器、学習済モデル、学習方法 | |
JP2019219827A (ja) | 言語モデル学習装置およびそのプログラム、ならびに、単語推定装置およびそのプログラム | |
JP2020042131A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP5975938B2 (ja) | 音声認識装置、音声認識方法及びプログラム | |
JP5766152B2 (ja) | 言語モデル生成装置、その方法及びプログラム | |
KR20190032868A (ko) | 음성인식 방법 및 그 장치 | |
US8140334B2 (en) | Apparatus and method for recognizing voice | |
KR20200095947A (ko) | 전자 장치 및 이의 제어 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210726 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220607 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220628 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220715 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7113474 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |