JP2007241902A - テキストデータの分割システム及びテキストデータの分割及び階層化方法 - Google Patents
テキストデータの分割システム及びテキストデータの分割及び階層化方法 Download PDFInfo
- Publication number
- JP2007241902A JP2007241902A JP2006066716A JP2006066716A JP2007241902A JP 2007241902 A JP2007241902 A JP 2007241902A JP 2006066716 A JP2006066716 A JP 2006066716A JP 2006066716 A JP2006066716 A JP 2006066716A JP 2007241902 A JP2007241902 A JP 2007241902A
- Authority
- JP
- Japan
- Prior art keywords
- analysis section
- text data
- analysis
- topic
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
【解決手段】 分割対象のテキストデータを構成する夫々の文を最小単位とする分析区間を作成する分析区間作成手段と、前記分析区間に含まれる複数の内容語に基づいて当該分析区間の特徴を表している語を抽出し、当該分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成するトピックベクトル作成手段と、隣接する2つの前記分析区間について前記トピックベクトルの類似度を計算する類似度計算手段と、前記分析区間のトピックベクトルの類似度の変化に基づいて、前記複数のトピックの境界位置を検出する境界位置検出手段と、を備える。
【選択図】図1
Description
前記分析区間のトピックベクトルの類似度の変化に基づいて、前記複数のトピックの境界位置を検出する境界位置検出手段と、を備え、前記分析区間作成手段は、前記テキストデータを構成する文を1文ずつ移動した分析区間を作成し、前記トピックベクトル作成手段は、当該移動した分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成し、前記境界位置検出手段が、当該移動した分析区間のトピックベクトルの類似度の変化に基づいて前記複数のトピックの境界位置を検出する、ことを特徴とするテキストデータ分割システムを提供するものである。
(a)図2に示すように各境界候補(aからd)から前後N文までを分析区間とする。図2においてAからEは、文である。図2は、分析区間長をN=1、2とした時に境界候補点をずらしながら分析区間を作成する様子を表している。
(b)分析区間に含まれる単語の重要度を計算し、分析区間のベクトル(トピックベクトル)を作成する。
(c)2つの分析区間についてトピックベクトルの類似度を計算する。
(d)境界候補を1文ずつズラしながら、全ての境界候補について上記手順(a)乃至(c)の処理を繰り返す。
(e)手順(c)で計算した類似度の変化に基づいて話題の境界位置を検出する。
(f)分析区間の長さNを1から1つずつ増やしながら、手順(a)乃至(e)を繰り返す。
(g)図3のように、各境界候補について、上記(f)までで得られた各分析区間長の分割パターンを用いて投票を行う。
以下、分析区間の作成について述べる。分析区間は、文と文の間から前後N文を含むように構成する。基準となる文と文の間が境界候補である。基準点をずらしながら全ての境界候補について前後にN文の長さの分析区間を作成する。Nの値は1から始まり、事前に設定した上限まで1ずつ増やす。
トピックベクトルは、作成された分析区間に含まれる内容語から、分析区間の特徴を現している語を抽出して作成する。以下、トピックベクトルの作成手順を示す。
(a)作成した分析区間に対して形態素解析を行い、内容語(名詞、動詞)を抽出する。
(b)分析区間ごとに内容語の重要度を求める。
(c)各分析区間を表すベクトルにおいて、テキストの異なり語数を次元とし、分析区間に含まれる内容語の単語重要度を要素にする。
それぞれの分析区間は、重要度計算によって抽出された単語を成分とするトピックベクトルで表されている。従って、このトピックベクトル同士の内積は、分析区間同士の単語のオーバーラップ率を表し、隣接する2つの分析区間の類似度を表す。よって、トピックベクトル間の類似度は数2で表される。
図8のような類似度グラフから境界を検出する方法として2つの手法が取られている。その第1の手法は、類似度が閾値以下となる点を境界として検出する方法であり、その第2の手法は、類似度が極小となる点を境界とする方法である。本発明では、各分析区間長での境界検出に、この2つの手法のどちらか、又は2つの組み合わせを用いるか決めるために、それぞれの方法による境界検出性能を比較する。
投票は、複数の分析区間長の結果を統合し、検出された境界の確かさを計算する作業である。表1に投票の例を示す。
トピックには、章、節、項というように階層が存在する。この階層は、大きなトピックの中に、さらに複数のサブトピックが含まれていることを意味する。
(a)投票の閾値を複数段階用意する。
(b)投票の閾値の高い値から低い値へ変化させながら境界検出を行う。
(c)閾値の高い時に検出された境界を上位の階層の境界とする。
(d)閾値を低くした時に検出された境界を 上位の階層に含まれる下位の階層の境界とする。
階層構築の手順は以下の通りである。
(a)テキスト分割結果から トピックの境界位置を読み込む。
(b)読み込んだトピックの境界位置から トピックごとで分析区間を設ける。
(c)分析区間ごとにTFIDFで単語重要度の計算を行い、分析区間を表すトピックベクトルを作成する。
(d)隣接するトピックベクトル間で類似度を計算する。
(e)類似度が閾値以上である場合には分析区間を結合し、新たにトピックベクトルを作成する。
(f)結合した分析区間とその隣の分析区間でトピックベクトル間の類似度を計算する。
(g)それ以上結合が行われないか、分析区間の数が2つ以下になるまで上記手順(e)及び(f)を繰り返す。
(1)実験条件
ここでは、実験結果から最良な境界検出手法を求め、各分析区間長の境界検出性能と、投票方式の境界検出性能の比較には、実験で求めた境界検出手法を用いる。また、投票に用いる重みとしては、どのようなパラメータが良いか評価実験を行う。このほか、作成したテキスト分割システムで、自動音声認識による転記と人手による転記のテキスト分割を行い、2つの比較を行う。テキスト分割の評価には、再現率、精度、F値を用いる。
「実験データ」
実験には、放送大学の講義音声を人手で転記した18件と音声認識で自動的に転記した5件を使用した。また、放送大学の教科書23件を使用した。尚、1件とは、1回分(約45分)の放送に対応する。
分析区間どうしの類似度グラフから、境界位置を検出する方法として、以下の3つについて実験を行い比較する。
a)類似度を閾値処理して検出する。
b)極小点で検出する。
c)上記2つを組み合わせて使用する。
分析区間の長さが変化すると類似度も変わる。そのため、本発明では、複数の長さの分析区間を用意するために、閾値を一定の値に固定すると言うことは出来ない。そこで、各分析区間ごとの平均類似度に全分析区間長共通の係数をかけたものを閾値とした。係数の値を01〜10まで変化させて、各分析区間長の精度(Precision:以下P)、再現率(Recall:以下R)、F−measure(以下F)の値の変化を調べる。結果を表3から表11に示す。
トピックが変化する場所では、分析区間どうしの類似度は小さくなり、トピックが変化した後では、徐々に類似度が高くなる。最終的に類似度グラフは、1つのトピックで1つの山を描く。
次に、上記2つを組み合わせて境界の検出を行う。組み合わせた条件は、次の通りである。
表2から表2の結果を見ると、全ての分析区間長で、極小点のみで境界を検出した場合が最も良いテキスト分割性能となることが分かった。
各分析区間の境界検出の結果から 投票によってさらに境界を絞り込む。本発明の投票では、各分析区間長ごとで票に重みをつける。この重みは各分析区間長で検出された境界の確かさを表すように設定する。すなわち境界検出性能の高い分析区間長で検出された境界位置はより多くの票として逆に境界検出性能の低い分析区間長で検出された境界位置は少ない票として計算される。
その第1は、各分析区間長のF−measureであり、その第2は、各分析区間長の精度である。
投票に用いる重みに各分析区間長のF値を用いて実験を行う。評価方法にはテストデータに偏りがあった場合に起こる結果の誤りを防止するために交差検定を用いる。
次に投票に用いる重みを各分析区間長の精度に変更して(1)と同様の交差検定を行う。教科書データでの実験結果を表25に転記データでの実験結果を表26に示す。
表23、25を基に 教科書のデータに対して重み付けをF値とした場合と精度とした場合のそれぞれで
閾値を変化させながら境界検出を行った時の再現率と精度の変化を図4に示す
表24、表26を基に転記のデータに対して重み付けをF値とした場合と精度とした場合のそれぞれで、閾値を変化させながら境界検出を行った時の再現率と精度の変化を図5に示す。
分析区間長が1から10まで変化してもF値の変化は精度と比べ小さい。そのためF値を重みに用いた場合、各分析区間長ごとで票に差が生まれなくなる可能性がある。
投票に用いる閾値の設定によって分割すべき話題の詳細度に対応することが可能である。
音声認識と人手による転記に対して投票によるテキスト分割を行った場合のF値を表27に示す。実験では音声認識と転記それぞれに最適な閾値を与えた。表27では転記のF値が005〜015ほど高くなった。しかし単語誤り率とF値の変化には特に関連がなかった。
表23乃至26では、閾値を一定幅で変化させた時に表12のF値を上回る場所は転記の係数03、04の位置だけであった。これは投票の境界検出に用いる閾値を全文書共通としたことが原因で実際の閾値の最適値は文書ごとで最適な閾値が異なっていることが考えられる。そこで各文書ごとに人手で最適な投票の閾値を求め再度テキスト分割実験を行った。
分割されたテキストから分割セグメント間の類似度を基に階層構造を構築できるか実験を行った。実験のアルゴリズムは、クラスタリング手法のとおりである。階層構築の評価としてテキスト分割の性能を考慮せずに階層構築の性能を見るため正解の境界位置が与えられた場合での階層構築実験とテキスト分割処理で検出した境界位置を利用した場合の階層構築実験を行う。階層構築の評価は精度、再現率、F値で示す。
構築した階層の精度と再現率、F値を求めた。表31に教科書データを対象とした場合における階層構築実験の精度と再現率、F値を、表32に転記データを対象とした場合における階層構築実験の精度と再現率、F値を示す。表の階層は数字の小さいものほど上位の階層であり、数字の大きなものは上位の話題に含まれる下位の話題である。精度と再現率、およびF値は検出した境界位置を基に分割したセグメントに対してクラスタリング処理を行い、そこで作成されたツリー構造の各ノードと話題の階層を対応づけて各階層の話題の境界位置と正解の階層の境界位置で計算した。
テキスト分割で検出された境界位置を用いて階層構築実験を行った。表33に教科書データを対象とした場合における階層構築実験の精度と再現率、F値を表34に転記データを対象とした場合における階層構築実験の精度と再現率、F値を示す。
表28から表31を見ると、テキスト分割処理での境界検出誤りのない境界情報を用いた場合と、境界検出誤りを持つテキスト分割処理の結果を用いた場合とではF値で01から03ほどの差が見られた。
11:分析区間作成手段
12:トピックベクトル作成手段
13:類似度計算手段
14:境界位置検出手段
15:投書手段
Claims (16)
- 複数のトピックを含むテキストデータを当該複数のトピックに対応する境界毎に分割するテキストデータの分割システムであって、
前記テキストデータを構成する夫々の文を最小単位とする分析区間を作成する分析区間作成手段と、
前記分析区間に含まれる複数の内容語に基づいて当該分析区間の特徴を表している語を抽出し、当該分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成するトピックベクトル作成手段と、
隣接する2つの前記分析区間について前記トピックベクトルの類似度を計算する類似度計算手段と、
前記分析区間のトピックベクトルの類似度の変化に基づいて、前記複数のトピックの境界位置を検出する境界位置検出手段と、を備え、
前記分析区間作成手段は、前記テキストデータを構成する文を1文ずつ移動した分析区間を作成し、
前記トピックベクトル作成手段は、当該移動した分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成し、
前記境界位置検出手段が、当該移動した分析区間のトピックベクトルの類似度の変化に基づいて前記複数のトピックの境界位置を検出する、ことを特徴とするテキストデータ分割システム。 - 前記分析区間作成手段は、前記分析区間の長さを1つずつ増加させた分析区間を作成し、
前記トピックベクトル作成手段は、当該増加させた分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成し、
前記境界位置検出手段が、当該増加させた分析区間のトピックベクトルの類似度の変化に基づいて前記複数のトピックの境界位置を検出する、
ようにした分析区間長を可変としたことを特徴とする請求項1に記載のテキストデータ分割システム。 - 前記境界位置検出手段が検出した前記複数の境界位置の確かさを予め設定された閾値に基づいて計算する投票手段をさらに備え、当該投票手段によって前記テキストデータの最終的な境界位置を確定させることを特徴とする請求項1又は2に記載のテキストデータ分割システム。
- 前記投票手段は、前記閾値を複数段階設定し、前記境界位置検出手段が検出した前記複数の境界位置を、当該閾値の高い値から低い値に変化させながら確定させることにより、前記テキストデータの分析区間の階層化を行うことを特徴とする請求項1乃至3の何れかの項に記載のテキストデータ分割システム。
- 前記分析区間作成手段は、前記境界位置検出手段による前記テキストデータの分割結果に基づいて前記トピック毎に前記分析区間を設定し、
前記トピックベクトル作成手段は、当該トピック毎の分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成し、
前記境界位置検出手段は、トピック毎の分析区間のトピックベクトルの類似度を計算し、
前記トピックベクトル作成手段は、前記類似度が予め設定された閾値以上である場合には前記分析区間を結合して当該結合した分析区間のトピックベクトルを作成し、
前記境界位置検出手段は、前記結合された分析区間と当該分析区間に隣接する分析区間の前記トピックベクトルの類似度を計算する、
ことにより、前記テキストデータの分析区間の階層化を行うことを特徴とする請求項1乃至3の何れかの項に記載のテキストデータ分割システム。 - 前記トピックベクトル作成手段は、前記結合した分析区間が2つになるまで、前記類似度が予め設定された閾値以上である場合に分析区間を結合して当該結合した分析区間のトピックベクトルを作成し、
前記境界位置検出手段は、前記新たに結合された分析区間と当該分析区間に隣接する分析区間の前記トピックベクトルの類似度を計算する、
ことを特徴とする請求項5に記載のテキストデータ分割システム。 - 前記境界位置検出手段は、前記分析区間のトピックベクトルの類似度の変化における極小点を検出することにより、前記複数のトピックの境界位置を検出することを特徴とする請求項1又は8に記載のテキストデータ分割システム。
- 複数のトピックを含むテキストデータを当該複数のトピックに対応する境界毎に分割するテキストデータの分割方法であって、
(a)前記テキストデータを構成する夫々の文を最小単位とする分析区間を作成するステップと、
(b)前記分析区間に含まれる複数の内容語に基づいて当該分析区間の特徴を表している語を抽出し、当該分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成するステップと、
(c)隣接する2つの前記分析区間について前記トピックベクトルの類似度を計算するステップと、
(d)前記分析区間のトピックベクトルの類似度の変化に基づいて、前記複数のトピックの境界位置を検出するステップ、を備え、
(e)前記境界位置の確かさを計算するステップと、
(f)前記テキストデータを構成する文を1文ずつ移動した分析区間を作成するステップと、
(g)前記1文ずつ移動した分析区間内について前記ステップ(b)乃至(f)を繰り返すステップと、
の各ステップを有することを特徴とするテキストデータ分割方法。 - (h)前記ステップ(a)において区分けされた分析区間の長さを1つずつ増加させた分析区間を作成するステップと、
(i)前記ステップ(b)乃至(g)を繰り返すステップと、
の各ステップを、さらに有する分析区間長を可変としたことを特徴とする請求項10に記載のテキストデータ分割方法。 - 複数のトピックを含むテキストデータを当該複数のトピックに対応する境界毎に分割するテキストデータの分割方法であって、
(a)前記テキストデータを構成する夫々の文を最小単位とする分析区間を作成するステップと、
(b)前記分析区間に含まれる複数の内容語に基づいて当該分析区間の特徴を表している語を抽出し、当該分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成するステップと、
(c)隣接する2つの前記分析区間について前記トピックベクトルの類似度を計算するステップと、
(d)前記分析区間のトピックベクトルの類似度の変化に基づいて、前記複数のトピックの境界位置を検出するステップ、を備え、
(e)前記境界位置の確かさを計算するステップと、
(f)前記テキストデータを構成する文を1文ずつ移動した分析区間を作成するステップと、
(g)前記1文ずつ移動した分析区間内について前記ステップ(b)乃至(f)を繰り返すステップと、
(h)前記作成された分析区間に基づく前記テキストデータの分割結果に基づいて前記トピック毎に前記分析区間を設定するステップと、
(i)前記トピック毎の分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成するステップと、
(j)前記トピック毎の分析区間のトピックベクトルの類似度を計算するステップと、
(k)前記類似度が予め設定された閾値以上である場合には前記分析区間を結合して当該結合した分析区間のトピックベクトルを作成するステップと、
(l)前記結合された分析区間と当該分析区間に隣接する分析区間の前記トピックベクトルの類似度を計算するステップと、
の各ステップを有することを特徴とするテキストデータの分割及び階層化方法。 - (m)前記ステップ(k)において前記分析区間を結合した分析区間が2つになるまで、前記類似度が予め設定された閾値以上である場合に分析区間を結合して当該結合した分析区間のトピックベクトルを作成する手段と、
(n)新たに結合された分析区間と当該分析区間に隣接する分析区間の前記トピックベクトルの類似度を計算するステップと、
の各ステップをさらに有することを特徴とする請求項12に記載のテキストデータ分割及び階層化方法。 - 前記ステップ(d)における前記テキストデータにおける前記複数のトピックの境界位置を検出は、前記分析区間のトピックベクトルの類似度の変化における極小点を検出することにより行われることを特徴とする請求項9に記載のテキストデータ分割方法又は請求項12に記載のテキストデータ分割及び階層化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006066716A JP2007241902A (ja) | 2006-03-10 | 2006-03-10 | テキストデータの分割システム及びテキストデータの分割及び階層化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006066716A JP2007241902A (ja) | 2006-03-10 | 2006-03-10 | テキストデータの分割システム及びテキストデータの分割及び階層化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007241902A true JP2007241902A (ja) | 2007-09-20 |
Family
ID=38587342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006066716A Pending JP2007241902A (ja) | 2006-03-10 | 2006-03-10 | テキストデータの分割システム及びテキストデータの分割及び階層化方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007241902A (ja) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009288870A (ja) * | 2008-05-27 | 2009-12-10 | Nec Corp | 文書重要度算出システム、文書重要度算出方法およびプログラム |
WO2010041420A1 (ja) * | 2008-10-10 | 2010-04-15 | 日本電気株式会社 | 情報分析装置、情報分析方法、及びコンピュータ読み取り可能な記録媒体 |
CN101808210A (zh) * | 2009-02-18 | 2010-08-18 | 索尼公司 | 信息处理设备、信息处理方法和程序 |
JP2012059227A (ja) * | 2010-09-13 | 2012-03-22 | Ricoh Co Ltd | 文書分割装置、文書処理システム、プログラム |
JP5278425B2 (ja) * | 2008-03-14 | 2013-09-04 | 日本電気株式会社 | 映像分割装置、方法及びプログラム |
CN107229609A (zh) * | 2016-03-25 | 2017-10-03 | 佳能株式会社 | 用于分割文本的方法和设备 |
US10055097B2 (en) | 2014-03-10 | 2018-08-21 | International Business Machines Corporation | Grasping contents of electronic documents |
CN109902289A (zh) * | 2019-01-23 | 2019-06-18 | 汕头大学 | 一种面向模糊文本挖掘的新闻视频主题分割方法 |
JP2020140464A (ja) * | 2019-02-28 | 2020-09-03 | 日本電信電話株式会社 | 木構造解析装置、方法、及びプログラム |
CN114048734A (zh) * | 2021-11-11 | 2022-02-15 | 四川启睿克科技有限公司 | 一种文本主题句的提取方法 |
CN117371440A (zh) * | 2023-12-05 | 2024-01-09 | 广州阿凡提电子科技有限公司 | 基于aigc的话题文本大数据分析方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002117019A (ja) * | 2000-10-02 | 2002-04-19 | Hewlett Packard Co <Hp> | 意味的まとまりに基づいて文書を分割する装置および方法 |
-
2006
- 2006-03-10 JP JP2006066716A patent/JP2007241902A/ja active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002117019A (ja) * | 2000-10-02 | 2002-04-19 | Hewlett Packard Co <Hp> | 意味的まとまりに基づいて文書を分割する装置および方法 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5278425B2 (ja) * | 2008-03-14 | 2013-09-04 | 日本電気株式会社 | 映像分割装置、方法及びプログラム |
JP2009288870A (ja) * | 2008-05-27 | 2009-12-10 | Nec Corp | 文書重要度算出システム、文書重要度算出方法およびプログラム |
WO2010041420A1 (ja) * | 2008-10-10 | 2010-04-15 | 日本電気株式会社 | 情報分析装置、情報分析方法、及びコンピュータ読み取り可能な記録媒体 |
US8510249B2 (en) | 2008-10-10 | 2013-08-13 | Nec Corporation | Determining whether text information corresponds to target information |
CN101808210A (zh) * | 2009-02-18 | 2010-08-18 | 索尼公司 | 信息处理设备、信息处理方法和程序 |
JP2012059227A (ja) * | 2010-09-13 | 2012-03-22 | Ricoh Co Ltd | 文書分割装置、文書処理システム、プログラム |
US10055097B2 (en) | 2014-03-10 | 2018-08-21 | International Business Machines Corporation | Grasping contents of electronic documents |
CN107229609A (zh) * | 2016-03-25 | 2017-10-03 | 佳能株式会社 | 用于分割文本的方法和设备 |
CN109902289A (zh) * | 2019-01-23 | 2019-06-18 | 汕头大学 | 一种面向模糊文本挖掘的新闻视频主题分割方法 |
JP2020140464A (ja) * | 2019-02-28 | 2020-09-03 | 日本電信電話株式会社 | 木構造解析装置、方法、及びプログラム |
JP7148077B2 (ja) | 2019-02-28 | 2022-10-05 | 日本電信電話株式会社 | 木構造解析装置、方法、及びプログラム |
CN114048734A (zh) * | 2021-11-11 | 2022-02-15 | 四川启睿克科技有限公司 | 一种文本主题句的提取方法 |
CN117371440A (zh) * | 2023-12-05 | 2024-01-09 | 广州阿凡提电子科技有限公司 | 基于aigc的话题文本大数据分析方法及系统 |
CN117371440B (zh) * | 2023-12-05 | 2024-03-12 | 广州阿凡提电子科技有限公司 | 基于aigc的话题文本大数据分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2007241902A (ja) | テキストデータの分割システム及びテキストデータの分割及び階層化方法 | |
US20200082808A1 (en) | Speech recognition error correction method and apparatus | |
CN108304375B (zh) | 一种信息识别方法及其设备、存储介质、终端 | |
CN106570180B (zh) | 基于人工智能的语音搜索方法及装置 | |
US11343569B2 (en) | System and method for context aware detection of objectionable speech in video | |
US8577155B2 (en) | System and method for duplicate text recognition | |
US20090067719A1 (en) | System and method for automatic segmentation of ASR transcripts | |
CN105336322A (zh) | 多音字模型训练方法、语音合成方法及装置 | |
US20030046073A1 (en) | Word predicting method, voice recognition method, and voice recognition apparatus and program using the same methods | |
CN108021545B (zh) | 一种司法文书的案由提取方法及装置 | |
JPWO2009084554A1 (ja) | テキスト分割装置とテキスト分割方法およびプログラム | |
WO2008016102A1 (fr) | dispositif de calcul de similarité et dispositif de recherche d'informations | |
US8204738B2 (en) | Removing bias from features containing overlapping embedded grammars in a natural language understanding system | |
Kiktova-Vozarikova et al. | Feature selection for acoustic events detection | |
KR102334236B1 (ko) | 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용 | |
CN112052331A (zh) | 一种处理文本信息的方法及终端 | |
CN111767393A (zh) | 一种文本核心内容提取方法及装置 | |
Staš et al. | Classification of heterogeneous text data for robust domain-specific language modeling | |
CN117669513B (zh) | 一种基于人工智能的数据管理系统及方法 | |
El Hannani et al. | Evaluation of the effectiveness and efficiency of state-of-the-art features and models for automatic speech recognition error detection | |
KR100542757B1 (ko) | 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치 | |
CN113128224B (zh) | 一种中文纠错方法、装置、设备以及可读存储介质 | |
CN112559725A (zh) | 文本匹配方法、装置、终端和存储介质 | |
JP5849960B2 (ja) | 含意判定装置、方法、およびプログラム | |
CN115858776B (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090716 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090724 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090924 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100326 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100622 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20100823 |
|
A912 | Removal of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20101001 |