JP2012083543A - 言語モデル生成装置、その方法及びそのプログラム - Google Patents
言語モデル生成装置、その方法及びそのプログラム Download PDFInfo
- Publication number
- JP2012083543A JP2012083543A JP2010229526A JP2010229526A JP2012083543A JP 2012083543 A JP2012083543 A JP 2012083543A JP 2010229526 A JP2010229526 A JP 2010229526A JP 2010229526 A JP2010229526 A JP 2010229526A JP 2012083543 A JP2012083543 A JP 2012083543A
- Authority
- JP
- Japan
- Prior art keywords
- word
- language model
- corpus
- search
- web page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 60
- 238000004458 analytical method Methods 0.000 claims abstract description 75
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims description 69
- 230000000877 morphologic effect Effects 0.000 claims description 33
- 239000000284 extract Substances 0.000 claims description 10
- 238000007493 shaping process Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 239000002245 particle Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 241001122767 Theaceae Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 235000009120 camo Nutrition 0.000 description 1
- 244000213578 camo Species 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- RFHAOTPXVQNOHP-UHFFFAOYSA-N fluconazole Chemical compound C1=NC=NN1CC(C=1C(=CC(F)=CC=1)F)(O)CN1C=NC=N1 RFHAOTPXVQNOHP-UHFFFAOYSA-N 0.000 description 1
- OOYGSFOGFJDDHP-KMCOLRRFSA-N kanamycin A sulfate Chemical group OS(O)(=O)=O.O[C@@H]1[C@@H](O)[C@H](O)[C@@H](CN)O[C@@H]1O[C@H]1[C@H](O)[C@@H](O[C@@H]2[C@@H]([C@@H](N)[C@H](O)[C@@H](CO)O2)O)[C@H](N)C[C@@H]1N OOYGSFOGFJDDHP-KMCOLRRFSA-N 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99934—Query formulation, input preparation, or translation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】Web(world wide web)ページの集合を含むコーパス内のテキストを分析する。当該分析結果に基づいて、音声認識対象に応じて設定された文書形式に適合する少なくとも1つの単語を抽出する。抽出された少なくとも1つの単語から単語セットを生成する。生成された単語セットをインターネット上の検索エンジンへの検索クエリーとし、当該検索エンジンに検索処理を行わせ、検索結果のリンク先のWebページを取得する。
取得されたWebページから、音声認識のための言語モデルを作成する。
【選択図】図1
Description
図1は、本発明の第1の実施形態に係る言語モデル作成システムの構成の一例を示すブロック図である。
本発明の第2の実施形態に係る言語モデル作成システムの構成は、図1に示す第1の実施形態と同様であるので、その説明を省略する。
Web(world wide web)ページの集合を含むコーパス内のテキストを分析するコーパス分析手段と、
前記コーパス分析手段による分析結果に基づいて、音声認識対象に応じて設定された文書形式に適合する少なくとも1つの単語を抽出する抽出手段と、
前記抽出手段が抽出した前記少なくとも1つの単語から単語セットを生成する単語セット生成手段と、
前記単語セット生成手段によって生成された単語セットをインターネット上の検索エンジンへの検索クエリーとし、当該検索エンジンに検索処理を行わせ、検索結果のリンク先のWebページを取得するWebページ取得手段と、
前記Webページ取得手段が取得したWebページから、音声認識のための言語モデルを作成する言語モデル作成手段と、
を備えることを特徴とする言語モデル生成装置。
前記文書形式を定義する文字列を設定する設定手段を更に備え、
前記抽出手段は、前記分析結果から得られる各単語を前記文字列と比較し、前記文字列と一致する場合に、当該単語を抽出することを特徴とする付記1に記載の言語モデル生成装置。
前記文字列は、当該文字列の表記と読みの情報を含み、
前記コーパス分析手段は、前記コーパス内のテキストの形態素解析を行い、前記テキスト内の単語ごとに表記、及び読み情報を検出し、
前記抽出手段は、前記テキスト内の単語ごとに表記と読みとを、前記文字列の表記と読みと比較し、前記文字列の表記と読みと適合する単語を抽出することを特徴とする付記2に記載の言語モデル生成装置。
前記コーパス分析手段は、前記コーパス内のテキストの形態素解析を行い、前記テキスト内の単語ごとに表記、読み、及び品詞の情報を検出し、
前記抽出手段は、前記文字列と一致しない単語の品詞が名詞であるか否かを判定し、当該単語の品詞が名詞でない場合に、当該単語を抽出対象から排除することを特徴とする付記3に記載の言語モデル生成装置。
前記抽出手段は、前記文字列と一致しない単語の品詞が名詞である場合に、当該単語が平仮名以外を含むか否かを判定し、平仮名以外の文字を含む場合は、当該単語を抽出することを特徴とする付記4に記載の言語モデル生成装置。
前記単語セット生成手段は、前記抽出手段が抽出した各単語について、前記コーパスとの類似を表す単語情報量を算出し、単語情報量の値が所定値以上である単語から、前記単語セットを生成することを特徴とする付記1乃至5のいずれか1に記載の言語モデル生成装置。
前記単語セット生成手段は、前記単語抽出手段が抽出した単語から所定数の単語を含む単語セットを所定数生成することを特徴とする付記1乃至6のいずれか1に記載の言語モデル生成装置。
前記単語セット生成手段は、前記抽出手段が抽出した各単語について、前記コーパスとの類似を表す単語情報量を算出し、単語情報量の値が所定値以上である単語からランダムに前記所定数の単語を含む単語セットを前記所定数生成することを特徴とする付記1乃至7のいずれか1に記載の言語モデル生成装置。
Web(world wide web)ページの集合を含むコーパス内のテキストを分析するステップと、
前記分析結果に基づいて、音声認識対象に応じて設定された文書形式に適合する少なくとも1つの単語を抽出するステップと、
前記抽出された前記少なくとも1つの単語から単語セットを生成するステップと、
前記生成された単語セットをインターネット上の検索エンジンへの検索クエリーとし、当該検索エンジンに検索処理を行わせ、検索結果のリンク先のWebページを取得するステップと、
前記取得されたWebページから、音声認識のための言語モデルを作成するステップと、
を有することを特徴とする言語モデル生成方法。
前記文書形式を定義する文字列を設定するステップを更に備え、
前記少なくとも1つの単語の抽出においては、前記分析結果から得られる各単語を前記文字列と比較し、前記文字列と一致する場合に、当該単語を抽出することを特徴とする付記9に記載の言語モデル生成方法。
前記文字列は、当該文字列の表記と読みの情報を含み、
前記コーパス内のテキストの分析においては、前記コーパス内のテキストの形態素解析が行われ、前記テキスト内の単語ごとに表記、及び読み情報が検出され、
前記少なくとも1つの単語の抽出においては、前記テキスト内の単語ごとに表記と読みとが、前記文字列の表記と読みと比較され、前記文字列の表記と読みと適合する単語が抽出されることを特徴とする付記10に記載の言語モデル生成方法。
前記コーパス内のテキストの分析においては、前記コーパス内のテキストの形態素解析が行われ、前記テキスト内の単語ごとに表記、読み、及び品詞の情報が検出され、
前記少なくとも1つの単語の抽出においては、前記文字列と一致しない単語の品詞が名詞であるか否かを判定し、当該単語の品詞が名詞でない場合に、当該単語が抽出対象から排除されることを特徴とする付記11に記載の言語モデル生成方法。
前記少なくとも1つの単語の抽出においては、前記文字列と一致しない単語の品詞が名詞である場合に、当該単語が平仮名以外を含むか否かを判定し、平仮名以外の文字を含む場に、当該単語が抽出されることを特徴とする付記12に記載の言語モデル生成方法。
前記単語セットの生成においては、前記抽出された各単語について、前記コーパスとの類似を表す単語情報量を算出し、単語情報量の値が所定値以上である単語から、前記単語セットが生成されることを特徴とする付記9乃至13のいずれか1に記載の言語モデル生成方法。
前記単語セットの生成においては、前記抽出された単語から所定数の単語を含む単語セットが所定数生成されることを特徴とする付記9乃至14のいずれかに記載の言語モデル生成方法。
前記単語セットの生成においては、前記抽出された各単語について、前記コーパスとの類似を表す単語情報量を算出し、単語情報量の値が所定値以上である単語からランダムに前記所定数の単語を含む単語セットが前記所定数生成されることを特徴とする付記9乃至15のいずれか1に記載の言語モデル生成方法。
言語モデル作成装置のコンピュータにおいて用いられる言語モデル作成プログラムであって、当該コンピュータに、
Web(world wide web)ページの集合を含むコーパス内のテキストを分析する手順と、
前記分析結果に基づいて、音声認識対象に応じて設定された文書形式に適合する少なくとも1つの単語を抽出する手順と、
前記抽出された前記少なくとも1つの単語から単語セットを生成する手順と、
前記生成された単語セットをインターネット上の検索エンジンへの検索クエリーとし、当該検索エンジンに検索処理を行わせ、検索結果のリンク先のWebページを取得する手順と、
前記取得されたWebページから、音声認識のための言語モデルを作成する手順と、
を行わせることを特徴とする言語モデル生成プログラム。
前記コンピュータに前記文書形式を定義する文字列を設定する手順を更に行わせ、
前記少なくとも1つの単語を抽出する手順では、前記分析結果から得られる各単語を前記文字列と比較し、前記文字列と一致する場合に、当該単語が抽出されることを特徴とする付記17に記載の言語モデル生成プログラム。
前記文字列は、当該文字列の表記と読みの情報を含み、
前記コーパス内のテキストを分析する手順では、前記コーパス内のテキストの形態素解析が行われ、前記テキスト内の単語ごとに表記、及び読み情報が検出され、
前記少なくとも1つの単語を抽出する手順では、前記テキスト内の単語ごとに表記と読みとが、前記文字列の表記と読みと比較され、前記文字列の表記と読みと適合する単語が抽出されることを特徴とする付記18に記載の言語モデル生成プログラム。
前記コーパス内のテキストを分析する手順では、前記コーパス内のテキストの形態素解析が行われ、前記テキスト内の単語ごとに表記、読み、及び品詞の情報が検出され、
前記少なくとも1つの単語を抽出する手順では、前記文字列と一致しない単語の品詞が名詞であるか否かを判定し、当該単語の品詞が名詞でない場合に、当該単語が抽出対象から排除されることを特徴とする付記19に記載の言語モデル生成プログラム。
前記少なくとも1つの単語を抽出する手順では、前記文字列と一致しない単語の品詞が名詞である場合に、当該単語が平仮名以外を含むか否かを判定し、平仮名以外の文字を含む場合は、当該単語が抽出されることを特徴とする付記20に記載の言語モデル生成プログラム。
前記単語セットを生成する手順では、前記抽出された各単語について、前記コーパスとの類似を表す単語情報量を算出し、単語情報量の値が所定値以上である単語から、前記単語セットが生成されることを特徴とする付記17乃至21のいずれか1に記載の言語モデル生成プログラム。
前記単語セットを生成する手順では、前記抽出された単語から所定数の単語を含む単語セットが所定数生成されることを特徴とする記17乃至22のいずれか1に記載の言語モデル生成プログラム。
前記単語セットを生成する手順では、前記抽出された各単語について、前記コーパスとの類似を表す単語情報量を算出し、単語情報量の値が所定値以上である単語からランダムに前記所定数の単語を含む単語セットが前記所定数生成されることを特徴とする付記17乃至23のいずれか1に記載の言語モデル生成プログラム。
101 コーパス分析部
102 文書形式選択部
103 単語抽出部
104 単語セット生成部
105 Webページ取得部
106 Webページ整形部
107 言語モデル作成部
200 単語抽出装置
300 言語モデル作成装置
Claims (10)
- Web(world wide web)ページの集合を含むコーパス内のテキストを分析するコーパス分析手段と、
前記コーパス分析手段による分析結果に基づいて、音声認識対象に応じて設定された文書形式に適合する少なくとも1つの単語を抽出する抽出手段と、
前記抽出手段が抽出した前記少なくとも1つの単語から単語セットを生成する単語セット生成手段と、
前記単語セット生成手段によって生成された単語セットをインターネット上の検索エンジンへの検索クエリーとし、当該検索エンジンに検索処理を行わせ、検索結果のリンク先のWebページを取得するWebページ取得手段と、
前記Webページ取得手段が取得したWebページから、音声認識のための言語モデルを作成する言語モデル作成手段と、
を備えることを特徴とする言語モデル生成装置。 - 前記文書形式を定義する文字列を設定する設定手段を更に備え、
前記抽出手段は、前記分析結果から得られる各単語を前記文字列と比較し、前記文字列と一致する場合に、当該単語を抽出することを特徴とする請求項1に記載の言語モデル生成装置。 - 前記文字列は、当該文字列の表記と読みの情報を含み、
前記コーパス分析手段は、前記コーパス内のテキストの形態素解析を行い、前記テキスト内の単語ごとに表記、及び読み情報を検出し、
前記抽出手段は、前記テキスト内の単語ごとに表記と読みとを、前記文字列の表記と読みと比較し、前記文字列の表記と読みと適合する単語を抽出することを特徴とする請求項2に記載の言語モデル生成装置。 - 前記コーパス分析手段は、前記コーパス内のテキストの形態素解析を行い、前記テキスト内の単語ごとに表記、読み、及び品詞の情報を検出し、
前記抽出手段は、前記文字列と一致しない単語の品詞が名詞であるか否かを判定し、当該単語の品詞が名詞でない場合に、当該単語を抽出対象から排除することを特徴とする請求項3に記載の言語モデル生成装置。 - 前記抽出手段は、前記文字列と一致しない単語の品詞が名詞である場合に、当該単語が平仮名以外を含むか否かを判定し、平仮名以外の文字を含む場合は、当該単語を抽出することを特徴とする請求項4に記載の言語モデル生成装置。
- 前記単語セット生成手段は、前記抽出手段が抽出した各単語について、前記コーパスとの類似を表す単語情報量を算出し、単語情報量の値が所定値以上である単語から、前記単語セットを生成することを特徴とする請求項1乃至5のいずれか1項に記載の言語モデル生成装置。
- 前記単語セット生成手段は、前記単語抽出手段が抽出した単語から所定数の単語を含む単語セットを所定数生成することを特徴とする請求項1乃至6のいずれか1項に記載の言語モデル生成装置。
- 前記単語セット生成手段は、前記抽出手段が抽出した各単語について、前記コーパスとの類似を表す単語情報量を算出し、単語情報量の値が所定値以上である単語からランダムに前記所定数の単語を含む単語セットを前記所定数生成することを特徴とする請求項1乃至7のいずれか1項に記載の言語モデル生成装置。
- Web(world wide web)ページの集合を含むコーパス内のテキストを分析するステップと、
前記分析結果に基づいて、音声認識対象に応じて設定された文書形式に適合する少なくとも1つの単語を抽出するステップと、
前記抽出された前記少なくとも1つの単語から単語セットを生成するステップと、
前記生成された単語セットをインターネット上の検索エンジンへの検索クエリーとし、当該検索エンジンに検索処理を行わせ、検索結果のリンク先のWebページを取得するステップと、
前記取得されたWebページから、音声認識のための言語モデルを作成するステップと、
を有することを特徴とする言語モデル生成方法。 - 言語モデル作成装置のコンピュータにおいて用いられる言語モデル作成プログラムであって、当該コンピュータに、
Web(world wide web)ページの集合を含むコーパス内のテキストを分析する手順と、
前記分析結果に基づいて、音声認識対象に応じて設定された文書形式に適合する少なくとも1つの単語を抽出する手順と、
前記抽出された少なくとも1つの単語から単語セットを生成する手順と、
前記生成された単語セットをインターネット上の検索エンジンへの検索クエリーとし、当該検索エンジンに検索処理を行わせ、検索結果のリンク先のWebページを取得する手順と、
前記取得されたWebページから、音声認識のための言語モデルを作成する手順と、
を行わせることを特徴とする言語モデル生成プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010229526A JP5403696B2 (ja) | 2010-10-12 | 2010-10-12 | 言語モデル生成装置、その方法及びそのプログラム |
US13/271,424 US8831945B2 (en) | 2010-10-12 | 2011-10-12 | Language model generating device, method thereof, and recording medium storing program thereof |
US14/446,540 US9128907B2 (en) | 2010-10-12 | 2014-07-30 | Language model generating device, method thereof, and recording medium storing program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010229526A JP5403696B2 (ja) | 2010-10-12 | 2010-10-12 | 言語モデル生成装置、その方法及びそのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012083543A true JP2012083543A (ja) | 2012-04-26 |
JP5403696B2 JP5403696B2 (ja) | 2014-01-29 |
Family
ID=45925827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010229526A Active JP5403696B2 (ja) | 2010-10-12 | 2010-10-12 | 言語モデル生成装置、その方法及びそのプログラム |
Country Status (2)
Country | Link |
---|---|
US (2) | US8831945B2 (ja) |
JP (1) | JP5403696B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9892727B2 (en) | 2014-07-24 | 2018-02-13 | International Business Machines Corporation | Method of selecting training text for language model, and method of training language model using the training text, and computer and computer program for executing the methods |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5653392B2 (ja) * | 2012-06-29 | 2015-01-14 | 株式会社東芝 | 音声翻訳装置、方法およびプログラム |
US10108590B2 (en) * | 2013-05-03 | 2018-10-23 | International Business Machines Corporation | Comparing markup language files |
US9747900B2 (en) | 2013-05-24 | 2017-08-29 | Google Technology Holdings LLC | Method and apparatus for using image data to aid voice recognition |
JP6165657B2 (ja) * | 2014-03-20 | 2017-07-19 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
JP6847812B2 (ja) * | 2017-10-25 | 2021-03-24 | 株式会社東芝 | 文書理解支援装置、文書理解支援方法、およびプログラム |
CN109325230B (zh) * | 2018-09-21 | 2021-06-15 | 广西师范大学 | 一种基于维基百科双向链接的词语语义相关度判断方法 |
CN109284364B (zh) * | 2018-09-30 | 2021-07-23 | 武汉斗鱼网络科技有限公司 | 一种用于语音连麦互动的互动词汇更新方法及装置 |
KR20190080833A (ko) * | 2019-06-18 | 2019-07-08 | 엘지전자 주식회사 | 음성 정보 기반 언어 모델링 시스템 및 방법 |
KR20190080834A (ko) * | 2019-06-18 | 2019-07-08 | 엘지전자 주식회사 | 사투리 음소 적응 학습 시스템 및 방법 |
CN110516255A (zh) * | 2019-08-30 | 2019-11-29 | 广州华多网络科技有限公司 | 一种角色姓名提取方法及系统 |
CN113010670B (zh) * | 2021-02-22 | 2023-09-19 | 腾讯科技(深圳)有限公司 | 账号信息聚类方法、检测方法、装置及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10334101A (ja) * | 1997-06-05 | 1998-12-18 | Omron Corp | 検索論理式生成装置、検索システムおよび記録媒体 |
JP2002140357A (ja) * | 2000-11-06 | 2002-05-17 | Ricoh Co Ltd | 文書検索装置及び文書検索方法 |
JP2002189734A (ja) * | 2000-12-21 | 2002-07-05 | Ricoh Co Ltd | 検索語抽出装置および検索語抽出方法 |
JP2005234688A (ja) * | 2004-02-17 | 2005-09-02 | Ricoh Co Ltd | 重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5659766A (en) * | 1994-09-16 | 1997-08-19 | Xerox Corporation | Method and apparatus for inferring the topical content of a document based upon its lexical content without supervision |
EP0856175A4 (en) * | 1995-08-16 | 2000-05-24 | Univ Syracuse | SYSTEM AND METHOD FOR RETURNING MULTI-LANGUAGE DOCUMENTS USING A SEMANTIC VECTOR COMPARISON |
JPH09114623A (ja) | 1995-10-13 | 1997-05-02 | Toshiba Corp | ユーザインタフェース設計ツール |
US6137911A (en) * | 1997-06-16 | 2000-10-24 | The Dialog Corporation Plc | Test classification system and method |
US6070134A (en) * | 1997-07-31 | 2000-05-30 | Microsoft Corporation | Identifying salient semantic relation paths between two words |
US6134532A (en) * | 1997-11-14 | 2000-10-17 | Aptex Software, Inc. | System and method for optimal adaptive matching of users to most relevant entity and information in real-time |
US6256629B1 (en) * | 1998-11-25 | 2001-07-03 | Lucent Technologies Inc. | Method and apparatus for measuring the degree of polysemy in polysemous words |
US6810376B1 (en) * | 2000-07-11 | 2004-10-26 | Nusuara Technologies Sdn Bhd | System and methods for determining semantic similarity of sentences |
JP2002229588A (ja) | 2001-01-29 | 2002-08-16 | Mitsubishi Electric Corp | 統計的言語モデル生成装置、音声認識装置、及び統計的言語モデル生成方法並びに記録媒体 |
JP2002259428A (ja) | 2001-03-02 | 2002-09-13 | Aisin Aw Co Ltd | ナビゲーション装置、地点検索方法及びそのプログラム |
US7158961B1 (en) * | 2001-12-31 | 2007-01-02 | Google, Inc. | Methods and apparatus for estimating similarity |
US7383258B2 (en) * | 2002-10-03 | 2008-06-03 | Google, Inc. | Method and apparatus for characterizing documents based on clusters of related words |
US8135575B1 (en) * | 2003-08-21 | 2012-03-13 | Google Inc. | Cross-lingual indexing and information retrieval |
JP2005266980A (ja) | 2004-03-16 | 2005-09-29 | Fuji Xerox Co Ltd | 情報処理装置及び情報処理方法、並びにコンピュータ・プログラム |
JP2006004283A (ja) | 2004-06-18 | 2006-01-05 | Nippon Telegr & Teleph Corp <Ntt> | テキスト情報源からのキーワード抽出・絞り込み方法およびシステム |
US8019699B2 (en) * | 2004-09-29 | 2011-09-13 | Panscient, Inc. | Machine learning system |
JP4997743B2 (ja) | 2005-11-10 | 2012-08-08 | 日本電気株式会社 | 文書検索装置、文書検索プログラムおよび文書検索方法 |
US7657506B2 (en) * | 2006-01-03 | 2010-02-02 | Microsoft International Holdings B.V. | Methods and apparatus for automated matching and classification of data |
US7877343B2 (en) * | 2007-04-02 | 2011-01-25 | University Of Washington Through Its Center For Commercialization | Open information extraction from the Web |
JP2010039647A (ja) | 2008-08-01 | 2010-02-18 | Sony Corp | 情報処理装置、情報処理方法及び情報処理プログラム |
US9892730B2 (en) * | 2009-07-01 | 2018-02-13 | Comcast Interactive Media, Llc | Generating topic-specific language models |
US8244767B2 (en) * | 2009-10-09 | 2012-08-14 | Stratify, Inc. | Composite locality sensitive hash based processing of documents |
-
2010
- 2010-10-12 JP JP2010229526A patent/JP5403696B2/ja active Active
-
2011
- 2011-10-12 US US13/271,424 patent/US8831945B2/en active Active
-
2014
- 2014-07-30 US US14/446,540 patent/US9128907B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10334101A (ja) * | 1997-06-05 | 1998-12-18 | Omron Corp | 検索論理式生成装置、検索システムおよび記録媒体 |
JP2002140357A (ja) * | 2000-11-06 | 2002-05-17 | Ricoh Co Ltd | 文書検索装置及び文書検索方法 |
JP2002189734A (ja) * | 2000-12-21 | 2002-07-05 | Ricoh Co Ltd | 検索語抽出装置および検索語抽出方法 |
JP2005234688A (ja) * | 2004-02-17 | 2005-09-02 | Ricoh Co Ltd | 重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置 |
Non-Patent Citations (10)
Title |
---|
CSNG200201285007; 西村竜一 長友健太郎 小松久美子 黒田由香 李晃伸 猿渡洋 鹿野清宏: 'Webからの音声認識用言語モデル自動生成ツールの開発' 情報処理学会研究報告 2001-SLP-35 Vol.2001 No.11, 20010203, pp.43-48 * |
CSNG200700334008; 伊藤友裕 西崎博光 関口芳廣: 'Web上の類似記事を利用した音声文書の認識性能の改善' 電子情報通信学会技術研究報告 SP2005-98 Vol.105 No.495, 20051214, pp.49-54 * |
CSNG200900465010; 増村亮 伊藤仁 伊藤彰則 牧野正三: 'WWWを利用した言語モデル適応のための検索クエリ構成の検討' 情報処理学会研究報告 音声言語情報処理(SLP) Vol.2009-SLP-76, 20090615, pp.1-8 * |
CSNJ201010092189; 増村亮 伊藤仁 伊藤彰則 牧野正三: 'WWWを利用した有効な検索クエリ構成による言語モデル教師なし適応効果' 日本音響学会 2009年 秋季研究発表会講演論文集CD-ROM , 20090915, pp.51-54 * |
CSNJ201110010325; 増村亮,伊藤仁,伊藤彰則,牧野正三: 'Web検索結果を利用したトピック関連語推定に基づく言語モデルの教師なし適応' 日本音響学会 2010年 春季研究発表会講演論文集CD-ROM , 20100308, pp.57-58 * |
JPN6012045627; 増村亮 伊藤仁 伊藤彰則 牧野正三: 'WWWを利用した言語モデル適応のための検索クエリ構成の検討' 情報処理学会研究報告 音声言語情報処理(SLP) Vol.2009-SLP-76, 20090615, pp.1-8 * |
JPN6012045629; 増村亮 伊藤仁 伊藤彰則 牧野正三: 'WWWを利用した有効な検索クエリ構成による言語モデル教師なし適応効果' 日本音響学会 2009年 秋季研究発表会講演論文集CD-ROM , 20090915, pp.51-54 * |
JPN6012045632; 伊藤友裕 西崎博光 関口芳廣: 'Web上の類似記事を利用した音声文書の認識性能の改善' 電子情報通信学会技術研究報告 SP2005-98 Vol.105 No.495, 20051214, pp.49-54 * |
JPN6012045634; 西村竜一 長友健太郎 小松久美子 黒田由香 李晃伸 猿渡洋 鹿野清宏: 'Webからの音声認識用言語モデル自動生成ツールの開発' 情報処理学会研究報告 2001-SLP-35 Vol.2001 No.11, 20010203, pp.43-48 * |
JPN6012045636; 増村亮,伊藤仁,伊藤彰則,牧野正三: 'Web検索結果を利用したトピック関連語推定に基づく言語モデルの教師なし適応' 日本音響学会 2010年 春季研究発表会講演論文集CD-ROM , 20100308, pp.57-58 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9892727B2 (en) | 2014-07-24 | 2018-02-13 | International Business Machines Corporation | Method of selecting training text for language model, and method of training language model using the training text, and computer and computer program for executing the methods |
US9934776B2 (en) | 2014-07-24 | 2018-04-03 | International Business Machines Corporation | Method of selecting training text for language model, and method of training language model using the training text, and computer and computer program for executing the methods |
Also Published As
Publication number | Publication date |
---|---|
US20120089397A1 (en) | 2012-04-12 |
US8831945B2 (en) | 2014-09-09 |
JP5403696B2 (ja) | 2014-01-29 |
US9128907B2 (en) | 2015-09-08 |
US20140343926A1 (en) | 2014-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5403696B2 (ja) | 言語モデル生成装置、その方法及びそのプログラム | |
JP2015094848A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
JP4534666B2 (ja) | テキスト文検索装置及びテキスト文検索プログラム | |
KR101695014B1 (ko) | 감성 어휘 정보 구축 방법 및 장치 | |
KR101023209B1 (ko) | 문서 번역 장치 및 그 방법 | |
JP5231484B2 (ja) | 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置 | |
JP2007156545A (ja) | 記号列変換方法、単語翻訳方法、その装置およびそのプログラム並びに記録媒体 | |
JP2008176489A (ja) | テキスト判別装置およびテキスト判別方法 | |
KR20170008357A (ko) | 크라우드 소싱을 이용한 웹툰 언어 자동 번역 방법 | |
JP2012118883A (ja) | 翻訳装置、翻訳システム、翻訳方法および翻訳プログラム | |
JP5243325B2 (ja) | 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム | |
JP6126965B2 (ja) | 発話生成装置、方法、及びプログラム | |
JP5722375B2 (ja) | 文末表現変換装置、方法、及びプログラム | |
JP5523929B2 (ja) | テキスト要約装置、テキスト要約方法及びテキスト要約プログラム | |
JP4478042B2 (ja) | 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置 | |
JP5718406B2 (ja) | 発話文生成装置、対話装置、発話文生成方法、対話方法、発話文生成プログラム、及び対話プログラム | |
JP5506482B2 (ja) | 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム | |
JP5320326B2 (ja) | 記号変換装置、記号変換方法、記号変換プログラム | |
JP2007148630A (ja) | 特許分析装置、特許分析システム、特許分析方法およびプログラム | |
JP5744150B2 (ja) | 発話生成装置、方法、及びプログラム | |
CN111259159A (zh) | 数据挖掘方法、装置和计算机可读存储介质 | |
JP3939264B2 (ja) | 形態素解析装置 | |
JP2009129405A (ja) | 感情推定装置、事例感情情報生成装置、及び感情推定プログラム | |
Balan | Introduction to Natural Language Processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120824 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120830 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121026 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130507 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131024 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5403696 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |