JP5642037B2 - 検索装置、検索方法およびプログラム - Google Patents
検索装置、検索方法およびプログラム Download PDFInfo
- Publication number
- JP5642037B2 JP5642037B2 JP2011208051A JP2011208051A JP5642037B2 JP 5642037 B2 JP5642037 B2 JP 5642037B2 JP 2011208051 A JP2011208051 A JP 2011208051A JP 2011208051 A JP2011208051 A JP 2011208051A JP 5642037 B2 JP5642037 B2 JP 5642037B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- words
- unknown word
- text
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 33
- PWPJGUXAGUPAHP-UHFFFAOYSA-N lufenuron Chemical compound C1=C(Cl)C(OC(F)(F)C(C(F)(F)F)F)=CC(Cl)=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F PWPJGUXAGUPAHP-UHFFFAOYSA-N 0.000 title 1
- 238000000605 extraction Methods 0.000 claims description 64
- 239000000284 extract Substances 0.000 claims description 25
- 238000012545 processing Methods 0.000 description 10
- 238000012986 modification Methods 0.000 description 9
- 230000004048 modification Effects 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 6
- 230000000877 morphologic effect Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000013518 transcription Methods 0.000 description 4
- 230000035897 transcription Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000001356 surgical procedure Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 240000000662 Anethum graveolens Species 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Description
(1)変形例1
上述の実施形態では、取得部70は、読み情報入力部60により入力された読み情報を取得しているが、これに限らず、取得部70による読み情報の取得方法は任意である。例えばテキスト入力部10により入力されるテキストに含まれる未知語情報は、読み情報を含んで構成され、取得部70は、テキスト入力部10により入力されたテキストに含まれる未知語情報から読み情報を抽出して取得することもできる。この場合、図6に示すように、読み情報入力部60は不要となる。
上述の実施形態では、第1抽出部20は、抽出した可聴語のうち、未知語情報の前後に隣接する複数(例えば2つ)の語句を関連語として抽出しているが、これに限らず、例えば第1抽出部20は、入力されたテキストに含まれる未知語情報以外の語句(可聴語)のうち、出現頻度の高い語句を関連語として抽出することもできる。例えば、出現頻度が所定の順位以上、或いは、出現頻度が所定の数値以上となる可聴語を関連語として抽出することもできる。要するに、第1抽出部20は、可聴語のうち、未知語に関連する語句を関連語として抽出するものであればよい。
上述の具体例では、選択部80は、表音文字を平仮名としてモーラ単位で算出した編集距離を発音の類似度としているが、各モーラを音素記号や単音記号に置換して各記号単位での編集距離を算出して発音の類似度を求めてもよい。さらに、表音文字(音素記号、単音記号など)の間の発音の類似度などを記述した表を参照して発音の類似度を算出することもできる。
上述の実施形態では、検索部30は、第1抽出部20で抽出された関連語をクエリとして、検索装置100の内部に設けられた不図示の文書データベースや、WWW(World Wide Web)などで公開されている文書データなどから公知の検索技術を利用して、関連文書を検索しているが、これに限らず、関連文書の検索方法は任意である。例えば検索装置100内に専用の文書ファイルを記憶した関連文書記憶部を備えた上で、第1抽出部20で抽出された関連語を含む文書(関連文書)を検索することもできる。
上述の実施形態では、第2抽出部40は、関連文書に含まれる複数の語句のうち、可聴語と一致する語句については候補語から除外しているが、これに限らず、例えば関連文書に含まれる複数の語句のうち、可聴語と一致する語句を候補語から除外せずに、関連文書に含まれる複数の語句の各々を候補語として抽出することもできる。ただし、上述の実施形態のように、関連文書に含まれる複数の語句のうち可聴語と一致する語句については候補語から除外する構成の方が、関連文書に含まれる複数の語句の各々を候補語として抽出する構成に比べて、候補語を絞り込むことができる。
上述の実施形態では、検索装置100に入力されるテキストの言語(書き起こし作業の対象となる言語)は日本語であるが、これに限らず、入力されるテキストの言語の種類は任意である。例えば入力されるテキストの言語は英語であってもよいし、中国語であってもよい。入力されるテキストの言語が英語であっても中国語であっても、検索装置は、日本語と同一の構成となる。
20 第1抽出部
30 検索部
40 第2抽出部
50 推定部
60 読み情報入力部
70 取得部
80 選択部
90 表示部
100 検索装置
Claims (10)
- ユーザーが書き起こせなかった語句である未知語であることを示す未知語情報を含むテキストを入力するテキスト入力部と、
前記テキストに含まれる前記未知語情報以外の語句のうち、前記未知語に関連する語句を示す関連語を抽出する第1抽出部と、
前記関連語を含む文書を示す関連文書を検索する検索部と、
前記関連文書に含まれる複数の語句から、前記未知語の候補を示す候補語を抽出する第2抽出部と、
前記ユーザーにより推定された、前記未知語の発音を示す読み情報を取得する取得部と、
前記候補語のうち、その発音が前記読み情報と類似する前記候補語を選択する選択部と、を備える、
検索装置。 - 前記第2抽出部は、前記関連文書に含まれる複数の語句のうち、前記テキストに含まれる前記未知語情報以外の語句と一致する語句については前記候補語から除外する、
請求項1の検索装置。 - 前記読み情報を入力する読み情報入力部をさらに備え、
前記取得部は、前記読み情報入力部で入力された前記読み情報を取得する、
請求項1の検索装置。 - 前記未知語情報は前記読み情報を含んで構成され、
前記取得部は、前記テキストに含まれる前記未知語情報から前記読み情報を抽出して取得する、
請求項1の検索装置。 - 前記第1抽出部は、前記テキストに含まれる前記未知語情報以外の語句のうち、出現頻度の高い語句を関連語として抽出する、
請求項1の検索装置。 - 前記第1抽出部は、前記テキストに含まれる前記未知語情報以外の語句のうち、前記未知語情報の前後に隣接する複数の語句を前記関連語として抽出する、
請求項1の検索装置。 - 前記選択部で選択された前記候補語を表示する表示部をさらに備える、
請求項1の検索装置。 - 前記未知語情報は記号である、
請求項1の検索装置。 - プロセッサが、ユーザーが書き起こせなかった語句である未知語であることを示す未知語情報を含むテキストを入力するテキスト入力ステップと、
プロセッサが、前記テキストに含まれる前記未知語情報以外の語句のうち、前記未知語に関連する語句を示す関連語を抽出する第1抽出ステップと、
プロセッサが、前記関連語を含む文書を示す関連文書を検索する検索ステップと、
プロセッサが、前記関連文書に含まれる複数の語句から、前記未知語の候補を示す候補語を抽出する第2抽出ステップと、
プロセッサが、前記ユーザーにより推定された、前記未知語の発音を示す読み情報を取得する取得ステップと、
プロセッサが、前記候補語のうち、その発音が前記読み情報と類似する前記候補語を選択する選択ステップと、を備える、
検索方法。 - ユーザーが書き起こせなかった語句である未知語であることを示す未知語情報を含むテキストを入力するテキスト入力ステップと、
前記テキストに含まれる前記未知語情報以外の語句のうち、前記未知語に関連する語句を示す関連語を抽出する第1抽出ステップと、
前記関連語を含む文書を示す関連文書を検索する検索ステップと、
前記関連文書に含まれる複数の語句から、前記未知語の候補を示す候補語を抽出する第2抽出ステップと、
前記ユーザーにより推定された、前記未知語の発音を示す読み情報を取得する取得ステップと、
前記候補語のうち、その発音が前記読み情報と類似する前記候補語を選択する選択ステップと、をコンピュータに実行させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011208051A JP5642037B2 (ja) | 2011-09-22 | 2011-09-22 | 検索装置、検索方法およびプログラム |
US13/527,763 US20130080174A1 (en) | 2011-09-22 | 2012-06-20 | Retrieving device, retrieving method, and computer program product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011208051A JP5642037B2 (ja) | 2011-09-22 | 2011-09-22 | 検索装置、検索方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013069170A JP2013069170A (ja) | 2013-04-18 |
JP5642037B2 true JP5642037B2 (ja) | 2014-12-17 |
Family
ID=47912250
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011208051A Expired - Fee Related JP5642037B2 (ja) | 2011-09-22 | 2011-09-22 | 検索装置、検索方法およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20130080174A1 (ja) |
JP (1) | JP5642037B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5404726B2 (ja) * | 2011-09-26 | 2014-02-05 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
US20160062979A1 (en) * | 2014-08-27 | 2016-03-03 | Google Inc. | Word classification based on phonetic features |
WO2019098036A1 (ja) * | 2017-11-15 | 2019-05-23 | ソニー株式会社 | 情報処理装置、情報処理端末、および情報処理方法 |
CN116186203B (zh) * | 2023-03-01 | 2023-10-10 | 人民网股份有限公司 | 文本检索方法、装置、计算设备及计算机存储介质 |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3647518B2 (ja) * | 1994-10-06 | 2005-05-11 | ゼロックス コーポレイション | コード化したワードトークンを使用して文書画像をハイライトで強調する装置 |
US6085162A (en) * | 1996-10-18 | 2000-07-04 | Gedanken Corporation | Translation system and method in which words are translated by a specialized dictionary and then a general dictionary |
JPH10240739A (ja) * | 1997-02-27 | 1998-09-11 | Toshiba Corp | 情報検索装置および情報検索方法 |
US6377949B1 (en) * | 1998-09-18 | 2002-04-23 | Tacit Knowledge Systems, Inc. | Method and apparatus for assigning a confidence level to a term within a user knowledge profile |
US7720682B2 (en) * | 1998-12-04 | 2010-05-18 | Tegic Communications, Inc. | Method and apparatus utilizing voice input to resolve ambiguous manually entered text input |
US6535850B1 (en) * | 2000-03-09 | 2003-03-18 | Conexant Systems, Inc. | Smart training and smart scoring in SD speech recognition system with user defined vocabulary |
WO2001084535A2 (en) * | 2000-05-02 | 2001-11-08 | Dragon Systems, Inc. | Error correction in speech recognition |
JP4154118B2 (ja) * | 2000-10-31 | 2008-09-24 | 株式会社リコー | 関連語選出装置、その方法および記録媒体、並びに文書検索装置、その方法および記録媒体 |
US7231351B1 (en) * | 2002-05-10 | 2007-06-12 | Nexidia, Inc. | Transcript alignment |
US8321427B2 (en) * | 2002-10-31 | 2012-11-27 | Promptu Systems Corporation | Method and apparatus for generation and augmentation of search terms from external and internal sources |
US7478033B2 (en) * | 2004-03-16 | 2009-01-13 | Google Inc. | Systems and methods for translating Chinese pinyin to Chinese characters |
JP4705023B2 (ja) * | 2004-06-10 | 2011-06-22 | パナソニック株式会社 | 音声認識装置、音声認識方法、及びプログラム |
US7822597B2 (en) * | 2004-12-21 | 2010-10-26 | Xerox Corporation | Bi-dimensional rewriting rules for natural language processing |
US20070073533A1 (en) * | 2005-09-23 | 2007-03-29 | Fuji Xerox Co., Ltd. | Systems and methods for structural indexing of natural language text |
US8364468B2 (en) * | 2006-09-27 | 2013-01-29 | Academia Sinica | Typing candidate generating method for enhancing typing efficiency |
US8442972B2 (en) * | 2006-10-11 | 2013-05-14 | Collarity, Inc. | Negative associations for search results ranking and refinement |
US8108407B2 (en) * | 2006-11-06 | 2012-01-31 | Panasonic Corporation | Informationn retrieval apparatus |
US20080255835A1 (en) * | 2007-04-10 | 2008-10-16 | Microsoft Corporation | User directed adaptation of spoken language grammer |
US8457946B2 (en) * | 2007-04-26 | 2013-06-04 | Microsoft Corporation | Recognition architecture for generating Asian characters |
JP2009053757A (ja) * | 2007-08-23 | 2009-03-12 | Toshiba Corp | 情報処理装置、入力方法およびプログラム |
US7475033B1 (en) * | 2007-08-29 | 2009-01-06 | Barclays Bank Plc | Method of protecting an initial investment value of an investment |
WO2009029865A1 (en) * | 2007-08-31 | 2009-03-05 | Google Inc. | Automatic correction of user input |
JP5295605B2 (ja) * | 2008-03-27 | 2013-09-18 | 株式会社東芝 | 検索キーワード改良装置、サーバ装置、および方法 |
KR101462932B1 (ko) * | 2008-05-28 | 2014-12-04 | 엘지전자 주식회사 | 이동 단말기 및 그의 텍스트 수정방법 |
US9892730B2 (en) * | 2009-07-01 | 2018-02-13 | Comcast Interactive Media, Llc | Generating topic-specific language models |
US8374864B2 (en) * | 2010-03-17 | 2013-02-12 | Cisco Technology, Inc. | Correlation of transcribed text with corresponding audio |
US8447604B1 (en) * | 2010-04-12 | 2013-05-21 | Adobe Systems Incorporated | Method and apparatus for processing scripts and related data |
US20120035905A1 (en) * | 2010-08-09 | 2012-02-09 | Xerox Corporation | System and method for handling multiple languages in text |
US8650031B1 (en) * | 2011-07-31 | 2014-02-11 | Nuance Communications, Inc. | Accuracy improvement of spoken queries transcription using co-occurrence information |
US20130060560A1 (en) * | 2011-09-01 | 2013-03-07 | Google Inc. | Server-based spell checking |
-
2011
- 2011-09-22 JP JP2011208051A patent/JP5642037B2/ja not_active Expired - Fee Related
-
2012
- 2012-06-20 US US13/527,763 patent/US20130080174A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20130080174A1 (en) | 2013-03-28 |
JP2013069170A (ja) | 2013-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10216725B2 (en) | Integration of domain information into state transitions of a finite state transducer for natural language processing | |
US7979268B2 (en) | String matching method and system and computer-readable recording medium storing the string matching method | |
JP5599662B2 (ja) | 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法 | |
JP4791984B2 (ja) | 入力された音声を処理する装置、方法およびプログラム | |
WO2019096068A1 (zh) | 语音识别纠错方法以及语音识别纠错系统 | |
KR100760301B1 (ko) | 부분 검색어 추출을 통한 미디어 파일 검색 방법 및 장치 | |
CN108140019B (zh) | 语言模型生成装置、语言模型生成方法以及记录介质 | |
JP3983265B1 (ja) | 辞書作成支援システム、方法及びプログラム | |
JP5403696B2 (ja) | 言語モデル生成装置、その方法及びそのプログラム | |
JP2015506515A (ja) | タグをドキュメントに自動的に追加するための方法、装置およびコンピュータ記憶媒体 | |
JP2008216756A (ja) | 語句として新たに認識するべき文字列等を取得する技術 | |
Ljubešić et al. | Standardizing tweets with character-level machine translation | |
JP2011113570A (ja) | 音声検索装置と音声検索方法 | |
CN103123644A (zh) | 声音数据检索系统及用于该系统的程序 | |
JP5642037B2 (ja) | 検索装置、検索方法およびプログラム | |
JP4738847B2 (ja) | データ検索装置および方法 | |
JP5404726B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP5189413B2 (ja) | 音声データ検索システム | |
JP5853595B2 (ja) | 形態素解析装置、方法、プログラム、音声合成装置、方法、プログラム | |
JP4592629B2 (ja) | 文書検索支援方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP6055267B2 (ja) | 文字列分割装置、モデルファイル学習装置および文字列分割システム | |
CN112732885A (zh) | 用于问答系统的答案扩展方法、装置及电子设备 | |
JP4941495B2 (ja) | ユーザ辞書作成システム、方法、及び、プログラム | |
JP2019008477A (ja) | 判別プログラム、判別装置及び判別方法 | |
JP5772514B2 (ja) | 形態素解析装置、方法、プログラム、音声合成装置、方法、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131001 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140307 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140422 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140617 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140930 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141028 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5642037 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 Free format text: JAPANESE INTERMEDIATE CODE: R313114 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |