JP7095264B2 - 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法 - Google Patents
情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法 Download PDFInfo
- Publication number
- JP7095264B2 JP7095264B2 JP2017218464A JP2017218464A JP7095264B2 JP 7095264 B2 JP7095264 B2 JP 7095264B2 JP 2017218464 A JP2017218464 A JP 2017218464A JP 2017218464 A JP2017218464 A JP 2017218464A JP 7095264 B2 JP7095264 B2 JP 7095264B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- data
- character string
- character
- bitmap
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
図1は、本実施例に係る情報処理装置の処理の一例を説明するための図である。図1に示すように、情報処理装置は、かな漢字変換候補となる単語を抽出する場合に、下記の処理を実行する。例えば、文字列データ142は、CJK文字で構成された文書のデータであるものとする。CJK文字は中国語、日本語または韓国語の文字に対応する。また、辞書データ141は、形態素解析に用いられる辞書データと同じものである。
オフセットテーブル145は、単語No145a、単語コード145b及びオフセット145cを対応付けて記憶する。単語No145aは、配列データ143上の各単語を先頭からシーケンシャルに振られたNoを表す。なお、単語No145aは、「0」からの昇順に振られる数字で示す。単語コード145bは、辞書データ141の単語コード141cに対応する。オフセット145cは、配列データ143の先頭からの単語の「先頭」の位置(オフセット)を表す。例えば、単語コード「108001h」に対応する単語「あめりか」が、配列データ143上の先頭から1単語目に存在する場合には、単語Noとして「1」が設定される。単語コード「108001h」に対応する単語「あめりか」の先頭「あ」が配列データ143の先頭から6文字目に位置する場合には、オフセットとして「6」が設定される。
次に、本実施例に係る情報処理装置100の効果について説明する。情報処理装置100は、形態素解析に用いられる辞書データ141を受け付ける。情報処理装置100は、受け付けた辞書データ141に基づき、辞書データ141に登録された単語に含まれる各文字と、単語の先頭の文字と、単語の末尾の文字と、のそれぞれの文字の相対位置を示すインデックスデータ144を生成する。かかる構成によれば、情報処理装置100は、かな漢字変換及び形態素解析のそれぞれの辞書データ141を共通化することができ、辞書データ141に基づき生成されるインデックスデータ144を用いて、単語の抽出と最尤推定を効率的に行うことが可能となる。
110 通信部
120 入力部
130 表示部
140 記憶部
141 辞書データ
142 文字列データ
143 配列データ
144 インデックスデータ
145 オフセットテーブル
146 教師データ
147 単語HMMデータ
150 制御部
151 インデックス生成部
152 単語HMM生成部
152 インデックス生成部
153 単語候補抽出部
154 単語抽出部
155 単語推定部
Claims (13)
- コンピュータに、
形態素解析に用いられる辞書データと処理対象の文書データとを比較し、
ヒットした単語を文字列データに登録し、
前記文字列データに基づき、前記文字列データに登録された単語に含まれる各文字、単語の先頭および単語の末尾ごとのビットマップであって文字列データの中の位置毎の存否を表すビットマップからなるインデックス情報を生成する
処理を実行させることを特徴とする情報生成プログラム。 - 文字又は文字列の入力確定を示す操作を受け付けた後、新たに文字又は文字列の入力を受け付け、
生成した前記インデックス情報に基づき、前記文字列データに登録された単語のうち、受け付けた前記文字又は文字列を含む単語を特定し、
前記辞書データと、同音異義語を含む多くの文章を示すテキストデータとに基づき、前記テキストデータに含まれる各単語について、単語の情報と、他の単語の情報と、単語と他の単語の共起率とを含む共起単語情報を記憶する記憶部を参照して、特定した前記単語のうち、いずれかの単語を抽出する
ことを特徴とする請求項1に記載の情報生成プログラム。 - 該特定する処理は、前記インデックス情報および前記文字列データに基づき、受け付けた文字列の各文字のビットマップおよび先頭のビットマップを用いた論理演算を実行することで、前記文字列データに登録された単語のうち、受け付けた前記文字又は文字列を含む単語を特定する
ことを特徴とする請求項2に記載の情報生成プログラム。 - 生成したインデックス情報をハッシュ化し、
ハッシュ化されたインデックス情報から、文字列データを用いて、受け付けた文字列の各文字のビットマップおよび先頭のビットマップについて前記文字列の先頭文字が出現する位置近辺を復元し、
復元した各文字のビットマップおよび先頭のビットマップを用いて、前記文字列データに登録された単語のうち、受け付けた前記文字又は文字列を含む単語を特定する
ことを特徴とする請求項2に記載の情報生成プログラム。 - 複数の単語候補に分割される処理対象のテキストデータを受け付け、
生成した前記インデックス情報に基づき、前記文字列データに登録された単語のうち、受け付けた前記テキストデータに含まれる単語を特定し、
前記辞書データと、同音異義語を含む多くの文章を示すテキストデータとに基づき、前記テキストデータに含まれる各単語について、単語の情報と、他の単語の情報と、単語と他の単語の共起率とを含む共起単語情報を記憶する記憶部を参照して、特定した前記単語のうち、いずれかの単語を抽出する
ことを特徴とする請求項1に記載の情報生成プログラム。 - 該特定する処理は、前記インデックス情報および前記文字列データに基づき、受け付けたテキストデータの各文字のビットマップおよび先頭のビットマップを用いた論理演算を実行することで、前記文字列データに登録された単語のうち、受け付けた前記テキストデータに含まれる単語を特定する
ことを特徴とする請求項5に記載の情報生成プログラム。 - 生成したインデックス情報をハッシュ化し、
ハッシュ化されたインデックス情報から、前記文字列データを用いて、受け付けたテキストデータの各文字のビットマップおよび先頭のビットマップについて前記受け付けたテキストデータの先頭文字が出現する位置近辺を復元し、
復元した各文字のビットマップおよび先頭のビットマップを用いて、前記文字列データに登録された単語のうち、受け付けた前記テキストデータに含まれる単語を特定する
ことを特徴とする請求項5に記載の情報生成プログラム。 - コンピュータに、
文字又は文字列の入力確定を示す操作を受け付けた後、新たに文字又は文字列の入力を受け付けると、形態素解析に用いられる辞書データと処理対象の文書データとを比較した結果、ヒットした単語を登録した文字列データに登録された単語に含まれる各文字、単語の先頭および単語の末尾ごとのビットマップであって文字列データの中の位置毎の存否を表すビットマップからなるインデックス情報を記憶する記憶部を参照して、前記登録された単語のうち、新たに受け付けた前記文字又は前記文字列を含む単語を特定し、
前記辞書データと、同音異義語を含む多くの文章を示すテキストデータとに基づき、前記テキストデータに含まれる各単語について、単語の情報と、他の単語の情報と、単語と他の単語の共起率とを含む共起単語情報を記憶する記憶部を参照して、特定した前記単語に対する他の単語の共起情報を取得し、
取得した前記共起情報と、前記入力確定された前記文字又は前記文字列とに基づき、特定した前記単語のうち、いずれかの単語を抽出する
処理を実行させることを特徴とする単語抽出プログラム。 - コンピュータに、
複数の単語候補に分割される処理対象のテキストデータを受け付け、
形態素解析に用いられる辞書データと処理対象の文書データとを比較した結果、ヒットした単語を登録した文字列データに登録された単語に含まれる各文字、単語の先頭および単語の末尾ごとのビットマップであって文字列データの中の位置毎の存否を表すビットマップからなるインデックス情報を記憶する記憶部を参照して、前記文字列データに登録された単語のうち、受け付けた前記テキストデータに含まれる単語を特定し、
前記辞書データと、同音異義語を含む多くの文章を示すテキストデータとに基づき、前記テキストデータに含まれる各単語について、単語の情報と、他の単語の情報と、単語と他の単語の共起率とを含む共起単語情報を記憶する記憶部を参照して、特定した前記単語のうち、いずれかの単語を抽出する
処理を実行させることを特徴とする単語抽出プログラム。 - 形態素解析に用いられる辞書データと、同音異義語を含む多くの文章を示すテキストデータとに基づき、前記テキストデータに含まれる各単語について、単語と他の単語の共起率を算出し、各単語の情報と、他の単語の情報と、共起率とを含む共起単語情報を生成する第1の生成部と、
前記辞書データと処理対象の文書データとを比較した結果、ヒットした単語を登録した文字列データに登録された単語に含まれる各文字、単語の先頭および単語の末尾ごとのビットマップであって文字列データの中の位置毎の存否を表すビットマップからなるインデックス情報を生成する第2の生成部と、
文字又は文字列の入力確定を示す操作を受け付けた後、新たに文字又は文字列の入力を受け付けた場合に、前記第2の生成部によって生成された前記インデックス情報に基づき、前記文字列データに登録された単語のうち、受け付けた前記文字又は文字列を含む単語を特定し、前記第1の生成部によって生成された共起単語情報を参照して、特定した前記単語のうち、いずれかの単語を抽出する第1の抽出部と、
テキストデータを受け付けた場合に、前記第2の生成部によって生成された前記インデックス情報に基づき、前記文字列データに登録された単語のうち、受け付けた前記テキストデータに含まれる単語を特定し、前記第1の生成部によって生成された共起単語情報を参照して、特定した前記単語のうち、いずれかの単語を抽出する第2の抽出部と、
を有することを特徴とする情報処理装置。 - コンピュータが、
形態素解析に用いられる辞書データと処理対象の文書データとを比較し、
ヒットした単語を文字列データに登録し、
前記文字列データに基づき、前記文字列データに登録された単語に含まれる各文字、単語の先頭および単語の末尾ごとのビットマップであって文字列データの中の位置毎の存否を表すビットマップからなるインデックス情報を生成する
処理を実行することを特徴とする情報生成方法。 - コンピュータが、
文字又は文字列の入力確定を示す操作を受け付けた後、新たに文字又は文字列の入力を受け付けると、形態素解析に用いられる辞書データと処理対象の文書データとを比較した結果、ヒットした単語を登録した文字列データに登録された単語に含まれる各文字、単語の先頭および単語の末尾ごとのビットマップであって文字列データの中の位置毎の存否を表すビットマップからなるインデックス情報を記憶する記憶部を参照して、前記登録された単語のうち、新たに受け付けた前記文字又は前記文字列を含む単語を特定し、
前記辞書データと、同音意義語を含む多くの文章を示すテキストデータとに基づき、前記テキストデータに含まれる各単語について、単語の情報と、他の単語の情報と、単語と他の単語の共起率とを含む共起単語情報を記憶する記憶部を参照して、特定した前記単語に対する他の単語の共起情報を取得し、
取得した前記共起情報と、前記入力確定された前記文字又は前記文字列とに基づき、特定した前記単語のうち、いずれかの単語を抽出する
処理を実行することを特徴とする単語抽出方法。 - コンピュータが、
複数の単語候補に分割される処理対象のテキストデータを受け付け、
形態素解析に用いられる辞書データと処理対象の文書データとを比較した結果、ヒットした単語を登録した文字列データに登録された単語に含まれる各文字、単語の先頭および単語の末尾ごとのビットマップであって文字列データの中の位置毎の存否を表すビットマップからなるインデックス情報を記憶する記憶部を参照して、前記文字列データに登録された単語のうち、受け付けた前記テキストデータに含まれる単語を特定し、
前記辞書データと、同音意義語を含む多くの文章を示すテキストデータとに基づき、前記テキストデータに含まれる各単語について、単語の情報と、他の単語の情報と、単語と他の単語の共起率とを含む共起単語情報を記憶する記憶部を参照して、特定した前記単語のうち、いずれかの単語を抽出する
処理を実行することを特徴とする単語抽出方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017218464A JP7095264B2 (ja) | 2017-11-13 | 2017-11-13 | 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法 |
US16/184,461 US20190147039A1 (en) | 2017-11-13 | 2018-11-08 | Information processing apparatus, information generation method, word extraction method, and computer-readable recording medium |
US17/960,207 US20230039439A1 (en) | 2017-11-13 | 2022-10-05 | Information processing apparatus, information generation method, word extraction method, and computer-readable recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017218464A JP7095264B2 (ja) | 2017-11-13 | 2017-11-13 | 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019091174A JP2019091174A (ja) | 2019-06-13 |
JP7095264B2 true JP7095264B2 (ja) | 2022-07-05 |
Family
ID=66432055
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017218464A Active JP7095264B2 (ja) | 2017-11-13 | 2017-11-13 | 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法 |
Country Status (2)
Country | Link |
---|---|
US (2) | US20190147039A1 (ja) |
JP (1) | JP7095264B2 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259625A (ja) | 1999-03-10 | 2000-09-22 | Fujitsu Ltd | 文書校正装置 |
WO2014002775A1 (ja) | 2012-06-25 | 2014-01-03 | 日本電気株式会社 | 同義語抽出システム、方法および記録媒体 |
US20150169537A1 (en) | 2013-12-13 | 2015-06-18 | Nuance Communications, Inc. | Using statistical language models to improve text input |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3109187B2 (ja) * | 1991-11-14 | 2000-11-13 | 株式会社明電舎 | 形態素解析方式 |
JP2640793B2 (ja) * | 1992-01-17 | 1997-08-13 | 松下電器産業株式会社 | 共起辞書構築装置及びこの共起辞書を用いた文解析装置 |
JP3143079B2 (ja) * | 1997-05-30 | 2001-03-07 | 松下電器産業株式会社 | 辞書索引作成装置と文書検索装置 |
US6363174B1 (en) * | 1998-12-28 | 2002-03-26 | Sony Corporation | Method and apparatus for content identification and categorization of textual data |
JP3696745B2 (ja) * | 1999-02-09 | 2005-09-21 | 株式会社日立製作所 | 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体 |
US7356463B1 (en) * | 2003-12-18 | 2008-04-08 | Xerox Corporation | System and method for detecting and decoding semantically encoded natural language messages |
JP4730684B2 (ja) * | 2004-03-16 | 2011-07-20 | イマジニアリング株式会社 | ユーザインターフェースが進化するデータベースシステムおよび当該データベースシステムを利用したWebブラウザ |
JP5391583B2 (ja) * | 2008-05-29 | 2014-01-15 | 富士通株式会社 | 検索装置、生成装置、プログラム、検索方法および生成方法 |
JP2014186395A (ja) * | 2013-03-21 | 2014-10-02 | Toshiba Corp | 文書作成支援装置、方法およびプログラム |
US10771427B2 (en) * | 2016-02-18 | 2020-09-08 | Versign, Inc. | Systems and methods for determining character entry dynamics for text segmentation |
US10354009B2 (en) * | 2016-08-24 | 2019-07-16 | Microsoft Technology Licensing, Llc | Characteristic-pattern analysis of text |
-
2017
- 2017-11-13 JP JP2017218464A patent/JP7095264B2/ja active Active
-
2018
- 2018-11-08 US US16/184,461 patent/US20190147039A1/en not_active Abandoned
-
2022
- 2022-10-05 US US17/960,207 patent/US20230039439A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259625A (ja) | 1999-03-10 | 2000-09-22 | Fujitsu Ltd | 文書校正装置 |
WO2014002775A1 (ja) | 2012-06-25 | 2014-01-03 | 日本電気株式会社 | 同義語抽出システム、方法および記録媒体 |
US20150169537A1 (en) | 2013-12-13 | 2015-06-18 | Nuance Communications, Inc. | Using statistical language models to improve text input |
Non-Patent Citations (2)
Title |
---|
中村 明,統計的言語モデルに基づく電子カルテ入力支援システムの開発,言語処理学会第13回年次大会発表論文集 Proceedings of The Thirteenth Annual Meeting of The Association for Natural Language Processing,日本,言語処理学会 The Association for Natural Language Processing,2007年03月19日,998~1001頁 |
野上 宏康 Hiroyasu Nogami,仮名漢字変換技術 Kana-to-Kanji Conversion Technology,人工知能学会誌 第11巻 第6号 Journal of Japanese Society for Artificial Intelligence,日本,社団法人人工知能学会 Japanese Society for Artificial Intelligence,1996年11月01日,第11巻 第6号,845~851 |
Also Published As
Publication number | Publication date |
---|---|
US20190147039A1 (en) | 2019-05-16 |
US20230039439A1 (en) | 2023-02-09 |
JP2019091174A (ja) | 2019-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI293455B (en) | System and method for disambiguating phonetic input | |
JP2006031295A (ja) | 単語境界確率推定装置及び方法、確率的言語モデル構築装置及び方法、仮名漢字変換装置及び方法、並びに、未知語モデルの構築方法、 | |
JP2022121456A (ja) | 処理プログラム、処理方法および情報処理装置 | |
JP5231484B2 (ja) | 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置 | |
JP2019159826A (ja) | 表示制御プログラム、表示制御装置及び表示制御方法 | |
JP2000298667A (ja) | 構文情報による漢字変換装置 | |
JP2007156545A (ja) | 記号列変換方法、単語翻訳方法、その装置およびそのプログラム並びに記録媒体 | |
US20120246162A1 (en) | Method and device for generating a similar meaning term list and search method and device using the similar meaning term list | |
JP2010134922A (ja) | 類似語決定方法およびシステム | |
JP7102710B2 (ja) | 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法 | |
JP7095264B2 (ja) | 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法 | |
JP7124358B2 (ja) | 出力プログラム、情報処理装置及び出力制御方法 | |
KR20130122437A (ko) | 영어의 한글 표기 방법 및 시스템 | |
JP6880956B2 (ja) | 解析プログラム、解析方法および解析装置 | |
JP2015191430A (ja) | 翻訳装置、翻訳方法及び翻訳プログラム | |
JP2006053866A (ja) | カタカナ文字列の表記ゆれの検出方法 | |
JP6972653B2 (ja) | 解析プログラム、解析方法および解析装置 | |
JPH0969109A (ja) | 文書検索方法及び文書検索装置 | |
WO2013130623A2 (en) | Broad-coverage normalization system for social media language | |
JP2008140074A (ja) | 例文検索装置および例文検索処理プログラム | |
CN104615269A (zh) | 一种藏文拉丁全简双拼编码方案及其智能输入系统 | |
JP6020093B2 (ja) | アルファベット読み推定装置 | |
CN114442818A (zh) | 输入辅助装置、方法和系统以及计算机可读介质 | |
JP2009098328A (ja) | 音声合成装置及び方法 | |
JP5338482B2 (ja) | 漢文例文検索装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200807 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210628 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210706 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210818 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220207 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220524 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220606 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7095264 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |