JP6972653B2 - 解析プログラム、解析方法および解析装置 - Google Patents
解析プログラム、解析方法および解析装置 Download PDFInfo
- Publication number
- JP6972653B2 JP6972653B2 JP2017097670A JP2017097670A JP6972653B2 JP 6972653 B2 JP6972653 B2 JP 6972653B2 JP 2017097670 A JP2017097670 A JP 2017097670A JP 2017097670 A JP2017097670 A JP 2017097670A JP 6972653 B2 JP6972653 B2 JP 6972653B2
- Authority
- JP
- Japan
- Prior art keywords
- bitmap
- character
- data
- index
- offset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/81—Indexing, e.g. XML tags; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
形態素解析に用いられる辞書に基づき、前記辞書に登録された形態素それぞれに関するインデックスであって、前記辞書に登録された形態素それぞれに対し先頭と末尾を判別可能なフラグが設定されたインデックスを生成し、
前記インデックスを用いて、入力された文字データから複数の分割可能な単語を抽出する
処理を実行させる解析プログラム。
形態素解析に用いられる辞書に基づき、前記辞書に登録された形態素それぞれに関するインデックスであって、前記辞書に登録された形態素それぞれに対し先頭と末尾を判別可能なフラグが設定されたインデックスを生成し、
前記インデックスを用いて、入力された文字データから複数の分割可能な単語を抽出する
処理を実行する解析方法。
前記インデックスを用いて、入力された文字データから複数の分割可能な単語を抽出する抽出部と
を有する解析装置。
110 通信部
120 入力部
130 表示部
140 記憶部
140a 文字列データ
140b 辞書データ
140c 配列データ
140d インデックス
140e 抽出結果
145 インデックスデータ
150 制御部
150a 設定部
150b 抽出部
Claims (3)
- コンピュータに、
形態素解析に用いられる辞書に基づき、文字データと前記辞書に登録された形態素それぞれとを比較して、前記文字データに含まれる形態素を並べた配列データを生成し、前記配列データの文字のオフセットを示すフラグを設置したビットマップを文字毎に生成することで、インデックスを生成し、
前記配列データの文字のうち、先頭の文字のオフセットを示すフラグを設置した先頭ビットマップと、末尾の文字のオフセットを示すフラグを設置した末尾ビットマップとを、前記インデックスに設定し、
前記文字データに含まれる各文字の組み合わせに対応するビットマップと、前記先頭ビットマップおよび前記末尾ビットマップとをAND演算を行うことで、分割可能な単語の先頭位置および末尾位置を判定し、判定結果を基にして、複数の分割可能な単語を抽出する
処理を実行させる解析プログラム。 - コンピュータが実行する解析方法であって、
形態素解析に用いられる辞書に基づき、文字データと前記辞書に登録された形態素それぞれとを比較して、前記文字データに含まれる形態素を並べた配列データを生成し、前記配列データの文字のオフセットを示すフラグを設置したビットマップを文字毎に生成することで、インデックスを生成し、
前記配列データの文字のうち、先頭の文字のオフセットを示すフラグを設置した先頭ビットマップと、末尾の文字のオフセットを示すフラグを設置した末尾ビットマップとを、前記インデックスに設定し、
前記文字データに含まれる各文字の組み合わせに対応するビットマップと、前記先頭ビットマップおよび前記末尾ビットマップとをAND演算を行うことで、分割可能な単語の先頭位置および末尾位置を判定し、判定結果を基にして、複数の分割可能な単語を抽出する
処理を実行する解析方法。 - 形態素解析に用いられる辞書に基づき、文字データと前記辞書に登録された形態素それぞれとを比較して、前記文字データに含まれる形態素を並べた配列データを生成し、前記配列データの文字のオフセットを示すフラグを設置したビットマップを文字毎に生成することで、インデックスを生成し、前記配列データの文字のうち、先頭の文字のオフセットを示すフラグを設置した先頭ビットマップと、末尾の文字のオフセットを示すフラグを設置した末尾ビットマップとを、前記インデックスに設定する設定部と、
前記文字データに含まれる各文字の組み合わせに対応するビットマップと、前記先頭ビットマップおよび前記末尾ビットマップとをAND演算を行うことで、分割可能な単語の先頭位置および末尾位置を判定し、判定結果を基にして、複数の分割可能な単語を抽出する抽出部と
を有する解析装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017097670A JP6972653B2 (ja) | 2017-05-16 | 2017-05-16 | 解析プログラム、解析方法および解析装置 |
CN201880032030.7A CN110709830B (zh) | 2017-05-16 | 2018-03-19 | 储存有解析程序的记录介质、解析方法以及解析装置 |
PCT/JP2018/010810 WO2018211810A1 (ja) | 2017-05-16 | 2018-03-19 | 解析プログラム、解析方法および解析装置 |
US16/673,991 US11386267B2 (en) | 2017-05-16 | 2019-11-05 | Analysis method, analyzer, and computer-readable recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017097670A JP6972653B2 (ja) | 2017-05-16 | 2017-05-16 | 解析プログラム、解析方法および解析装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018195030A JP2018195030A (ja) | 2018-12-06 |
JP6972653B2 true JP6972653B2 (ja) | 2021-11-24 |
Family
ID=64273822
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017097670A Active JP6972653B2 (ja) | 2017-05-16 | 2017-05-16 | 解析プログラム、解析方法および解析装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11386267B2 (ja) |
JP (1) | JP6972653B2 (ja) |
CN (1) | CN110709830B (ja) |
WO (1) | WO2018211810A1 (ja) |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IL107482A (en) * | 1992-11-04 | 1998-10-30 | Conquest Software Inc | A method for solving questions in natural language from databases of full texts |
JPH0877293A (ja) * | 1994-09-05 | 1996-03-22 | Toshiba Corp | 文字認識装置および文字認識用辞書作成方法 |
JPH0991386A (ja) * | 1995-09-28 | 1997-04-04 | Toshiba Corp | 文書解析装置及び形態素解析方法 |
JP3332142B2 (ja) | 1997-02-10 | 2002-10-07 | 日本電信電話株式会社 | 形態素解析装置とその方法 |
JP2000259629A (ja) * | 1999-03-11 | 2000-09-22 | Hitachi Ltd | 形態素解析方法およびその装置 |
KR100757340B1 (ko) * | 2006-03-30 | 2007-09-11 | 엔에이치엔(주) | 자동 추출을 이용한 형태소 분석기 성능 향상 방법 및 상기방법을 수행하는 시스템 |
JP5239161B2 (ja) * | 2007-01-04 | 2013-07-17 | 富士ゼロックス株式会社 | 言語解析システム、および言語解析方法、並びにコンピュータ・プログラム |
WO2009063925A1 (ja) | 2007-11-15 | 2009-05-22 | Nec Corporation | 文書管理・検索システムおよび文書の管理・検索方法 |
JP4734400B2 (ja) | 2008-12-18 | 2011-07-27 | 株式会社東芝 | 文書検索装置およびプログラム |
JP2011044031A (ja) * | 2009-08-21 | 2011-03-03 | Sharp Corp | 電子辞書、辞書検索方法、辞書検索プログラム |
JP5513439B2 (ja) * | 2011-05-26 | 2014-06-04 | 日本電信電話株式会社 | 単語関連度テーブル作成装置とその方法と音声認識装置とプログラム |
JP5697648B2 (ja) | 2012-11-27 | 2015-04-08 | ヤフー株式会社 | 単語分割装置、単語分割用辞書のデータ構造、単語分割方法、およびプログラム |
JP6232724B2 (ja) * | 2013-03-29 | 2017-11-22 | 富士通株式会社 | 音声合成装置及び言語辞書登録方法 |
JP6142632B2 (ja) * | 2013-04-02 | 2017-06-07 | 富士通株式会社 | 単語辞書登録用コンピュータプログラム、音声合成装置及び単語辞書登録登録方法 |
JP6291887B2 (ja) * | 2014-02-14 | 2018-03-14 | カシオ計算機株式会社 | 音声合成装置、方法、およびプログラム |
JP6300601B2 (ja) * | 2014-03-31 | 2018-03-28 | Kddi株式会社 | 辞書装置、形態素解析装置、データ構造ならびに形態素解析の方法およびプログラム |
JP6551131B2 (ja) * | 2015-10-09 | 2019-07-31 | 富士通株式会社 | インデックス生成プログラム、インデックス生成装置、インデックス生成方法、検索プログラム、検索装置および検索方法 |
-
2017
- 2017-05-16 JP JP2017097670A patent/JP6972653B2/ja active Active
-
2018
- 2018-03-19 WO PCT/JP2018/010810 patent/WO2018211810A1/ja active Application Filing
- 2018-03-19 CN CN201880032030.7A patent/CN110709830B/zh active Active
-
2019
- 2019-11-05 US US16/673,991 patent/US11386267B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN110709830A (zh) | 2020-01-17 |
US20200065367A1 (en) | 2020-02-27 |
US11386267B2 (en) | 2022-07-12 |
CN110709830B (zh) | 2022-11-22 |
JP2018195030A (ja) | 2018-12-06 |
WO2018211810A1 (ja) | 2018-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6258191B2 (ja) | 入力方法及びシステム | |
JP4570509B2 (ja) | 読み生成装置、読み生成方法及びコンピュータプログラム | |
JP2022121456A (ja) | 処理プログラム、処理方法および情報処理装置 | |
JP2019159826A (ja) | 表示制御プログラム、表示制御装置及び表示制御方法 | |
JP6705352B2 (ja) | 言語処理装置、言語処理方法、及び言語処理プログラム | |
US20190155902A1 (en) | Information generation method, information processing device, and word extraction method | |
JP6972653B2 (ja) | 解析プログラム、解析方法および解析装置 | |
KR102355731B1 (ko) | 해석 프로그램, 해석 방법 및 해석 장치 | |
JP6805927B2 (ja) | インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 | |
US11080488B2 (en) | Information processing apparatus, output control method, and computer-readable recording medium | |
KR20180007183A (ko) | 대표문자와 공백 입력을 통한 둘 이상의 단어로 구성된 문장입력방법 및 장치 | |
JP5870744B2 (ja) | 情報処理装置及びプログラム | |
JP7095264B2 (ja) | 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法 | |
WO2011118428A1 (ja) | 要求獲得システム、要求獲得方法、及び要求獲得用プログラム | |
KR102317910B1 (ko) | 중국어 형태소 분석 장치 및 방법 | |
JP7200474B2 (ja) | 変換補助装置、変換補助システム、変換補助方法及びコンピュータプログラム | |
JP6020093B2 (ja) | アルファベット読み推定装置 | |
JP5032557B2 (ja) | パターン認識装置およびパターン認識方法 | |
JP5363178B2 (ja) | 修正候補取得装置、修正候補取得システム、修正候補取得方法、修正候補取得プログラム | |
JP2020087212A (ja) | 未知語抽出方法、未知語抽出プログラムおよび情報処理装置 | |
JP2009003820A (ja) | 計算機システム | |
JPH06266700A (ja) | かな漢字変換装置 | |
JP2004258800A (ja) | 文字列予測装置及び方法 | |
JP2006202004A (ja) | 形態素解析装置及びその方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200213 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210406 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210512 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211005 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211018 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6972653 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |