JP5921379B2 - テキスト処理方法、システム及びコンピュータ・プログラム。 - Google Patents
テキスト処理方法、システム及びコンピュータ・プログラム。 Download PDFInfo
- Publication number
- JP5921379B2 JP5921379B2 JP2012178600A JP2012178600A JP5921379B2 JP 5921379 B2 JP5921379 B2 JP 5921379B2 JP 2012178600 A JP2012178600 A JP 2012178600A JP 2012178600 A JP2012178600 A JP 2012178600A JP 5921379 B2 JP5921379 B2 JP 5921379B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- words
- index
- search target
- approximate value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3322—Query formulation using system suggestions
- G06F16/3323—Query formulation using system suggestions using document space presentation or visualization, e.g. category, hierarchy or range presentation and selection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
を備える方法である。
図1は、本実施形態に係るコンピュータ1のハードウェア構成を示すブロック図である。コンピュータ1のハードウェア構成は、(低速及び高速の)バス10、バス10に接続されるCPU(演算制御装置)11、RAM(ランダム・アクセス・メモリ:記憶装置)12、ROM(リード・オンリ・メモリ:記憶装置)13、HDD(ハード・ディスク・ドライブ:記憶装置)14、通信インタフェース15、入出力インタフェース16を備えている。さらに、入出力インタフェース16に接続されるマウス(ポインティング装置)17、フラット・パネル・ディスプレイ(表示装置)18、キーボード19等を備えている。なお、コンピュータ1は一般的なパーソナル・コンピュータ・アーキテクチャを採用するものとして説明したが、例えば、より高いデータ処理能力や可用性を求めて、CPU11やHDD14等を多重化することができる。また、デスクトップ型の他、ラップトップ型やタブレット型のパーソナル・コンピュータなど、様々なタイプのコンピュータ・システムを採用することができる。
先に説明した実施形態では、周辺出現数の概算値を演算する際にビット演算を用いることより、高速に概算値を得るものであるが、さらに、ビット演算を多用する手法について、変形例として説明する。図11は、変形例を説明する概念図である。上述の実施形態と同様の構成については、同一の符号を付し、その説明を省略する。
11…CPU(演算制御装置)、
12…RAM(ランダム・アクセス・メモリ:記憶装置)、
13…ROM(リード・オンリ・メモリ:記憶装置)、
14…HDD(ハード・ディスク・ドライブ:記憶装置)、
17…マウス(ポインティング装置)、
18…フラット・パネル・ディスプレイ(表示装置)、
100…入力モジュール(入力手段)、
101…特定モジュール(特定手段)、
102…インデックス作成モジュール(作成手段)、
103…保持モジュール(保持手段)、
104…演算モジュール(演算手段)、
105…更新モジュール(更新手段)
106…出力モジュール(出力手段)
Claims (20)
- 複数の単語を含む複数の文章の集合をコンピュータにより処理する方法であり、
前記文章の集合において、少なくとも一部の単語の出現箇所を階層的に特定するステップと、
前記少なくとも一部の単語毎に、各単語に対応する前記特定された出現箇所のより上位階層に基づいて第1インデックスを作成するステップと、
検索対象の単語の入力を受け付けるステップと、
前記文章の集合において、前記検索対象の単語の出現箇所を階層的に特定するステップと、
前記検索対象の単語に対応する前記特定された出現箇所のより上位階層に基づいて第2インデックスを作成するステップと、
前記第1インデックスと前記第2インデックスとを比較し、前記検索対象の単語の周辺における一の単語の出現数の概算値を演算するステップと、
前記概算値が所定数以上であることを条件に、前記出現箇所の上位階層及び下位階層に基づき、前記検索対象の単語の周辺における前記一の単語の出現数のより正確な値を演算するステップと
を備える方法。 - 前記第1インデックス及び第2インデックスが、前記上位階層のビットセットを1/N(N:自然数)に圧縮したものであり、圧縮元ビットが1つ以上trueであることを条件に、圧縮先ビットをtrueとする請求項1に記載の方法。
- 前記第1インデックスと前記第2インデックスとの比較は、ビット演算により行われる請求項2に記載の方法。
- 前記概算値を演算するステップは、
前記圧縮元ビットが2つ以上trueであることを条件に、対応する前記上位階層の要素を記憶し、前記要素に基づいて、前記検索対象の単語の周辺における一の単語の出現数の概算値を演算する請求項2又は3に記載の方法。 - 前記概算値を演算するステップは、
前記圧縮元ビットが2つ以上trueであることを条件に、対応する前記上位階層の要素の数を記憶し、前記要素の数に基づいて、前記検索対象の単語の周辺における一の単語の出現数の概算値を演算する請求項2又は3に記載の方法。 - 各単語に対応する前記特定された出現箇所のより上位階層のビットセットを1/N(N:自然数)に圧縮したものであり、圧縮元ビットが2つ以上trueであることを条件に、圧縮先ビットをtrueとする第3インデックスを作成するステップと、
前記検索対象の単語に対応する前記特定された出現箇所のより上位階層のビットセットを1/N(N:自然数)に圧縮したものであり、圧縮元ビットが2つ以上trueであることを条件に、圧縮先ビットをtrueとする第4インデックスを作成するステップとを更に備え、
前記概算値を演算するステップは、
前記第3インデックスと前記第4インデックスとをビット演算により比較する請求項5に記載の方法。 - 前記概算値が所定数に満たないことを条件に、前記少なくとも一部の単語のうち、次の単語の出現数の概算値を演算する請求項1乃至6のいずれかに記載の方法。
- 前記概算値が所定数に満たないことを条件に、前記一の単語の出現数のより正確な値を演算するステップをスキップする請求項1乃至7のいずれかに記載の方法。
- 前記検索対象の単語の周辺において出現する単語のうち、暫定的な頻出上位K個の単語(K:自然数)を保持するステップを更に備え、
前記一の単語の出現数のより正確な値を演算するステップは、
前記概算値が前記暫定的な頻出上位K番目の単語の出現数以上であることを条件に、前記出現箇所の上位階層及び下位階層に基づき、前記検索対象の単語の周辺における前記一の単語の出現数のより正確な値を演算する
請求項1乃至8のいずれかに記載の方法。 - 前記演算された前記一の単語の出現数が前記暫定的な頻出上位K番目の単語の出現数以上であることを条件に、前記暫定的な頻出上位K個の単語を更新するステップを更に備える請求項9に記載の方法。
- 前記一の単語の出現数の概算値は、前記一の単語の出現数の正確な値以上の値である請求項1乃至10のいずれかに記載の方法。
- 前記少なくとも一部の単語を前記複数の文章の集合において頻出する順に、前記一の単語としてその出現数の概算値を演算する請求項1乃至11のいずれかに記載の方法。
- 前記少なくとも一部の単語のすべての検討が終了することを条件に、前記暫定的な頻出上位K個の単語(K:自然数)を最終的な頻出上位K個の単語として出力するステップを更に備える請求項9乃至12のいずれかに記載の方法。
- 前記少なくとも一部の単語は、前記複数の文章の集合に含まれる頻出上位L単語(L:自然数)を含む請求項1乃至13のいずれかに記載の方法。
- 前記少なくとも一部の単語は、前記複数の文章の集合に含まれる特定品詞の単語を含む請求項1乃至14のいずれかに記載の方法。
- 前記検索対象の単語の周辺は、前記検索対象の単語の出現箇所よりも前方にX単語(X:整数)、後方にY単語(Y:整数)の範囲として予め設定される請求項1乃至15のいずれかに記載の方法。
- 前記出現箇所の上位階層は、前記複数の文章のうち一の文章を特定する文章IDであり、前記出現箇所の下位階層は、前記一の文章中の位置を特定する位置IDである請求項1乃至16のいずれかに記載の方法。
- コンピュータにより実行されることにより、前記コンピュータに請求項1乃至17のいずれかに記載の方法を実行させるコンピュータ・プログラム。
- 複数の単語を含む複数の文章の集合を処理するコンピュータであり、
前記文章の集合において、少なくとも一部の単語の出現箇所を階層的に特定する手段と、
前記少なくとも一部の単語毎に、各単語に対応する前記特定された出現箇所のより上位階層に基づいて第1インデックスを作成する手段と、
検索対象の単語の入力を受け付ける手段と、
前記文章の集合において、前記検索対象の単語の出現箇所を階層的に特定する手段と、
前記検索対象の単語に対応する前記特定された出現箇所のより上位階層に基づいて第2インデックスを作成する手段と、
前記第1インデックスと前記第2インデックスとを比較し、前記検索対象の単語の周辺における一の単語の出現数の概算値を演算する手段と、
前記概算値が所定数以上であることを条件に、前記出現箇所の上位階層及び下位階層に基づき、前記検索対象の単語の周辺における前記一の単語の出現数のより正確な値を演算する手段と
を備えるコンピュータ。 - 前記コンピュータは半導体メモリを備え、
前記概算値を演算する手段は、前記半導体メモリ上に前記第1インデックスと前記第2インデックスを記憶し、ビット演算により比較する請求項19に記載のコンピュータ。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012178600A JP5921379B2 (ja) | 2012-08-10 | 2012-08-10 | テキスト処理方法、システム及びコンピュータ・プログラム。 |
US13/962,402 US9471548B2 (en) | 2012-08-10 | 2013-08-08 | Text processing method, system and computer program |
CN201310347285.1A CN103577532B (zh) | 2012-08-10 | 2013-08-09 | 用于文本处理的方法和系统 |
US14/021,458 US9652526B2 (en) | 2012-08-10 | 2013-09-09 | Text processing method, system and computer program |
US15/243,299 US10353932B2 (en) | 2012-08-10 | 2016-08-22 | Text processing method, system and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012178600A JP5921379B2 (ja) | 2012-08-10 | 2012-08-10 | テキスト処理方法、システム及びコンピュータ・プログラム。 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014035760A JP2014035760A (ja) | 2014-02-24 |
JP5921379B2 true JP5921379B2 (ja) | 2016-05-24 |
Family
ID=50049308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012178600A Active JP5921379B2 (ja) | 2012-08-10 | 2012-08-10 | テキスト処理方法、システム及びコンピュータ・プログラム。 |
Country Status (3)
Country | Link |
---|---|
US (3) | US9471548B2 (ja) |
JP (1) | JP5921379B2 (ja) |
CN (1) | CN103577532B (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10474672B2 (en) * | 2015-08-25 | 2019-11-12 | Schlafender Hase GmbH Software & Communications | Method for comparing text files with differently arranged text sections in documents |
JP7003427B2 (ja) | 2017-03-24 | 2022-01-20 | 富士通株式会社 | 検索プログラム、情報処理装置および検索方法 |
JP2018169795A (ja) * | 2017-03-30 | 2018-11-01 | 株式会社日立製作所 | 情報処理装置、これにおける画面表示方法及び分析処理プログラム |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0675999A (ja) | 1992-07-06 | 1994-03-18 | Nec Corp | データベース類似検索解表示装置 |
JPH06348757A (ja) | 1993-06-07 | 1994-12-22 | Hitachi Ltd | 文書検索装置および方法 |
JPH07182354A (ja) | 1993-12-24 | 1995-07-21 | Fujitsu Ltd | 電子文書の作成方法 |
JPH07189354A (ja) | 1993-12-28 | 1995-07-28 | Idai Kensetsu:Kk | 内装パネル |
JP3531281B2 (ja) | 1995-04-18 | 2004-05-24 | 富士ゼロックス株式会社 | 文書登録検索装置 |
JP3514874B2 (ja) | 1995-06-06 | 2004-03-31 | 富士通株式会社 | フリーテキスト検索システム |
JP2833580B2 (ja) * | 1996-04-19 | 1998-12-09 | 日本電気株式会社 | 全文インデックス作成装置および全文データベース検索装置 |
JP3143079B2 (ja) * | 1997-05-30 | 2001-03-07 | 松下電器産業株式会社 | 辞書索引作成装置と文書検索装置 |
JP3627445B2 (ja) | 1997-06-04 | 2005-03-09 | 富士ゼロックス株式会社 | 文書検索装置及び文書検索プログラムを記録した記憶媒体 |
JP3134817B2 (ja) * | 1997-07-11 | 2001-02-13 | 日本電気株式会社 | 音声符号化復号装置 |
JPH11154164A (ja) | 1997-11-21 | 1999-06-08 | Hitachi Ltd | 全文検索処理における適合度算出方法および該方法に係るプログラムを格納した記憶媒体 |
JP2001014575A (ja) | 1999-06-29 | 2001-01-19 | Mitsubishi Electric Corp | 車載異常通報装置 |
JP4073586B2 (ja) | 1999-09-02 | 2008-04-09 | 株式会社エヌ・ティ・ティ・データ | 検索システム、検索条件受付方法及び記録媒体 |
JP2001101194A (ja) | 1999-09-27 | 2001-04-13 | Mitsubishi Electric Corp | テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラムが記録された記録媒体 |
KR100645614B1 (ko) | 2005-07-15 | 2006-11-14 | (주)첫눈 | 정보 가치 측정결과를 반영한 검색 방법 및 검색 장치 |
JP4314221B2 (ja) | 2005-07-28 | 2009-08-12 | 株式会社東芝 | 構造化文書記憶装置、構造化文書検索装置、構造化文書システム、方法およびプログラム |
JP4172801B2 (ja) | 2005-12-02 | 2008-10-29 | インターナショナル・ビジネス・マシーンズ・コーポレーション | テキストからキーワードを検索する効率的なシステム、および、その方法 |
JP2008243074A (ja) | 2007-03-28 | 2008-10-09 | Toshiba Corp | 文書検索装置、方法及びプログラム |
JP2009043125A (ja) | 2007-08-10 | 2009-02-26 | Kddi Corp | ユーザ分類装置、広告配信装置、ユーザ分類方法、広告配信方法およびプログラム |
JP2009193219A (ja) | 2008-02-13 | 2009-08-27 | Nippon Telegr & Teleph Corp <Ntt> | インデックス作成装置、その方法、プログラム及び記録媒体 |
US9384175B2 (en) | 2008-02-19 | 2016-07-05 | Adobe Systems Incorporated | Determination of differences between electronic documents |
JP5333815B2 (ja) | 2008-02-19 | 2013-11-06 | 株式会社日立製作所 | k最近傍検索方法、k最近傍検索プログラム及びk最近傍検索装置 |
JP5038939B2 (ja) | 2008-03-03 | 2012-10-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 情報検索システム、方法及びプログラム |
US9405831B2 (en) | 2008-04-16 | 2016-08-02 | Gary Stephen Shuster | Avoiding masked web page content indexing errors for search engines |
JP5169456B2 (ja) * | 2008-05-09 | 2013-03-27 | 日本電気株式会社 | 文書検索システム、文書検索方法および文書検索プログラム |
JP2010198425A (ja) * | 2009-02-26 | 2010-09-09 | Hitachi Ltd | 文書管理方法、装置 |
US8560530B2 (en) | 2010-05-17 | 2013-10-15 | Buzzmetrics, Ltd. | Methods, apparatus, and articles of manufacture to rank web site influence |
US9069754B2 (en) | 2010-09-29 | 2015-06-30 | Rhonda Enterprises, Llc | Method, system, and computer readable medium for detecting related subgroups of text in an electronic document |
US20120143683A1 (en) | 2010-12-06 | 2012-06-07 | Fantab Corporation | Real-Time Sentiment Index |
US9922333B2 (en) | 2012-03-09 | 2018-03-20 | Exponential Interactive, Inc. | Automated multivariate behavioral prediction |
-
2012
- 2012-08-10 JP JP2012178600A patent/JP5921379B2/ja active Active
-
2013
- 2013-08-08 US US13/962,402 patent/US9471548B2/en not_active Expired - Fee Related
- 2013-08-09 CN CN201310347285.1A patent/CN103577532B/zh active Active
- 2013-09-09 US US14/021,458 patent/US9652526B2/en not_active Expired - Fee Related
-
2016
- 2016-08-22 US US15/243,299 patent/US10353932B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014035760A (ja) | 2014-02-24 |
US10353932B2 (en) | 2019-07-16 |
CN103577532A (zh) | 2014-02-12 |
US20160357852A1 (en) | 2016-12-08 |
CN103577532B (zh) | 2016-12-28 |
US20140046953A1 (en) | 2014-02-13 |
US20140046654A1 (en) | 2014-02-13 |
US9652526B2 (en) | 2017-05-16 |
US9471548B2 (en) | 2016-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230177579A1 (en) | System and method for computing features that apply to infrequent queries | |
US20120078587A1 (en) | Designing A Modeled Object Within A Session Of A Computer-Aided Design System Interacting With A Database | |
WO2012039864A1 (en) | Visual-cue refinement of user query results | |
TW201140349A (en) | Compensating for unbalanced hierarchies when generating OLAP queries from report specifications | |
WO2013063740A1 (en) | Selecting images based on textual description | |
Zakeri et al. | Protein fold recognition using geometric kernel data fusion | |
JP5921379B2 (ja) | テキスト処理方法、システム及びコンピュータ・プログラム。 | |
US10198497B2 (en) | Search term clustering | |
JP2004192398A (ja) | 情報処理装置および情報処理方法、並びに情報処理プログラム | |
US10296626B2 (en) | Graph | |
JP2021500639A (ja) | 多段階パターン発見およびビジュアル分析推奨のための予測エンジン | |
US20170109402A1 (en) | Automated join detection | |
Sun et al. | A scalable and flexible basket analysis system for big transaction data in Spark | |
US8479143B1 (en) | Signature based duplicate extraction | |
Yang et al. | Integrating PPI datasets with the PPI data from biomedical literature for protein complex detection | |
US20150170067A1 (en) | Determining analysis recommendations based on data analysis context | |
CN113297226B (zh) | 数据存储方法、数据读取方法、装置、电子设备及介质 | |
KR101765292B1 (ko) | 목적 기반의 데이터 분석도구 제공 장치 및 방법 | |
US9471848B2 (en) | Classifying objects displayed on a device | |
WO2020235020A1 (ja) | マッピング支援装置、マッピング支援方法、及びプログラム | |
US11797580B2 (en) | Connection nature between nodes in graph structure | |
US20170124177A1 (en) | Method and system for locating underlying patterns in datasets using hierarchically structured categorical clustering | |
US10956449B2 (en) | OLAP engine workload distribution using cost based algorithms | |
WO2022264385A1 (ja) | 検索方法、検索プログラムおよび情報処理装置 | |
JP2017097451A (ja) | 情報処理方法、情報処理プログラムおよび情報処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141224 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151201 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160322 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160412 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5921379 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |