JP2019204221A - 検索ワードサジェスト装置、固有表現情報の作成方法、および、固有表現情報の作成プログラム - Google Patents
検索ワードサジェスト装置、固有表現情報の作成方法、および、固有表現情報の作成プログラム Download PDFInfo
- Publication number
- JP2019204221A JP2019204221A JP2018098019A JP2018098019A JP2019204221A JP 2019204221 A JP2019204221 A JP 2019204221A JP 2018098019 A JP2018098019 A JP 2018098019A JP 2018098019 A JP2018098019 A JP 2018098019A JP 2019204221 A JP2019204221 A JP 2019204221A
- Authority
- JP
- Japan
- Prior art keywords
- word
- abstract
- extracted
- specific expression
- column
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3322—Query formulation using system suggestions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
[概要]
第1の実施形態の検索ワードサジェスト装置は、データ検索に用いる検索ワードの候補として、ユーザから入力された検索ワードをより具体的に表現した語(固有表現)を付与した語を、サジェストする。これによりユーザが調べたい内容を具体的に表現した語を思いつくことができなかった場合でも、ユーザが調べたい内容に行き着くまでの時間を短縮できる。
次に、図2を用いて検索ワードサジェスト装置10の構成を説明する。検索ワードサジェスト装置10は、入出力部(入力部および出力部)11と、記憶部12と、制御部13とを備える。入出力部11は、検索ワードサジェスト装置10の入出力インタフェースを司る。この入出力部11は、例えば、ユーザから検索ワードの入力を受け付けたり、検索ワードのサジェスト結果(検索ワードの候補)を出力したりする。
次に、検索ワードサジェスト装置10の処理手順を説明する。まず、図3を用いて、検索ワードサジェスト装置10が抽象語‐固有表現データを作成する手順の例を説明し、次に、図4を用いて、検索ワードサジェスト装置10が、抽象語‐固有表現データを用いて検索ワードのサジェストを行う手順の例を説明する。なお、検索ワードサジェスト装置10は、表データ(表)の内容の主項目を示す列として、表の最左の列を抽出する場合を例に説明する。
次に、本発明の第2の実施形態を説明する。第1の実施形態と同じ構成については同じ符号を用いて説明を省略する。第2の実施形態の検索ワードサジェスト装置10の列抽出部131は、表データ(表)の内容の主項目を示す列として、当該表から、当該表のタイトルの文字列を含む語が最上位に配置される列を抽出する。
次に、図6を用いて、第2の検索ワードサジェスト装置10が抽象語‐固有表現データを作成する手順の例を説明する。まず、検索ワードサジェスト装置10の列抽出部131は、記憶部12からタイトルが付されている表データを取得する(S21)。その後、列抽出部131は、当該表データのタイトルに含まれる文字列を含む語が最上位に配置される列を抽出する(S22)。その後の、S23〜S25の処理は、図4のS2〜S4の処理と同様なので説明を省略する。
また、上記の実施形態で述べた検索ワードサジェスト装置10の機能を実現するプログラムを所望の情報処理装置(コンピュータ)にインストールすることによって実装できる。例えば、パッケージソフトウェアやオンラインソフトウェアとして提供される上記のプログラムを情報処理装置に実行させることにより、情報処理装置を検索ワードサジェスト装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等がその範疇に含まれる。また、検索ワードサジェスト装置10を、クラウドサーバに実装してもよい。
11 入出力部
12 記憶部
13 制御部
131 列抽出部
132 固有表現抽出部
133 データ作成部
134 サジェスト部
Claims (6)
- 文書内の表データから、前記表データの最左の列を抽出する列抽出部と、
前記抽出した列を構成する語のうち、最上位に配置される語を抽象語として抽出し、前記最上位の語の下位に配置される語を、前記抽出した抽象語に対する固有表現として抽出する固有表現抽出部と、
前記抽出した抽象語および前記抽象語の固有表現を対応付けた固有表現情報を作成する情報作成部と
を備えることを特徴とする検索ワードサジェスト装置。 - 前記列抽出部は、
前記表データの最左の列が項番を示す列である場合、前記項番を示す列の右側に隣接する列を抽出することを特徴とする請求項1に記載の検索ワードサジェスト装置。 - 文書内の表データのうち、タイトルが付されている表データから、前記表データのタイトルの文字列を含む語が最上位に配置される列を抽出する列抽出部と、
前記抽出した列を構成する語のうち、最上位に配置される語を抽象語として抽出し、前記最上位の語の下位に配置される語を、前記抽出した抽象語に対する固有表現として抽出する固有表現抽出部と、
前記抽出した抽象語および前記抽象語の固有表現を対応付けた固有表現情報を作成する情報作成部と
を備えることを特徴とする検索ワードサジェスト装置。 - 前記固有表現情報に含まれる抽象語が検索ワードとして入力された場合、前記検索ワードの候補として、前記固有表現情報を参照して、前記入力された検索ワードに対する固有表現を読み出し、前記読み出した固有表現を前記検索ワードに付与してサジェストするサジェスト部
をさらに備えることを特徴とする請求項1〜3のいずれか1項に記載の検索ワードサジェスト装置。 - 検索ワードサジェスト装置により実行される固有表現情報の作成方法であって、
文書内の表データから、前記表データの最左の列を抽出するステップと、
前記抽出した列を構成する語のうち、最上位に配置される語を抽象語として抽出し、前記最上位の語の下位に配置される語を、前記抽出した抽象語に対する固有表現として抽出するステップと、
前記抽出した抽象語および前記抽象語の固有表現を対応付けた固有表現情報を作成するステップと
を含んだことを特徴とする固有表現情報の作成方法。 - 文書内の表データから、前記表データの最左の列を抽出するステップと、
前記抽出した列を構成する語のうち、最上位に配置される語を抽象語として抽出し、前記最上位の語の下位に配置される語を、前記抽出した抽象語に対する固有表現として抽出するステップと、
前記抽出した抽象語および前記抽象語の固有表現を対応付けた固有表現情報を作成するステップと
をコンピュータに実行させることを特徴とする固有表現情報の作成プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018098019A JP6805206B2 (ja) | 2018-05-22 | 2018-05-22 | 検索ワードサジェスト装置、表現情報の作成方法、および、表現情報の作成プログラム |
US17/052,338 US20210200796A1 (en) | 2018-05-22 | 2019-05-20 | Search word suggestion device, method for generating unique expression informaton, and program for generating unique expression information |
PCT/JP2019/019982 WO2019225560A1 (ja) | 2018-05-22 | 2019-05-20 | 検索ワードサジェスト装置、固有表現情報の作成方法、および、固有表現情報の作成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018098019A JP6805206B2 (ja) | 2018-05-22 | 2018-05-22 | 検索ワードサジェスト装置、表現情報の作成方法、および、表現情報の作成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019204221A true JP2019204221A (ja) | 2019-11-28 |
JP6805206B2 JP6805206B2 (ja) | 2020-12-23 |
Family
ID=68616728
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018098019A Active JP6805206B2 (ja) | 2018-05-22 | 2018-05-22 | 検索ワードサジェスト装置、表現情報の作成方法、および、表現情報の作成プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210200796A1 (ja) |
JP (1) | JP6805206B2 (ja) |
WO (1) | WO2019225560A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307198A (zh) * | 2020-11-24 | 2021-02-02 | 腾讯科技(深圳)有限公司 | 一种单文本的摘要确定方法和相关装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005309666A (ja) * | 2004-04-20 | 2005-11-04 | Konica Minolta Holdings Inc | 情報検索装置 |
JP2009289202A (ja) * | 2008-05-30 | 2009-12-10 | Toshiba Corp | キーワード入力支援装置、キーワード入力支援方法及びプログラム |
JP2010272006A (ja) * | 2009-05-22 | 2010-12-02 | Nec Corp | 関係抽出装置、関係抽出方法、及びプログラム |
JP2012083935A (ja) * | 2010-10-12 | 2012-04-26 | Ird:Kk | 特許検索装置、特許検索方法、およびプログラム |
WO2014188555A1 (ja) * | 2013-05-23 | 2014-11-27 | 株式会社日立製作所 | テキスト処理装置、及び、テキスト処理方法 |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6424980B1 (en) * | 1998-06-10 | 2002-07-23 | Nippon Telegraph And Telephone Corporation | Integrated retrieval scheme for retrieving semi-structured documents |
US6339795B1 (en) * | 1998-09-24 | 2002-01-15 | Egrabber, Inc. | Automatic transfer of address/schedule/program data between disparate data hosts |
US6721727B2 (en) * | 1999-12-02 | 2004-04-13 | International Business Machines Corporation | XML documents stored as column data |
US7017162B2 (en) * | 2001-07-10 | 2006-03-21 | Microsoft Corporation | Application program interface for network software platform |
US7640496B1 (en) * | 2003-10-31 | 2009-12-29 | Emc Corporation | Method and apparatus for generating report views |
US20080232219A1 (en) * | 2007-03-16 | 2008-09-25 | Sharma Yugal K | High throughput system for legacy media conversion |
US8285748B2 (en) * | 2008-05-28 | 2012-10-09 | Oracle International Corporation | Proactive information security management |
US8935266B2 (en) * | 2009-04-08 | 2015-01-13 | Jianqing Wu | Investigative identity data search algorithm |
US8548997B1 (en) * | 2009-04-08 | 2013-10-01 | Jianqing Wu | Discovery information management system |
US8073718B2 (en) * | 2009-05-29 | 2011-12-06 | Hyperquest, Inc. | Automation of auditing claims |
US8631004B2 (en) * | 2009-12-28 | 2014-01-14 | Yahoo! Inc. | Search suggestion clustering and presentation |
US8898798B2 (en) * | 2010-09-01 | 2014-11-25 | Apixio, Inc. | Systems and methods for medical information analysis with deidentification and reidentification |
US9461876B2 (en) * | 2012-08-29 | 2016-10-04 | Loci | System and method for fuzzy concept mapping, voting ontology crowd sourcing, and technology prediction |
JP5833998B2 (ja) * | 2012-11-21 | 2015-12-16 | 株式会社日立製作所 | 組立作業性評価計算装置、および組立作業性評価方法 |
JP6020161B2 (ja) * | 2012-12-28 | 2016-11-02 | 富士通株式会社 | グラフ作成プログラム、情報処理装置、およびグラフ作成方法 |
US10860557B2 (en) * | 2013-03-13 | 2020-12-08 | Salesforce.Com, Inc. | Systems, methods, and apparatuses for implementing change value indication and historical value comparison |
US11775136B2 (en) * | 2016-04-27 | 2023-10-03 | Coda Project, Inc. | Conditional formatting |
US10108600B2 (en) * | 2016-09-16 | 2018-10-23 | Entigenlogic Llc | System and method of attribute, entity, and action organization of a data corpora |
US11176463B2 (en) * | 2016-12-05 | 2021-11-16 | International Business Machines Corporation | Automating table-based groundtruth generation |
US11755997B2 (en) * | 2017-02-22 | 2023-09-12 | Anduin Transactions, Inc. | Compact presentation of automatically summarized information according to rule-based graphically represented information |
US10534825B2 (en) * | 2017-05-22 | 2020-01-14 | Microsoft Technology Licensing, Llc | Named entity-based document recommendations |
EP3462331B1 (en) * | 2017-09-29 | 2021-08-04 | Tata Consultancy Services Limited | Automated cognitive processing of source agnostic data |
US20190102620A1 (en) * | 2017-09-29 | 2019-04-04 | Rovi Guides, Inc. | Systems and methods for detecting semantics of columns from tabular data |
US20190213407A1 (en) * | 2018-01-11 | 2019-07-11 | Teqmine Analytics Oy | Automated Analysis System and Method for Analyzing at Least One of Scientific, Technological and Business Information |
-
2018
- 2018-05-22 JP JP2018098019A patent/JP6805206B2/ja active Active
-
2019
- 2019-05-20 WO PCT/JP2019/019982 patent/WO2019225560A1/ja active Application Filing
- 2019-05-20 US US17/052,338 patent/US20210200796A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005309666A (ja) * | 2004-04-20 | 2005-11-04 | Konica Minolta Holdings Inc | 情報検索装置 |
JP2009289202A (ja) * | 2008-05-30 | 2009-12-10 | Toshiba Corp | キーワード入力支援装置、キーワード入力支援方法及びプログラム |
JP2010272006A (ja) * | 2009-05-22 | 2010-12-02 | Nec Corp | 関係抽出装置、関係抽出方法、及びプログラム |
JP2012083935A (ja) * | 2010-10-12 | 2012-04-26 | Ird:Kk | 特許検索装置、特許検索方法、およびプログラム |
WO2014188555A1 (ja) * | 2013-05-23 | 2014-11-27 | 株式会社日立製作所 | テキスト処理装置、及び、テキスト処理方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307198A (zh) * | 2020-11-24 | 2021-02-02 | 腾讯科技(深圳)有限公司 | 一种单文本的摘要确定方法和相关装置 |
CN112307198B (zh) * | 2020-11-24 | 2024-03-12 | 腾讯科技(深圳)有限公司 | 一种单文本的摘要确定方法和相关装置 |
Also Published As
Publication number | Publication date |
---|---|
JP6805206B2 (ja) | 2020-12-23 |
WO2019225560A1 (ja) | 2019-11-28 |
US20210200796A1 (en) | 2021-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8935148B2 (en) | Computer-assisted natural language translation | |
US9262403B2 (en) | Dynamic generation of auto-suggest dictionary for natural language translation | |
US9824085B2 (en) | Personal language model for input method editor | |
US9965569B2 (en) | Truncated autosuggest on a touchscreen computing device | |
US9977766B2 (en) | Keyboard input corresponding to multiple languages | |
US10366142B2 (en) | Identifier based glyph search | |
van Esch et al. | Writing across the world's languages: Deep internationalization for Gboard, the Google keyboard | |
JP6705352B2 (ja) | 言語処理装置、言語処理方法、及び言語処理プログラム | |
WO2019225560A1 (ja) | 検索ワードサジェスト装置、固有表現情報の作成方法、および、固有表現情報の作成プログラム | |
US20180011925A1 (en) | Displaying conversion candidates associated with input character string | |
WO2012015021A1 (en) | Stroke and structure input method and system | |
US20150186363A1 (en) | Search-Powered Language Usage Checks | |
JP5931015B2 (ja) | 情報処理装置、システム、サーバ装置、端末及び情報処理方法 | |
JP6897168B2 (ja) | 情報処理装置及び情報処理プログラム | |
US10546061B2 (en) | Predicting terms by using model chunks | |
JP6076285B2 (ja) | 翻訳装置、翻訳方法及び翻訳プログラム | |
JP7295463B2 (ja) | 業務フロー作成支援装置、業務フロー作成支援方法、および、業務フロー作成支援プログラム | |
US20140365405A1 (en) | Context Aware Information Prediction | |
JP2017097451A (ja) | 情報処理方法、情報処理プログラムおよび情報処理装置 | |
JP6447068B2 (ja) | 情報処理装置、情報表示方法及びプログラム | |
JP2023039822A (ja) | 情報処理装置、情報処理方法、及び情報処理プログラム | |
JP2022177381A (ja) | 文書処理プログラム | |
KR20240053713A (ko) | 다수 개의 언어를 신속하게 번역하는 방법, 장치 및 시스템 | |
KR20240053711A (ko) | 다국어 번역 방법, 장치 및 시스템 | |
KR20240053714A (ko) | 스마트 번역 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200820 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200929 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201113 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201201 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201203 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6805206 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |