JP6916437B2 - Information processing device, its control method, and program - Google Patents

Information processing device, its control method, and program Download PDF

Info

Publication number
JP6916437B2
JP6916437B2 JP2017089575A JP2017089575A JP6916437B2 JP 6916437 B2 JP6916437 B2 JP 6916437B2 JP 2017089575 A JP2017089575 A JP 2017089575A JP 2017089575 A JP2017089575 A JP 2017089575A JP 6916437 B2 JP6916437 B2 JP 6916437B2
Authority
JP
Japan
Prior art keywords
character string
document data
information processing
search condition
acquired
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017089575A
Other languages
Japanese (ja)
Other versions
JP2018190030A (en
JP2018190030A5 (en
Inventor
下郡山 敬己
敬己 下郡山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Marketing Japan Inc
Canon IT Solutions Inc
Original Assignee
Canon Marketing Japan Inc
Canon IT Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Marketing Japan Inc, Canon IT Solutions Inc filed Critical Canon Marketing Japan Inc
Priority to JP2017089575A priority Critical patent/JP6916437B2/en
Publication of JP2018190030A publication Critical patent/JP2018190030A/en
Publication of JP2018190030A5 publication Critical patent/JP2018190030A5/en
Application granted granted Critical
Publication of JP6916437B2 publication Critical patent/JP6916437B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、検索条件に含まれる誤りのある文字列に対し、修正する文字列を選定することのできる情報処理装置、その制御方法、及びプログラム技術に関する。 The present invention relates to an information processing device capable of selecting a character string to be corrected with respect to an erroneous character string included in a search condition , a control method thereof, and a programming technique.

近年、企業においても家庭においても、パーソナルコンピュータが普及し、またインターネットが身近なものになったこともあって、キーボードから文字列を入力する機会が多くなっている。 In recent years, personal computers have become widespread in both companies and homes, and the Internet has become familiar, so there are many opportunities to enter character strings from the keyboard.

しかしながら、キーボードを使いこなすにはかなりの熟練が必要であり、また熟練した人であっても誤った入力(スペリングミス)をすることは多い。 However, it takes a lot of skill to master the keyboard, and even a skilled person often makes an erroneous input (spelling mistake).

また、近年は音声認識により、キーボードを使わず人の声をコンピュータのソフトウェアが文字列に変換する技術も広く使われるようになってきた。しかしながら、音声認識に関しても精度は100%ではないため、スペリングミスが発生する。そして、スペリングミスに効率的に対処するため、様々な技術が開発されている。
特許文献1においては、あらかじめ電子的に記憶された辞書を用意し、音声認識で受け付けた文字列のうち、誤認識されている部分を特定し、さらに辞書の中から誤認識した文字列に対して、訂正候補の文字列および誤認識した文字列と訂正候補の文字列の類似度を計算する技術が記載されている。
Also, in recent years, with voice recognition, a technology for converting a human voice into a character string by computer software without using a keyboard has become widely used. However, since the accuracy of voice recognition is not 100%, spelling mistakes occur. And various techniques have been developed to deal with spelling mistakes efficiently.
In Patent Document 1, an electronically stored dictionary is prepared in advance, a misrecognized part of the character string received by voice recognition is specified, and further, the misrecognized character string from the dictionary is dealt with. The technique for calculating the similarity between the correction candidate character string and the erroneously recognized character string and the correction candidate character string is described.

また、特許文献2においては、検索システムにおいて、過去にユーザが入力したクエリ(文字列)をログとして格納し、新たにユーザが入力をした際に、前記クエリログに基づいて、スペリングチェックを行う技術が記載されている。 Further, in Patent Document 2, in a search system, a technique of storing a query (character string) input by a user in the past as a log and performing a spelling check based on the query log when a new user inputs a query (character string). Is described.

特開2012−063545号公報Japanese Unexamined Patent Publication No. 2012-063545 特開2005−267638号公報Japanese Unexamined Patent Publication No. 2005-267638

しかしながら、特許文献1においてはあらかじめ辞書を用意する必要がある。この辞書に含まれている単語は、汎用的でありどの分野にも適用可能に作らねばならない。その場合、辞書をあらかじめ用意する工数、また新しい単語を追加するなど辞書を更新する保守の工数が必要である。またユーザが新たに入力する文字列が特定の分野であったとしても、汎用的に用意された辞書から訂正候補の文字列を探すため、訂正候補が大量に存在し、文字列間の類似度の計算が高い精度で算出されたとしても、無関係な候補を高い優先順位でユーザに提示することになるという問題がある。 However, in Patent Document 1, it is necessary to prepare a dictionary in advance. The words contained in this dictionary must be generic and applicable to all disciplines. In that case, man-hours for preparing the dictionary in advance and maintenance man-hours for updating the dictionary such as adding new words are required. In addition, even if the character string newly input by the user is in a specific field, there are a large number of correction candidates in order to search for the character string of the correction candidate from the dictionary prepared for general purposes, and the similarity between the character strings is high. Even if the calculation of is calculated with high accuracy, there is a problem that irrelevant candidates are presented to the user with high priority.

また、特許文献2においては、特定のユーザのクエリログを記憶してスペリングチェックに使用しているものの、ユーザが特定のクエリだけを頻繁に使用する場合であればともかく、汎用的に使用している場合には、それだけ多くのスペリングチェック用のログを収集するには長期間を要し、またその汎用性があるため、特許文献1と同様に無関係な候補を高い優先順位でユーザに提示することになるという問題がある。 Further, in Patent Document 2, although the query log of a specific user is stored and used for spelling check, it is used for general purposes regardless of the case where the user frequently uses only a specific query. In some cases, it takes a long time to collect so many logs for spelling check, and because of its versatility, irrelevant candidates should be presented to the user with high priority as in Patent Document 1. There is a problem of becoming.

本発明の目的は、検索条件に含まれる誤りのある文字列に対し、修正する文字列を選定することが可能な技術を提供することである。
An object of the present invention is to provide a technique capable of selecting a character string to be corrected for an erroneous character string included in a search condition.

上記の目的を達成するために、本発明は、複数の文書データから、文字列を含む検索条件に対して検索された文書データを取得する情報処理装置であって、前記検索条件において、誤りのある文字列を特定する特定手段と、前記検索条件に対して取得された文書データに含まれる文字列と前記特定された誤りのある文字列とに基づき、前記誤りのある文字列を修正する文字列を前記取得された文書データに含まれる文字列から選定する選定手段とを備え、前記選定手段は、前記取得された文書データにおける、前記文書データに含まれる文字列と前記検索条件に含まれる文字列との共起に係る値に基づいて前記修正する文字列を選定することを特徴とする。
In order to achieve the above object, the present invention is an information processing apparatus that acquires document data searched for a search condition including a character string from a plurality of document data, and an error is found in the search condition. A character that corrects the erroneous character string based on a specific means for identifying a certain character string, a character string included in the document data acquired for the search condition, and the specified erroneous character string. A selection means for selecting a column from a character string included in the acquired document data is provided, and the selection means is included in the character string included in the document data and the search condition in the acquired document data. It is characterized in that the character string to be corrected is selected based on the value related to the co-occurrence with the character string .

本発明によれば、検索条件に含まれる誤りのある文字列に対し、修正する文字列を選定することが可能となる。
According to the present invention, it is possible to select a character string to be corrected for an erroneous character string included in the search condition.

本発明の実施形態に係る機能構成の一例を示す図である。It is a figure which shows an example of the functional structure which concerns on embodiment of this invention. 本発明の実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。It is a block diagram which shows an example of the hardware composition of the information processing apparatus which concerns on embodiment of this invention. 本発明の実施形態に係る検索処理のフローチャートの一例を示す図である。It is a figure which shows an example of the flowchart of the search process which concerns on embodiment of this invention. 本発明の実施形態に係るスペリングチェックの処理のフローチャートの一例を示す図である。It is a figure which shows an example of the flowchart of the processing of the spelling check which concerns on embodiment of this invention. 本発明の実施形態に係る検索対象となる文書の一例を示す図である。It is a figure which shows an example of the document to be searched which concerns on embodiment of this invention. 本発明の実施形態に係る抽出語記憶部と、検索条件に含まれる語と抽出語の共起関係の情報に関する記憶部の一例を説明するための図である。It is a figure for demonstrating an example of the extracted word storage part which concerns on embodiment of this invention, and the storage part about the information of the co-occurrence relationship between a word included in a search condition and an extracted word. 本発明の実施形態に係る単語辞書記憶部のうち、スペリングミスに関連する候補単語リストの一例を示すための図である。It is a figure for showing an example of the candidate word list related to a spelling mistake in the word dictionary storage part which concerns on embodiment of this invention. 本発明の実施形態に係る修正候補記憶部の一例を説明するための図である。It is a figure for demonstrating an example of the modification candidate storage part which concerns on embodiment of this invention.

以下、本発明の実施の形態を、図面を参照して詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

図1は、本発明の実施形態に係る機能構成の一例を示す図である。 FIG. 1 is a diagram showing an example of a functional configuration according to an embodiment of the present invention.

入力文字列受付部101は、テキスト文書(文書データに相当する)を検索するための検索条件となる入力文字列を受け付ける。本実施形態では、文書データの例をテキスト文書としているが、文書が含まれていればテキスト文書に限定されず、PDFファイルなどの文書データでもよい。当該入力文字列は、本発明における情報処理装置がクライアント装置として機能するコンピュータである場合には、当該コンピュータを使用するユーザから直接入力を受け付ける機能部であってもよい。また、当該コンピュータで動作する他のアプリケーションプログラムなどから受け付ける機能部であってもよい。また、本実施形態における情報処理装置がネットワーク上におけるサーバである場合には、他の情報処理装置から当該ネットワークを介して通信情報を受け付ける機能部であってもよい。
文書検索部102は、前述の手順で取得された入力文字列に基づき、文書記憶部121に格納されたテキスト文書を検索する。検索は、テキスト文書自体ではなく、テキスト文書から予め生成された索引に対して実行するものであってもよい。テキスト文書の検索および索引を生成することに関する技術は、周知の技術であるため詳細は割愛する。
The input character string receiving unit 101 receives an input character string that is a search condition for searching a text document (corresponding to document data). In the present embodiment, the example of the document data is a text document, but the document data is not limited to the text document as long as the document is included, and the document data such as a PDF file may be used. When the information processing device in the present invention is a computer that functions as a client device, the input character string may be a functional unit that directly receives input from a user who uses the computer. Further, it may be a functional unit that receives from another application program or the like running on the computer. When the information processing device in the present embodiment is a server on a network, it may be a functional unit that receives communication information from another information processing device via the network.
The document search unit 102 searches for a text document stored in the document storage unit 121 based on the input character string acquired in the above procedure. The search may be performed on a pre-generated index from the text document rather than on the text document itself. The technique for searching and indexing text documents is a well-known technique, so details are omitted.

単語抽出部103は、文書検索部102で検索した結果であるテキスト文書から、当該テキスト文書に含まれる文字列を解析し、単語を抽出する。 The word extraction unit 103 analyzes a character string included in the text document from the text document that is the result of the search by the document search unit 102, and extracts a word.

辞書検索部104は、あらかじめ用意された単語の情報(修正データに相当する)を記憶して管理する単語辞書記憶部122(管理手段に相当する)から、入力文字列受付部101で受け付けた入力文字列の一部(部分文字列)、すなわち入力文字列を解析して単語(スペリングミスを含んでいてもよい)に基づき、単語を検索する。ただし、検索する単語の文字列が正しいか正しくないかがあらかじめ分かっていないため、文字列として完全に一致する単語のみを検索するものではなく、スペリングミスがあることも考慮した上で、類似であると判定される文字列を検索するものである。スペルチェックのための辞書検索については周知の技術であるため詳細は割愛する。 The dictionary search unit 104 receives input received by the input character string reception unit 101 from the word dictionary storage unit 122 (corresponding to the management means) that stores and manages word information (corresponding to correction data) prepared in advance. A part of a character string (substring), that is, an input character string is analyzed to search for a word based on a word (which may contain spelling mistakes). However, since it is not known in advance whether the character string of the word to be searched is correct or incorrect, it is not only the word that exactly matches the character string, but it is similar considering that there is a spelling error. It searches for a character string that is determined to be. Since dictionary search for spell checking is a well-known technique, details are omitted.

類似度判定部105は、単語抽出部103で抽出された単語、あるいは辞書検索部104で検索された単語が、入力文字列の部分文字列で、単語(スペリングミスを含んでいる可能性がある文字列)とどの程度類似しているか判定する。結果は数値として算出される。 In the similarity determination unit 105, the word extracted by the word extraction unit 103 or the word searched by the dictionary search unit 104 is a substring of the input character string, and there is a possibility that the word (including a spelling error). Determine how similar it is to a character string). The result is calculated numerically.

修正候補格納部106は、前述において入力文字列の部分文字列である単語に類似していると思われる単語を、その類似度とともに一時的に記憶部に記憶させる。当該修正候補を、修正候補提示部107により、ユーザあるいは本発明のシステムを利用するアプリケーションに提示し、ユーザまたはアプリケーションの選択結果を、修正結果受付部108が受け付けて、入力文字列から得られた単語を修正する。修正された結果が改めて検索条件となり、文書検索部102で文書記憶部121を再検索する。 The correction candidate storage unit 106 temporarily stores a word that seems to be similar to a word that is a substring of the input character string in the storage unit together with the degree of similarity. The modification candidate is presented to the user or an application using the system of the present invention by the modification candidate presentation unit 107, and the selection result of the user or the application is received by the modification result reception unit 108 and obtained from the input character string. Correct the word. The corrected result becomes a search condition again, and the document search unit 102 searches the document storage unit 121 again.

図2は、本発明の情報処理システムに含まれる情報処理装置(情報処理サーバに相当する)のハードウェア構成の一例を示すブロック図である。 FIG. 2 is a block diagram showing an example of a hardware configuration of an information processing device (corresponding to an information processing server) included in the information processing system of the present invention.

図2に示すように、情報処理装置100、アプリケーションサーバ140は、システムバス204を介してCPU(Central Processing Unit)201、RAM(Random Access Memory)202、ROM(Read Only Memory)203、入力コントローラ205、ビデオコントローラ206、メモリコントローラ207、通信I/Fコントローラ208等が接続された構成を採る。 CPU201は、システムバス204に接続される各デバイスやコントローラを統括的に制御する。 As shown in FIG. 2, the information processing device 100 and the application server 140 have a CPU (Central Processing Unit) 201, a RAM (Random Access Memory) 202, a ROM (Read Only Memory) 203, and an input controller 205 via the system bus 204. , Video controller 206, memory controller 207, communication I / F controller 208 and the like are connected. The CPU 201 comprehensively controls each device and controller connected to the system bus 204.

また、ROM203あるいは外部メモリ211には、CPU201の制御プログラムであるBIOS(Basic Input/Output System)やOS(Operating System)や、各サーバあるいは各PCが実行する機能を実現するために必要な後述する各種プログラム等が記憶されている。また、本発明を実施するために必要な情報が記憶されている。なお外部メモリはデータベースであってもよい。 Further, the ROM 203 or the external memory 211 will be described later, which is necessary for realizing the functions executed by the BIOS (Basic Input / Output System) and the OS (Operating System) which are the control programs of the CPU 201, and each server or each PC. Various programs etc. are stored. In addition, information necessary for carrying out the present invention is stored. The external memory may be a database.

RAM202は、CPU201の主メモリ、ワークエリア等として機能する。CPU201は、処理の実行に際して必要なプログラム等をROM203あるいは外部メモリ211からRAM202にロードし、ロードしたプログラムを実行することで各種動作を実現する。 The RAM 202 functions as a main memory, a work area, and the like of the CPU 201. The CPU 201 realizes various operations by loading a program or the like necessary for executing the process from the ROM 203 or the external memory 211 into the RAM 202 and executing the loaded program.

また、入力コントローラ205は、キーボード(KB)209や不図示のマウス等のポインティングデバイス等からの入力を制御する。 Further, the input controller 205 controls input from a pointing device such as a keyboard (KB) 209 or a mouse (not shown).

ビデオコントローラ206は、ディスプレイ210等の表示器への表示を制御する。尚、表示器は液晶ディスプレイ等の表示器でもよい。これらは、必要に応じて管理者が使用する。 The video controller 206 controls the display on a display such as the display 210. The display may be a display such as a liquid crystal display. These are used by the administrator as needed.

メモリコントローラ207は、ブートプログラム、各種のアプリケーション、フォントデータ、ユーザファイル、編集ファイル、各種データ等を記憶する外部記憶装置(ハードディスク(HD))や、フレキシブルディスク(FD)、あるいは、PCMCIA(Personal Computer Memory Card International Association)カードスロットにアダプタを介して接続されるコンパクトフラッシュ(登録商標)メモリ等の外部メモリ211(記憶手段に相当する)へのアクセスを制御する。 The memory controller 207 is an external storage device (hard disk (HD)) for storing boot programs, various applications, font data, user files, edit files, various data, etc., a flexible disk (FD), or a PCMCIA (Personal Computer). It controls access to an external memory 211 (corresponding to a storage means) such as a compact flash (registered trademark) memory connected to a Memory Card International Association card slot via an adapter.

通信I/Fコントローラ208は、ネットワークを介して外部機器と接続・通信し、ネットワークでの通信制御処理を実行する。例えば、TCP/IP(Transmission Control Protocol/Internet Protocol)を用いた通信等が可能である。 The communication I / F controller 208 connects and communicates with an external device via the network, and executes communication control processing on the network. For example, communication using TCP / IP (Transmission Control Protocol / Internet Protocol) is possible.

尚、CPU201は、例えばRAM202内の表示情報用領域へアウトラインフォントの展開(ラスタライズ)処理を実行することにより、ディスプレイ210上に表示することが可能である。また、CPU201は、ディスプレイ210上のマウスカーソル(図示しない)等によるユーザ指示を可能とする。 The CPU 201 can display the outline font on the display 210 by executing the outline font expansion (rasterization) process on the display information area in the RAM 202, for example. Further, the CPU 201 enables a user instruction by a mouse cursor (not shown) or the like on the display 210.

本発明を実現するための後述する各種プログラムは、外部メモリ211に記録されており、必要に応じてRAM202にロードされることによりCPU201によって実行されるものである。
図3は、本発明の実施形態に係る検索処理のフローチャートの一例を示す図である。図3のフローチャートの各ステップは、情報処理装置100上のCPU201で実行される。
Various programs described later for realizing the present invention are recorded in the external memory 211, and are executed by the CPU 201 by being loaded into the RAM 202 as needed.
FIG. 3 is a diagram showing an example of a flowchart of a search process according to an embodiment of the present invention. Each step of the flowchart of FIG. 3 is executed by the CPU 201 on the information processing apparatus 100.

ステップS301においては、入力文字列受付部101が、文書検索部102でテキスト文書を検索するための条件として、入力文字列を受け付ける(受付手段に相当する)。本発明の説明のための例として、“人工知能、機械学習、ビッグデー?”という文字列が受け付けられたとする。最後の“?”は、“ビッグデータ”という単語の入力においてスペリングミスをしたもの(修正文字列に相当する)で有り、修正対象である。例えば一文字分不足した“ビッグデー”であったり、誤った文字が入力され“ビッグデーラ”であったりするものとする。 In step S301, the input character string receiving unit 101 accepts the input character string as a condition for searching the text document in the document search unit 102 (corresponding to the receiving means). As an example for explaining the present invention, it is assumed that the character string "artificial intelligence, machine learning, big day?" Is accepted. The last "?" Is a spelling error (corresponding to a correction character string) in the input of the word "big data", and is a correction target. For example, it is assumed that one character is insufficient for "Big Day", or an incorrect character is input and it is "Big Day".

ステップS302においては、文書検索部102が、前述の入力文字列を検索条件として、文書記憶部121から条件に合致するテキスト文書の一覧を取得(検索)する(検索手段に相当する)。文書記憶部121の例を、図5を用いて説明する。 In step S302, the document search unit 102 acquires (searches) a list of text documents that match the conditions from the document storage unit 121 (corresponding to the search means) using the above-mentioned input character string as a search condition. An example of the document storage unit 121 will be described with reference to FIG.

図5において、501が1つの検索対象となるテキスト文書である。図5の例では、テキスト文書は501a〜501nまである。これらのテキスト文書501のうち、前述の検索条件“人工知能”、“機械学習”を含む文書が検索結果となるが、図5の例では、501a〜501dの4つである。検索条件と一致した単語にアンダーラインを引いている。例えば、テキスト文書501aでは、“人工知能”と“機械学習”の2つが一致している。 In FIG. 5, 501 is a text document to be searched. In the example of FIG. 5, the text documents are 501a to 501n. Among these text documents 501, the documents including the above-mentioned search conditions "artificial intelligence" and "machine learning" are the search results, but in the example of FIG. 5, there are four of 501a to 501d. Words that match the search criteria are underlined. For example, in the text document 501a, "artificial intelligence" and "machine learning" are the same.

“ビッグデータ”という単語も含まれているが、検索条件が“ビッグデー?”とスペリングミスしたものであるため一致したとは見なされない。 The word "big data" is also included, but it is not considered a match because the search criteria spelled "Big Day?".

ステップS303においては、単語抽出部103が、検索結果である前述のテキスト文書を解析し、当該テキスト文書のいずれかに含まれる単語を抽出する。 In step S303, the word extraction unit 103 analyzes the above-mentioned text document as a search result and extracts a word included in any of the text documents.

抽出された単語は、例えば図6の抽出単語記憶部311(“ビッグデータ”から“デジタル”までの縦の列)のように一覧として表される。ここで図6を説明する。 The extracted words are represented as a list, for example, in the extracted word storage unit 311 (vertical column from "big data" to "digital") in FIG. FIG. 6 will be described here.

図6は、前述の通り抽出単語記憶部311のリストと、文書毎に検索条件の単語を並べた部分(横の列の601)の2次元の表である。抽出単語記憶部311と各文書601が交差する重み付け欄602には、重み付けが記載されている。 FIG. 6 is a two-dimensional table of the list of the extracted word storage unit 311 and the portion (601 in the horizontal column) in which the words of the search condition are arranged for each document as described above. Weighting is described in the weighting column 602 where the extracted word storage unit 311 and each document 601 intersect.

例えば最も左上の欄では、テキスト文書501には“ビッグデータ”という単語が含まれているため、ビッグデータという抽出単語の一つ右の欄に“2”と記載されている。これは、検索条件の中の“人工知能”、“機械学習”の2つの単語が、テキスト文書に出現している、すなわち“ビッグデータ”は、検索条件に含まれる単語のうち2つの単語と共起している、ということを表している。 For example, in the upper left column, since the text document 501 contains the word "big data", "2" is described in the column to the right of the extracted word "big data". This is because two words "artificial intelligence" and "machine learning" appear in the text document in the search condition, that is, "big data" is two words among the words included in the search condition. It shows that they are co-occurring.

この重み付けはあくまで例である。例えば、検索システムにおいては、テキスト文書に現れる各単語に、通常“重み”を付与している。1つのテキスト文書に何度も現れる単語ほど重みが高い、一方、異なるテキスト文書に何度も現れる単語ほど重みが低い、などである。これらの重みを考慮して、図6の重み付け欄602の値を算出してもよい。 This weighting is just an example. For example, in a search system, each word that appears in a text document is usually given a "weight". Words that appear many times in one text document have a higher weight, while words that appear many times in different text documents have a lower weight, and so on. In consideration of these weights, the value of the weight column 602 in FIG. 6 may be calculated.

また、図6では各テキスト文書に出現する検索条件の単語は2つだけであるが、もっと多い場合、例えば単語A1,A2,B1,B2の4つがある場合、単語A1,A2は共起頻度が高いため、単語A1,A2と共起する抽出単語の重みも高くする、一方、単語B1,B2の共起頻度は低いため、単語B1,B2と共起する抽出単語の重みは低くする、などとしてもよい。従って重み付け欄602の値の算出方法は、任意であり設計事項である。本発明においては、任意の算出方法を含むものとする。 Further, in FIG. 6, only two words of the search condition appear in each text document, but when there are more words, for example, four words A1, A2, B1 and B2, the words A1 and A2 co-occurrence frequency. The weight of the extracted words co-occurring with the words A1 and A2 is also high, while the weight of the extracted words co-occurring with the words B1 and B2 is low because the frequency of co-occurrence of the words B1 and B2 is low. And so on. Therefore, the method of calculating the value in the weighting column 602 is arbitrary and is a design matter. In the present invention, any calculation method is included.

また、抽出単語記憶部311に“人工知能”、“機械学習”の2単語が含まれていないが、これは、後述の説明でスペリングミスがなかったものとして扱うためで有り、ステップ303の段階でその判定ができていない場合には、暫定的に抽出単語記憶部311に含んでいてもよい。 Further, the extracted word storage unit 311 does not include the two words "artificial intelligence" and "machine learning", but this is because it is treated as if there was no spelling error in the explanation described later, and the step 303. If the determination is not made in, the extracted word storage unit 311 may be provisionally included.

同様に、図6の抽出単語記憶部311には、“人工知能”、“機械学習”をのぞき、各テキスト文書に出現する全ての単語を記載しているが、本例での“ビッグデー?”のスペリングチェックのための候補にさえならない、という判定があらかじめできる文字列であれば、抽出単語記憶部311に必ずしも含まなくてもよい。 Similarly, in the extracted word storage unit 311 of FIG. 6, all the words appearing in each text document except for "artificial intelligence" and "machine learning" are described, but "Big day?" In this example. As long as it is a character string that can be determined in advance that it is not even a candidate for the spelling check, it does not necessarily have to be included in the extracted word storage unit 311.

フローチャートの説明に戻る。ステップS304においては、検索条件となる入力文字列に含まれる単語に対して、スペリングチェックを行う。スペリングチェックについては周知の技術である。ただし、本願発明の特徴に関わる部分を図4のフローチャートを用いて詳細に説明する。 Return to the explanation of the flowchart. In step S304, a spelling check is performed on the words included in the input character string that is the search condition. The spelling check is a well-known technique. However, a part related to the features of the present invention will be described in detail with reference to the flowchart of FIG.

ステップS401からステップS406は、検索条件の入力文字列から抽出された単語(スペリングミスがあるものも含む)の1つずつに着目しながら、繰り返し行われる処理である。 Steps S401 to S406 are processes that are repeated while paying attention to each word (including those with spelling mistakes) extracted from the input character string of the search condition.

ステップS402においては、着目中の単語と同じものが抽出単語記憶部311にあるか否かを判定する。例えば“ビッグデー?”があるか否かを判定する。文字列として一致するものがある場合(YES)には、ステップS406に進み、次の着目を次の単語に移行する。一致するものがない場合(NO)の場合には、ステップS403に進む。 In step S402, it is determined whether or not the same word as the word of interest is in the extracted word storage unit 311. For example, it is determined whether or not there is a "big day?" If there is a match as a character string (YES), the process proceeds to step S406, and the next focus shifts to the next word. If there is no match (NO), the process proceeds to step S403.

ステップS403においては、類似度判定部105が、抽出単語記憶部311に記憶された検索結果のテキスト文書に含まれる単語と、単語辞書記憶部122に含まれる単語の中から、着目中の単語と類似のものを選択し、類似度を算出する。類似度は、例えば2つの単語の文字列としての一致度に基づいて算出される。スペリングチェックおよび類似度算出の処理については、周知の技術であり詳細は割愛する。単語辞書記憶部の例として、図7を説明する。 In step S403, the similarity determination unit 105 selects the word of interest from the words included in the text document of the search result stored in the extracted word storage unit 311 and the words included in the word dictionary storage unit 122. Select similar ones and calculate the similarity. The degree of similarity is calculated based on, for example, the degree of matching of two words as a character string. The spelling check and similarity calculation processes are well-known techniques and details are omitted. FIG. 7 will be described as an example of the word dictionary storage unit.

図7においては、“ビッグデー?”と類似する見出しをもつ単語のみを表示しているが、実際には他の単語も登録されている。着目中の単語701に対して、類似する見出し(702)を持つ単語をリストアップした状態である。 In FIG. 7, only words having a heading similar to "Big day?" Are displayed, but other words are actually registered. This is a state in which words having a similar heading (702) are listed for the word 701 of interest.

また前述で、特許文献1のように辞書を用いることの問題点を記載したが、これは汎用的な辞書を用意する場合であり、例えば企業が特定の製品についての質問応答システムを開発するような場合に、その製品に関連する特有の技術用語のみを登録するのであれば、着目中の単語に誤って類似する単語も少なく、また保守の工数も少なく効果があるため、使用しても同様の問題を生じないようにすることが可能である。 In addition, the problem of using a dictionary as in Patent Document 1 has been described above, but this is a case of preparing a general-purpose dictionary, for example, a company may develop a question answering system for a specific product. In such a case, if only the technical terms related to the product are registered, there are few words that are mistakenly similar to the word of interest, and the maintenance man-hours are small, so it is effective even if it is used. It is possible to prevent the problem of.

さらに、類似していると判定された単語一覧の例を図8で説明する。図8は、修正候補記憶部312を説明したものである。ステップS403の結果は、修正候補記憶部312に格納しておく。 Further, an example of a list of words determined to be similar will be described with reference to FIG. FIG. 8 illustrates the correction candidate storage unit 312. The result of step S403 is stored in the correction candidate storage unit 312.

修正候補記憶部312には、スペリングミス候補801に対して、類似していると判定された単語の表記802と、その類似度803を格納する。さらに、単語辞書記憶部122から取得した修正候補は使用しない、ということをユーザやアプリケーションが判断できるように、出典804を格納してもよい。検索システムがデフォルトで判断せず、ユーザやアプリケーションに提示する際に、判断する根拠として、修正候補とともに出典804の情報を提示してもよい。 The correction candidate storage unit 312 stores the notation 802 of words determined to be similar to the spelling error candidate 801 and the degree of similarity 803 thereof. Further, the source 804 may be stored so that the user or the application can determine that the modification candidate acquired from the word dictionary storage unit 122 is not used. When the search system does not make a judgment by default and presents it to a user or an application, the information of the source 804 may be presented together with the correction candidate as a basis for the judgment.

ステップS404においては、抽出単語記憶部311および(必要なら)単語辞書記憶部122から、着目中の単語と類似の文字列を見つけることができたか否かを判定する。具体的には、類似度の閾値を設定しプログラムコードや設定ファイルなどの記憶部に記憶しておく。例えば、閾値として“0.5”を設定し、類似度がその値よりも低いものは、スペリングミスの修正候補ではないと判定してもよい。 In step S404, it is determined from the extracted word storage unit 311 and the word dictionary storage unit 122 (if necessary) whether or not a character string similar to the word of interest can be found. Specifically, a threshold value of similarity is set and stored in a storage unit such as a program code or a setting file. For example, if a threshold value of "0.5" is set and the similarity is lower than that value, it may be determined that the spelling error is not a correction candidate.

着目中の単語に類似するものがあると判定された場合(YES)には、ステップS405に進む。類似するものがないと判定された場合(NO)には、ステップS406に進み、次の着目を次の単語に移行する。 If it is determined that there is something similar to the word of interest (YES), the process proceeds to step S405. If it is determined that there is no similar thing (NO), the process proceeds to step S406, and the next focus shifts to the next word.

ステップS405においては、着目中の単語と類似しているとされた単語に対して、類似度を変更する。 In step S405, the degree of similarity is changed for words that are considered to be similar to the word of interest.

例をあげて説明する。既に、図6において、抽出単語と検索条件に含まれる単語の共起度(言語が同一の発話・文・文脈などの言語的環境において生起する回数を指す)算出すること(算出手段に相当する)により、重み付けをする表を説明した。例えば、類似度が0.8の“ビッグデータ”は、図6のテーブルから、3つのテキスト文書で合計4つの検索条件と共起しているから、類似度を4倍の“3.2”に修正、類似度が0.6の“ビットデータ”は、1つしか共起していないので、変わらず“0.6”などとしてもよい。この共起度の算出方法はあくまで例であり、任意の算出方法でよい。本発明では、それら任意の算出方法をも含むものとする。 An example will be given. Already, in FIG. 6, the degree of co-occurrence of the extracted word and the word included in the search condition (pointing to the number of times it occurs in a linguistic environment such as an utterance, a sentence, or a context in which the language is the same) is calculated (corresponding to the calculation means). ) Described the weighting table. For example, "big data" with a similarity of 0.8 co-occurs with a total of four search conditions in three text documents from the table in FIG. 6, so the similarity is quadrupled to "3.2". Since only one "bit data" having a similarity of 0.6 co-occurs, it may be changed to "0.6" or the like. This method of calculating the degree of co-occurrence is just an example, and any calculation method may be used. In the present invention, those arbitrary calculation methods are also included.

以上で、図4のフローチャートの説明を完了し、図3のフローチャートの説明に戻る。 This completes the description of the flowchart of FIG. 4, and returns to the description of the flowchart of FIG.

ステップS305においては、修正候補提示部107が、スペリングミスがあると判定された検索条件内の単語に対して、修正候補を提示する。例えば、図8の表記802のうち、出典804に“抽出”と記されているもののみ提示する、あるいは、類似度803が“0.7以上”のもののみを提示する、などの処理を行う。 In step S305, the correction candidate presentation unit 107 presents correction candidates for words in the search condition determined to have a spelling error. For example, out of the notation 802 in FIG. 8, only the ones described as “extracted” in the source 804 are presented, or only the ones having a similarity 803 of “0.7 or more” are presented. ..

提示された修正候補から、ユーザあるいは検索システムを呼び出したアプリケーションが、適切なものを1つ選択することで修正候補を特定する(特定手段に相当する)。例えば、“ビッグデータ”が選択されたとする。 From the presented modification candidates, the user or the application that called the search system identifies the modification candidate by selecting an appropriate one (corresponding to the identification means). For example, suppose "big data" is selected.

ステップS306においては、修正結果受付部108が、ユーザあるいはアプリケーションの選択結果を受け付け、入力文字列の中でスペリングミスがあった単語を選択された結果に置き換えて修正する(修正手段に相当する)。具体的には、“ビッグデー?”を“ビッグデータ”に置き換えて修正する。 In step S306, the correction result receiving unit 108 receives the selection result of the user or the application, replaces the word with the spelling error in the input character string with the selected result, and corrects it (corresponds to the correction means). .. Specifically, "Big Day?" Is replaced with "Big Data" to correct it.

ステップS307においては、文書検索部102が、置き換えられた検索条件で、再度、文書記憶部121を検索する(検索手段に相当する)。具体的には、“人工知能”、“機械学習”、“ビッグデータ”の3条件で再度検索する。この結果、テキスト文書501bは順位が下がり、501c、501dの結果の順位が上がる。 In step S307, the document search unit 102 searches the document storage unit 121 again with the replaced search conditions (corresponding to the search means). Specifically, the search is performed again under the three conditions of "artificial intelligence", "machine learning", and "big data". As a result, the text document 501b is ranked lower, and the results of 501c and 501d are ranked higher.

また、不図示ではあるが、3条件のうち“ビッグデータ”のみを含んでいるテキスト文書501は、ステップS302の検索ではヒットしないが、ステップS307の再検索ではヒットすることになる。 Further, although not shown, the text document 501 containing only "big data" out of the three conditions is not hit in the search in step S302, but is hit in the re-search in step S307.

ステップS308においては、順位が入れ替わった、あるいは1回目でヒットしなかったテキスト文書501の一覧が、ステップS306にて修正された検索条件に基づいて再検索されたステップS307の結果として、提示される。 In step S308, a list of text documents 501 whose ranks have been changed or which have not been hit in the first time is presented as a result of step S307 which is re-searched based on the search condition modified in step S306. ..

以上、ステップS305とステップS306で、スペリングミスのある単語に対する修正候補の中から、ユーザやアプリケーションにより正しいスペリングの単語が選択されるとの説明をした。ただし、これはあくまで例である。本発明の検索システムにおいて、最も類似度が高いものをデフォルトで選択しても構わない。 As described above, in steps S305 and S306, it has been explained that the correct spelling word is selected by the user or the application from the correction candidates for the word having the spelling error. However, this is just an example. In the search system of the present invention, the one with the highest degree of similarity may be selected by default.

例えば、ユーザに対して1回目の検索結果もスペリングチェックの結果も提示せずに再検索を実施し、ステップS308まで再検索の結果を提示すれば、ユーザからは、入力文字列の中にスペリングミスをした単語があるにもかかわらず、正しいスペリングで検索したように見せることが可能となる。以上で、図3のフローチャートの説明を完了する。 For example, if a re-search is performed without presenting the result of the first search or the result of the spelling check to the user and the result of the re-search is presented up to step S308, the user spells in the input character string. It makes it look like you've searched with the correct spelling, even though you've made a mistake. This completes the description of the flowchart of FIG.

なお、上述した各種データの構成及びその内容はこれに限定されるものではなく、用途や目的に応じて、様々な構成や内容で構成されることは言うまでもない。 It should be noted that the structure and contents of the various data described above are not limited to this, and it goes without saying that the structure and contents are various depending on the intended use and purpose.

本発明によれば、ユーザから受け付けた文字列に含まれる修正文字列に対し、適切に修正して、文書データを検索することが可能となる。 According to the present invention, it is possible to search the document data by appropriately modifying the modified character string included in the character string received from the user.

以上、いくつかの実施形態について示したが、本発明は、例えば、システム、装置、方法、コンピュータプログラムもしくは記録媒体等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。 Although some embodiments have been described above, the present invention can take an embodiment as, for example, a system, an apparatus, a method, a computer program, a recording medium, or the like, and specifically, a plurality of devices. It may be applied to a system composed of, or may be applied to a device composed of one device.

また、本発明におけるコンピュータプログラムは、図3〜図4に示すフローチャートの処理方法をコンピュータが実行可能なコンピュータプログラムであり、本発明の記憶媒体は図3〜図4の処理方法をコンピュータが実行可能なコンピュータプログラムが記憶されている。なお、本発明におけるコンピュータプログラムは図3〜図4の各装置の処理方法ごとのコンピュータプログラムであってもよい。 Further, the computer program in the present invention is a computer program in which a computer can execute the processing methods of the flowcharts shown in FIGS. 3 to 4, and the storage medium of the present invention can execute the processing methods in FIGS. 3 to 4. Computer programs are stored. The computer program in the present invention may be a computer program for each processing method of each device of FIGS. 3 to 4.

以上のように、前述した実施形態の機能を実現するコンピュータプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたコンピュータプログラムを読出し実行することによっても、本発明の目的が達成されることは言うまでもない。 As described above, a computer in which a recording medium on which a computer program that realizes the functions of the above-described embodiment is recorded is supplied to the system or device, and the computer (or CPU or MPU) of the system or device is stored in the recording medium. Needless to say, the object of the present invention can be achieved by reading and executing the program.

この場合、記録媒体から読み出されたコンピュータプログラム自体が本発明の新規な機能を実現することになり、そのコンピュータプログラムを記憶した記録媒体は本発明を構成することになる。 In this case, the computer program itself read from the recording medium realizes the novel function of the present invention, and the recording medium storing the computer program constitutes the present invention.

コンピュータプログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、DVD−ROM、磁気テープ、不揮発性のメモリカード、ROM、EEPROM、シリコンディスク、ソリッドステートドライブ等を用いることができる。 Recording media for supplying computer programs include, for example, flexible disks, hard disks, optical disks, magneto-optical disks, CD-ROMs, CD-Rs, DVD-ROMs, magnetic tapes, non-volatile memory cards, ROMs, EEPROMs, etc. Silicon disks, solid state drives, etc. can be used.

また、コンピュータが読み出したコンピュータプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのコンピュータプログラムの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。 Further, by executing the computer program read by the computer, not only the functions of the above-described embodiment are realized, but also the OS (operating system) or the like running on the computer is activated based on the instructions of the computer program. Needless to say, there are cases where a part or all of the actual processing is performed and the processing realizes the functions of the above-described embodiment.

さらに、記録媒体から読み出されたコンピュータプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのコンピュータプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。 Further, the computer program read from the recording medium is written to the memory provided in the function expansion board inserted in the computer or the function expansion unit connected to the computer, and then its function is based on the instruction of the computer program code. Needless to say, there are cases where a CPU or the like provided in the expansion board or the function expansion unit performs a part or all of the actual processing, and the functions of the above-described embodiment are realized by the processing.

また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。また、本発明は、システムあるいは装置にコンピュータプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのコンピュータプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。 Further, the present invention may be applied to a system composed of a plurality of devices or a device composed of one device. It goes without saying that the present invention can also be applied when it is achieved by supplying a computer program to a system or device. In this case, by reading a recording medium containing a computer program for achieving the present invention into the system or device, the system or device can enjoy the effects of the present invention.

さらに、本発明を達成するためのコンピュータプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。 Further, by downloading and reading a computer program for achieving the present invention from a server, database, or the like on the network by a communication program, the system or device can enjoy the effect of the present invention.

なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。 It should be noted that all the configurations in which each of the above-described embodiments and modifications thereof are combined are also included in the present invention.

100 情報処理装置
101 入力文字列受付部
102 文書検索部
103 単語抽出部
104 辞書検索部
105 類似度判定部
106 修正候補格納部
107 修正候補提示部
108 修正結果受付部
121 文書記憶部
122 単語辞書記憶部
311 抽出単語記憶部
312 修正候補記憶部
600 共起情報記憶部
100 Information processing device 101 Input character string reception unit 102 Document search unit 103 Word extraction unit 104 Dictionary search unit 105 Similarity judgment unit 106 Correction candidate storage unit 107 Correction candidate presentation unit 108 Correction result reception unit 121 Document storage unit 122 Word dictionary storage Part 311 Extracted word storage unit 312 Correction candidate storage unit 600 Co-occurrence information storage unit

Claims (8)

複数の文書データから、文字列を含む検索条件に対して検索された文書データを取得する情報処理装置であって、
前記検索条件において、誤りのある文字列を特定する特定手段と、
前記検索条件に対して取得された文書データに含まれる文字列と前記特定された誤りのある文字列とに基づき、前記誤りのある文字列を修正する文字列を前記取得された文書データに含まれる文字列から選定する選定手段と
を備え
前記選定手段は、前記取得された文書データにおける、前記文書データに含まれる文字列と前記検索条件に含まれる文字列との共起に係る値に基づいて前記修正する文字列を選定することを特徴とする情報処理装置。
An information processing device that acquires document data searched for search conditions including character strings from a plurality of document data.
In the above search conditions, a specific means for identifying an erroneous character string and
The acquired document data includes a character string that corrects the erroneous character string based on the character string included in the document data acquired for the search condition and the specified erroneous character string. and a selecting means for selecting from the character string,
The selection means selects the character string to be corrected based on the value related to the coexistence of the character string included in the document data and the character string included in the search condition in the acquired document data. An information processing device that features it.
前記選定された文字列を表示させるべく出力する出力手段を備えることを特徴とする請求項1に記載の情報処理装置。 The information processing apparatus according to claim 1, further comprising an output means for outputting the selected character string so as to display the selected character string. 前記選定された文字列から、前記誤りのある文字列を修正する文字列の指定を受け付ける受付手段を備えることを特徴とする請求項1または2に記載の情報処理装置。 The information processing apparatus according to claim 1 or 2, further comprising a receiving means for receiving a designation of a character string for correcting the erroneous character string from the selected character string. 前記修正する文字列により修正された文字列を含む検索条件に対して再検索された文書データを取得することを特徴とする請求項1〜3のいずれか1項に記載の情報処理装置。 The information processing apparatus according to any one of claims 1 to 3, wherein the document data re-searched for the search condition including the character string corrected by the character string to be corrected is acquired. 前記選定手段は、前記検索条件に対して取得された文書データに含まれる文字列と前記特定された誤りのある文字列との類似度に基づいて前記修正する文字列を選定することを特徴とする請求項1〜4のいずれか1項に記載の情報処理装置。 The selection means is characterized in that the character string to be corrected is selected based on the degree of similarity between the character string included in the document data acquired for the search condition and the character string having the specified error. The information processing apparatus according to any one of claims 1 to 4. 前記共起に係る値は、前記取得された文書データにおける前記文書データに含まれる文字列と前記検索条件に含まれる文字列との共起の頻度に基づく数であって、前記文書データに含まれる文字列の選定に係る重み係数であることを特徴とする請求項1〜5のいずれか1項に記載の情報処理装置。The value related to the co-occurrence is a number based on the frequency of co-occurrence between the character string included in the document data and the character string included in the search condition in the acquired document data, and is included in the document data. The information processing apparatus according to any one of claims 1 to 5, wherein the weighting coefficient is related to the selection of the character string to be used. 複数の文書データから、文字列を含む検索条件に対して検索された文書データを取得する情報処理装置の制御方法であって、
特定手段が、前記検索条件において、誤りのある文字列を特定する特定ステップと、
選定手段が、前記検索条件に対して取得された文書データに含まれる文字列と前記特定された誤りのある文字列とに基づき、前記誤りのある文字列を修正する文字列を前記取得された文書データに含まれる文字列から選定する選定ステップと
を備え
前記選定ステップでは、前記取得された文書データにおける、前記文書データに含まれる文字列と前記検索条件に含まれる文字列との共起に係る値に基づいて前記修正する文字列を選定することを特徴とする情報処理装置の制御方法。
It is a control method of an information processing device that acquires document data searched for a search condition including a character string from a plurality of document data.
A specific step in which the specific means identifies an erroneous character string in the search condition, and
The selection means has acquired the character string for correcting the erroneous character string based on the character string included in the document data acquired for the search condition and the specified erroneous character string. It has a selection step to select from the character strings included in the document data .
In the selection step, the character string to be corrected is selected based on the value related to the coexistence of the character string included in the document data and the character string included in the search condition in the acquired document data. A characteristic method of controlling an information processing device.
複数の文書データから、文字列を含む検索条件に対して検索された文書データを取得する情報処理装置で実行可能なプログラムであって、
前記情報処理装置を、
前記検索条件において、誤りのある文字列を特定する特定手段と、
前記検索条件に対して取得された文書データに含まれる文字列と前記特定された誤りのある文字列とに基づき、前記誤りのある文字列を修正する文字列を前記取得された文書データに含まれる文字列から選定する選定手段
として機能させ
前記選定手段は、前記取得された文書データにおける、前記文書データに含まれる文字列と前記検索条件に含まれる文字列との共起に係る値に基づいて前記修正する文字列を選定することを特徴とするプログラム。
A program that can be executed by an information processing device that acquires document data searched for search conditions including character strings from multiple document data.
The information processing device
In the above search conditions, a specific means for identifying an erroneous character string and
The acquired document data includes a character string that corrects the erroneous character string based on the character string included in the document data acquired for the search condition and the specified erroneous character string. to function as a selecting means for selecting from the character string,
The selection means selects the character string to be corrected based on the value related to the coexistence of the character string included in the document data and the character string included in the search condition in the acquired document data. Characterized program.
JP2017089575A 2017-04-28 2017-04-28 Information processing device, its control method, and program Active JP6916437B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017089575A JP6916437B2 (en) 2017-04-28 2017-04-28 Information processing device, its control method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017089575A JP6916437B2 (en) 2017-04-28 2017-04-28 Information processing device, its control method, and program

Publications (3)

Publication Number Publication Date
JP2018190030A JP2018190030A (en) 2018-11-29
JP2018190030A5 JP2018190030A5 (en) 2020-07-30
JP6916437B2 true JP6916437B2 (en) 2021-08-11

Family

ID=64479799

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017089575A Active JP6916437B2 (en) 2017-04-28 2017-04-28 Information processing device, its control method, and program

Country Status (1)

Country Link
JP (1) JP6916437B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102622577B1 (en) * 2018-12-27 2024-01-09 현대오토에버 주식회사 Apparatus for correcting address data and method thereof
JP7128229B2 (en) * 2020-05-14 2022-08-30 ヤフー株式会社 Information processing device, information processing method and program

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2897055A4 (en) * 2012-09-11 2016-04-06 Toshiba Kk Information processing device, information processing method, and program

Also Published As

Publication number Publication date
JP2018190030A (en) 2018-11-29

Similar Documents

Publication Publication Date Title
JP7028858B2 (en) Systems and methods for contextual search of electronic records
US20070055493A1 (en) String matching method and system and computer-readable recording medium storing the string matching method
US20170004121A1 (en) Machine-translation based corrections
JP2004062893A (en) System and method for automatic retrieval of example sentence based on weighted editing distance
US8438024B2 (en) Indexing method for quick search of voice recognition results
TW200842614A (en) Automatic disambiguation based on a reference resource
US20090083026A1 (en) Summarizing document with marked points
JP6767042B2 (en) Scenario passage classifier, scenario classifier, and computer programs for it
US8583415B2 (en) Phonetic search using normalized string
CN110377750B (en) Comment generation method, comment generation device, comment generation model training device and storage medium
CN111597800B (en) Method, device, equipment and storage medium for obtaining synonyms
CN111191105A (en) Method, device, system, equipment and storage medium for searching government affair information
CN110597978A (en) Article abstract generation method and system, electronic equipment and readable storage medium
JP2006099428A (en) Document summary preparation system, method, and program
US20200278971A1 (en) Document retrieval apparatus and document retrieval method
JP6916437B2 (en) Information processing device, its control method, and program
JP7389330B2 (en) Information processing program, information processing method, and information processing device
US10120843B2 (en) Generation of parsable data for deep parsing
US20160154785A1 (en) Optimizing generation of a regular expression
JP2008052548A (en) Retrieval program, information retrieval device and information retrieval method
US10942934B2 (en) Non-transitory computer-readable recording medium, encoded data searching method, and encoded data searching apparatus
CN109933788B (en) Type determining method, device, equipment and medium
CN114625845A (en) Information retrieval method, intelligent terminal and computer readable storage medium
US20140181065A1 (en) Creating Meaningful Selectable Strings From Media Titles
WO2022059556A1 (en) Document retrieval device

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20180703

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20181031

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190115

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200622

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210615

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210628

R151 Written notification of patent or utility model registration

Ref document number: 6916437

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250