JP2014115908A - Word search device and word search method - Google Patents

Word search device and word search method Download PDF

Info

Publication number
JP2014115908A
JP2014115908A JP2012270704A JP2012270704A JP2014115908A JP 2014115908 A JP2014115908 A JP 2014115908A JP 2012270704 A JP2012270704 A JP 2012270704A JP 2012270704 A JP2012270704 A JP 2012270704A JP 2014115908 A JP2014115908 A JP 2014115908A
Authority
JP
Japan
Prior art keywords
word
words
search
text
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012270704A
Other languages
Japanese (ja)
Inventor
Yuki Kusakabe
悠希 草壁
Original Assignee
Canon Inc
キヤノン株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc, キヤノン株式会社 filed Critical Canon Inc
Priority to JP2012270704A priority Critical patent/JP2014115908A/en
Publication of JP2014115908A publication Critical patent/JP2014115908A/en
Application status is Pending legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To provide a word search device and a word search method that are capable of determining unknown words from words included in a text, excluding known words and noise words, and showing the meaning of a word that a user wants to know.SOLUTION: The word search device shows only a word of which a user wants to know by excluding known words and noise words from words in sounds and a document and showing unknown words alone. Further, the word search device shows words that are needed to be showed highly by including words that first appear and words that have already appeared and are frequently referred to by a user into the unknown words.

Description

本発明は、例えば音声あるいは文字等のテキストから単語を検出し、検出した単語の意味を表示する単語検索装置及び単語検索方法に関するものである The present invention detects, for example, a word from the text, such as a voice or text, to a word search device and word search method to display the meaning of the detected words

従来、音声や文字等のテキスト内に不明な単語があった場合、不明な単語を辞書で調べるか、あるいはインターネットの検索サイトで検索する必要があった。 Conventionally, when there is an unknown word in the text, such as voice or character, or investigate the unknown word in the dictionary, or there was a need to search in the search site on the Internet. この検索の手間を省く手段のひとつとして、テキスト内の所望の文字を指定すると、指定した文字を含む文に含まれる単語の意味を、たとえば別欄に表示する手段がある。 As a means to save the trouble of this search and specify a desired character in the text, there is a means for displaying the meaning of a word contained in the statement that contains the specified character, for example, a separate column. これは、選択した文字を含む文を形態素解析し、単語単位に分割し、各単語を検索キーワードとして検索し、その結果を表示するものである(例えば、特許文献1参照)。 This is what morphological analysis of the sentence containing the selected character is divided into units of words, searching for each word as a search keyword, and displays the results (e.g., see Patent Document 1).

特開2011-181109号公報 JP 2011-181109 JP

上述した従来の技術では、指定された文に含まれる全ての単語を検索してしまうため、ユーザが意味の知りたい単語だけを検索し(不要な単語は検索せずに)、その意味を表示することは困難であった。 In the prior art described above, since the thus finds all words included in the designated sentence (without unnecessary word search) searches only words that user wants to know the meaning, displaying the meaning of it has been difficult to.

本発明は上記従来例に鑑みてなされたもので、既知の単語やノイズを除いて、ユーザが望む単語の意味を表示できる単語検索装置及び単語検索方法を提供することを目的とする。 The present invention has been made in consideration of the above prior art, with the exception of known words and noise, and to provide a word search device and word search method that can display the meaning of a word that the user desires.

上記目的を達成するために本発明は以下の構成を有する。 To accomplish the above object has the following configuration. すなわち、 That is,
テキストに含まれた単語のうちから不明語を決定して不明語の単語リストを出力する単語検索装置であって、 A word search device that outputs a word list of the unknown word to determine the unknown word from among the words contained in the text,
ノイズ語と既知語とを記憶する単語記憶手段と、 And the word storage means for storing the noise-word and the well-known words,
前記テキストに含まれる単語のうち、前記ノイズ語にも前記既知語にも該当しない単語を辞書で検索する検索手段と、 Among the words included in the text, a search means for searching for a word in the noise word does not correspond to the known word in the dictionary,
前記検索手段による検索が失敗した単語を前記ノイズ語として登録し、検索が成功した単語を前記既知語として新たに登録する単語登録手段と、 A word registration unit search by the searching means registers the word failed as the noise word, newly registers the searched words is successful as the known word,
前記テキストに含まれた単語のうちから、前記既知語として新たに登録した単語を不明語として含む単語リストを作成する作成手段と、 From among the words included in the text, and creating means for creating a word list that contains a word that has been newly registered as the known word as unknown words,
前記単語リストを端末に送信して表示させる手段とを有する。 And means for displaying and transmitting the word list to the terminal.

本発明により、既知語、ノイズ語を除いた単語で意味を知りたいものだけを検索し、その意味が表示されるため、ユーザーにとって必要な単語とその意味を表示することが可能となる。 The present invention, known word, searching only what you want to know the meaning of words excluding the noise word, because the meaning is displayed, it is possible to display the words and their meanings necessary for the user.

本発明に好適な実施形態の全体構成図を示す図である。 Is a diagram illustrating an overall configuration diagram of a preferred embodiment of the present invention. ポータブルデバイス102のハードウェア構成の一例を示す図である。 Is a diagram illustrating an example of a hardware configuration of the portable device 102. 文書解析装置103及び単語辞書提示装置104のハードウェア構成の一例を示す図である。 Is a diagram illustrating an example of a hardware configuration of the document analysis device 103 and the word dictionary presenting unit 104. ポータブルデバイス102のシステム構成図である。 It is a system configuration diagram of a portable device 102. 文書解析装置103のシステム構成図である。 It is a system configuration diagram of a document analysis unit 103. 単語保存部504が保存する単語の一例である。 Word storage unit 504 is an example of a word to be saved. アクセス解析保存部508が保存する結果の一例である。 Access analysis storage unit 508 is an example of a result to be saved. ポータブルデバイス102で出力する表示結果の一例である。 It is an example of a display result to be output by the portable device 102. 単語辞書提示装置104のシステム構成図である。 It is a system configuration diagram of a word dictionary presentation device 104. 本実施形態を実施するための全体フローである。 It is an overall flow for implementing the present embodiment. 未知語を判断するための処理S1003の詳細な未知語判断フローである。 It is a detailed unknown word determination flow of a process S1003 for determining an unknown word. 意味検索と単語登録処理S1004の詳細なフローである。 It is a detailed flow of meaning search and word registration processing S1004. 単語の意味を表示する処理S1005の詳細なフローである。 It is a detailed flow of the processing S1005 to display the meaning of the word. 公知語の判定を行う手順を示す図である。 It is a diagram illustrating a procedure for determining a known word. レベルを指定するためのUIの一例を示す図である。 Is a diagram illustrating an example of a UI for designating the level.

以下、本発明を実施するための最良の形態について図面を用いて説明する。 Hereinafter, it will be described with reference to the drawings best mode for carrying out the present invention.

[実施形態1] [Embodiment 1]
<システムのハードウェア構成> <Hardware configuration of the system>
図1は、本発明に好適な実施形態の文書解析システムあるいは単語検索システムの全体構成図を示す図である。 Figure 1 is a diagram illustrating an overall configuration diagram of a document analysis system or word search system of the preferred embodiment of the present invention. 図1には、端末として機能するポータブルデバイス102がインターネット101を介して各サーバーに接続されている様子が示されている。 1 shows a portable device 102 that functions as a terminal is shown to connected to the server through the Internet 101. ポータブルデバイス102は複数のユーザーそれぞれが所有するものとし、図1のシステムでは複数台存在するものとする。 Portable device 102 is assumed to each of the plurality of user owns in the system of FIG. 1 is that there are several boards. 各サーバーとは、文書解析装置103と単語辞書提示装置104である。 And each server is a document analyzer 103 and the word dictionary presenting unit 104.

インターネット101は、ファイアウォールを越えて上述の各装置間で情報をやり取りするための通信回線である。 Internet 101 is a communication line for exchanging information between the above-described respective devices across a firewall. インターネット101により、ポータブルデバイス102からは、サーバー103、104へファイアウォールを越えて通信が可能である。 The Internet 101, from the portable device 102 can communicate across a firewall to a server 103. インターネット101は、例えば、TCP/IPプロトコルなどをサポートする通信回線網であり有線・無線は問わない。 Internet 101, for example, a communication network that supports like TCP / IP protocol wired and wireless does not matter. 本実施形態の図1において、サーバー103、104は2台のサーバーとして示されているが1台のサーバーコンピュータで構成されていても構わないし、3台以上の複数のサーバーコンピュータで構成されていても構わない。 In Figure 1 of the present embodiment, the server 103 or 104 to have been shown as two servers may be configured by a single server computer, be composed of three or more of the plurality of server computers it may be.

図2は、ポータブルデバイス102のハードウェア構成の一例を示す図である。 Figure 2 is a diagram illustrating an example of a hardware configuration of the portable device 102. CPU201は、ポータブルデバイス102の制御手段である中央演算処理装置であり、HDD205に格納されているアプリケーションプログラムやOSを実行し、RAM204にプログラムの実行に必要な情報、ファイル等を一時的に格納する制御を行う。 CPU201 is a central processing unit which is a control means of the portable device 102 executes the application program or OS stored in the HDD 205, information needed to execute the program in RAM 204, and temporarily stores the file, etc. It performs control. ROM202は、記憶手段である読み出し専用のメモリであり、制御プログラムであるオペレーションシステムプログラムや各種データの一部あるいは全部を記憶する。 ROM202 is a read-only memory which is a storage means, for storing a part or all of the operating system program and various data which is a control program.

NIC203は、ネットワークインターフェースであり、該インターフェースを介して他の機器との通信制御処理を実行する。 NIC203 is a network interface, and executes communication control processing with other devices through the interface. RAM204は、一時記憶手段である随時アクセスメモリであり、CPU201の主メモリやワークエリアとして機能する。 RAM204 are needed access memory is a temporary storage means functions as a main memory or a work area for the CPU 201. HDD205は、外部記憶手段の一つであり、大容量メモリとして使用するハードディスク(HD)であり、アプリケーションプログラム、OS及び関係プログラムを格納している。 HDD205 is an external storage unit, a hard disk (HD) to be used as a large capacity memory, and stores an application program, OS, and related programs.

ディスプレイ206は、表示手段である出力装置であり、かつ入力手段である入力装置である。 Display 206 is an output device is a display unit, and an input device is an input device. ディスプレイ206にタッチセンサが搭載されており、タッチによる入力で表示されているプログラムを操作することが可能である。 Touch sensor display 206 is mounted, it is possible to operate the program that is displayed in the input by the touch. 本実施形態では、ディスプレイにタッチすることで入力可能とする入力装置として記載しているが、別途キーボードやテンキーなどを接続して入力装置としても良い。 In the present embodiment, it has been described as an input device which enables input by touching the display, or as an input device by connecting a separate keyboard or a numeric keypad. また、表示されているテキストをタッチすることで文字や該文字を含む文等の指定を行うことができる。 Further, it is possible to specify the statements or the like including a character or the character by touching the text being displayed.

システムバス207は、ポータブルデバイス102内の各コンポーネントを接続するバスであり、ポータブルデバイス102内のデータの流れを司るものである。 System bus 207 is a bus that connects each component of the portable device 102, controls the flow of data in portable device 102. マイクユニット208は、周囲の音、音声などをデジタル信号として集音する。 Microphone unit 208 collects ambient sound, and voice as a digital signal. デジタル音声信号は、ハードディスクなどに記録され、音声認識処理によりテキストに変換することもできる。 Digital audio signal is recorded in a hard disk can be converted into text by speech recognition process.

図3は、文書解析装置103及び単語辞書提示装置104のハードウェア構成の一例を示す図である。 Figure 3 is a diagram showing an example of a hardware configuration of the document analysis device 103 and the word dictionary presenting unit 104. 文書解析装置103、単語辞書提示装置104は、CPU301、ROM302、NIC303、キーボード304、RAM305、HDD306、ディスプレイ307、システムバス308から構成される。 Document analysis unit 103, a word dictionary presentation device 104, CPU301, ROM302, NIC303, keyboard 304, RAM 305, HDD 306, display 307, and a system bus 308. キーボード304は、指示入力手段である入力装置であり、文書解析装置103、単語辞書提示装置104内のアプリケーションに対する制御コマンドの命令などを入力指示するものである。 Keyboard 304 is an input device which is instruction input unit, the document analyzer 103, and inputs instruction command and the control command for the application of the word dictionary presentation device 104. ディスプレイ307は、表示手段である出力装置であり、キーボード304から入力したコマンドやプログラムの状態等を表示したりするものである。 Display 307 is an output device is a display unit, in which or display state of commands and programs inputted from the keyboard 304. その他各デバイスの役割は、ポータブルデバイス102と同様であるため、詳細説明は割愛する。 Other roles of each device is the same as the portable device 102, detailed description thereof will be omitted.

<各装置の機能別構成> <Function-specific configuration of each device>
図4は、図1に示したポータブルデバイス102のシステム構成図であり、図2に示したハードウェアが協働することにより図4に示す各処理部として機能する。 Figure 4 is a system configuration diagram of a portable device 102 shown in FIG. 1, and functions as the processing units illustrated in FIG. 4 by hardware cooperate shown in FIG.
音声入力受付部401は、マイクユニット208が集音した信号をデジタル信号として受信する部分である。 Audio input accepting unit 401 is a part that receives a signal microphone unit 208 has collected as a digital signal. 音声文字列変換部402は、音声入力受付部401によって受信した信号に対して音声認識処理を実行することにより、テキストに変換する。 Speech character string converter 402, by executing the speech recognition processing on the signals received by the voice input receiving unit 401, converts the text. 音声信号をテキストに変換する技術(音声認識処理)については、公知の技術を用いることが可能であるため、詳細説明は割愛する。 The technique for converting a voice signal into text (speech recognition), since it is possible to use a known technique, detailed description thereof will be omitted. 通信部403は、音声文字列変換部402で作成したテキストを、解析要求とともに文書解析装置103に送付し、解析結果を受信する。 The communication unit 403, a text created by the sound string conversion unit 402, and sent to the document analysis unit 103 along with the analysis request, receives the analysis result. 表示部404は、通信部403ら受信した解析結果をディスプレイ206に表示する。 Display unit 404 displays the analysis results received communication section 403 et on display 206. 操作部405は、ディスプレイ206に表示されたプログラムに対して、操作を行うことを可能とし、操作の結果は通信部403を通じて文書解析装置103に送信する。 Operation unit 405, to the program displayed on the display 206, and allows to operate, the result of the operation is transmitted to the document analysis unit 103 through the communication unit 403.

図5は、図1に示した文書解析装置103のシステム構成図である。 Figure 5 is a system configuration diagram of a document analysis unit 103 shown in FIG. 通信部501は、ポータブルデバイス102から送信されてきたデータをNIC303で受け取ったり、意味検索部505からの意味検索を単語辞書提示装置104に送信したり、結果出力部509で作成された結果をポータブルデバイス102に送信したりする。 Communication unit 501, receive data transmitted from the portable device 102 in NIC303, to send semantic retrieving from semantic retrieving unit 505 in the word dictionary presenting unit 104, the results produced by the result output section 509 Portable and transmits to the device 102.

形態素解析部502は、入力されたテキストに対して形態素解析を実行し、そのテキストに含まれる単語を抽出する。 Morphological analysis unit 502 performs morphological analysis on the input text, and extracts the words included in the text. 具体的な形態素解析の処理アルゴリズムに関しては既知の技術を適用できるため、ここでは詳細に述べない。 For For the processing algorithm of a specific morphological analysis can be applied to known techniques, not described in detail herein.

未知語判断部503は、形態素解析部502で抽出された単語が未知語であるか既知語であるかノイズ語であるかを判断する。 Unknown word determination unit 503, the words extracted by the morphological analysis unit 502 determines whether the noise word known word or an unknown word. 未知語とは、単語として意味を検索したことがなく単語保存部504内に登録されていない単語を示す。 The unknown word indicates a word that was searched for meaning as a word not registered in the word storage unit 504 without. すなわち、初めて出現する単語であり、初出語と言い換えることもできる。 In other words, it is a word for the first time to appear, can also be called a new term the first time that it appears. 既知語とは、単語として意味を持ち、単語保存部504内に既知語としてその意味とともに登録されている単語を示す。 The known word, meaning as the word indicates a word that is registered with its meaning as a known word in the word storage unit 504. すなわち既出語と言い換えることもできる。 That can be rephrased as in the foregoing words. ノイズ語とは、単語保存部504にノイズ語として登録されている単語である。 The noise-word, a word that is an noise-word in the word storage unit 504. ノイズ語はあえてその意味を知る必要がない単語であり、たとえば助詞や接続詞などを含む。 Noise-word dare is a word does not need to know its meaning, for example, including particle and conjunctions. 未知語は、単語として単語辞書提示装置104により検索される。 Unknown word is retrieved by the word dictionary presenting unit 104 as words. その結果、辞書に登録されていなかった単語は、意味を持たないノイズ語であると判断して、単語保存部504内に登録される。 As a result, words that have not been registered in the dictionary, it is determined that the noise-word with no meaning, are registered in the word storage unit 504. また、未知語を検索した結果、辞書に登録されていれば、既知語として単語保存部504にその意味と関連付けて登録される。 As a result of searching for unknown words, if it is registered in the dictionary, it is registered in association with their meaning in the word storage unit 504 as a known word.

単語保存部504は、既知語、ノイズ語を保存しておく記憶域であり単語記憶手段である。 Word storage unit 504 is a known word, a storage to store the noise-word word storage means. 単語保存部504が保存する単語の一例を図6に示す。 An example of a word word storage unit 504 stores shown in FIG. 図6(A)は、既知語として登録された単語の一例である。 6 (A) is an example of a word that is registered as a known word. 既知語は、単語テキストとその意味と単語IDとが関連付けられて登録されている。 Known word, word text and its meaning and the word ID is registered in association with. 図6(B)は、ノイズ語として登録された単語の一例である。 6 (B) is an example of a word that is registered as a noise word. ノイズ語はノイズ語であることさえ判断できればよいので、テキストが含まれていれば十分である。 Because even it is only necessary to determine that the noise-word is a noise-word, it is sufficient if it contains text.

意味検索部505は、単語の意味検索を実行する部分である。 It means searching unit 505 is a part that performs semantic search word. 意味検索部505は、指定された単語が意味を持つかどうかを、また意味を持つのであればその意味を単語辞書提示装置104に対して問い合わせる。 Means searching unit 505 inquires the meaning if whether the specified word is meaningful also relevant for the word dictionary presentation device 104. 問い合わせた結果は、DB登録部506にて、単語辞書提示装置104から応答された意味の有無に応じて、既知語あるいはノイズ語として登録される。 The result of the inquiry, at DB registration unit 506, in response to the presence or absence of meaning as response from the word dictionary presentation device 104 is registered as a known word or noise words. なお、本実施形態では、意味検索を別サーバーにて実行し、検索結果を登録するようにしているが、意味検索部が自身で単語の意味を登録した辞書を持ち、検索結果をDB登録部に登録してもよいし、単語辞書提示装置104だけでなく、複数のサーバーに対して単語の意味を問い合わせてもよい。 It should be noted that, in the present embodiment, run the meaning search in a separate server, the search results are to be registered, have a dictionary meaning search unit has registered the meaning of the word itself, DB registration unit search results also may be registered in, not only the word dictionary presentation device 104, may query the meaning of the word against multiple servers.

アクセス解析部507は、ポータブルデバイス102から送信された単語で既知語として登録した単語の出現回数と参照回数とをアクセス解析保存部508に保存する。 Access analysis section 507 stores the reference number and the number of occurrences of words registered as a known word in a word transmitted from the portable device 102 to the access analysis storage unit 508. その後、アクセス解析部507は解析結果より、ポータブルデバイス102に対して、出力する単語と意味とを結果出力部509に出力する。 Thereafter, the access analyzing unit 507 from the analysis result, for the portable device 102, and outputs the meaning the word to be output to the result output unit 509.

アクセス解析保存部508は、ポータブルデバイス102から検索された結果を保存する領域である。 Access analysis storage unit 508 is an area for storing the result retrieved from the portable device 102. 保存している結果の一例を図7に示す。 An example of the results that are stored is shown in FIG.

図7の一覧では、テナントID、ユーザーID、単語ID、出現回数、参照回数を保存している。 In the list of FIG. 7, the tenant ID, user ID, word ID, have saved the number of occurrences, the reference number of times. テナントIDは、マルチテナント環境下での同一管理形態下におかれた複数ユーザーを束ねるユーザーグループを示すIDである。 Tenant ID is an ID indicating the user group to bundle multiple users placed under the same administrative form under multi-tenant environment. ユーザーIDは、ひとつのテナント内のユーザーを固有に示すIDである。 User ID is an ID that shows the user in one of the tenant to the specific. したがって、テナントIDとユーザーIDとの組み合わせによりユーザーを固有に示すことができる。 Therefore, it is possible to show the user uniquely by the combination of the tenant ID and the user ID. 単語IDは、図6(A)に示す単語と意味とを指し示すIDである。 Word ID is an ID indicating the meaning the word shown in FIG. 6 (A). 出現回数は、ユーザーごとに、単語IDで管理されている単語が過去に何回出現したかをカウントしている値である。 Number of occurrences, for each user, which is a value that the words that are managed by the word ID is counting whether it has appeared many times in the past. 参照回数は、出現した単語に対して、各ユーザーのポータブルデバイス102で参照した回数をカウントしている値である。 Reference number, to the emergence words, a value that counts the number of times referenced by the portable device 102 of each user. 図7はユーザーごとの単語の出現回数と参照回数とを記録したテーブルであり、参照率テーブルと称することにする。 Figure 7 is a table recording the reference number of times as the number of occurrences of words in each user will be referred to as a reference index table.

マルチテナントとは、機材やデータベースを複数の顧客で共有する環境の事を指す。 The multi-tenant, refers to the environment to share equipment and databases in multiple customers. マルチテナントにすることにより同一サービスをそれぞれ異なる顧客に対して異なるサービスとして提供することが可能となる。 It is possible to provide a different service for each different customers the same service by the multi-tenant. 本実施形態におけるテナントIDは、ユーザーを束ねるグループとして捉えてよい。 Tenant ID in the present embodiment may be regarded as a group for bundling the user.

結果出力部509は、入力された単語からノイズ語以外の単語(単語保存部504に登録済みの既知語、及び意味検索部505で新たに検索された未知語)と、それらの単語の意味とを、ポータブルデバイス102で表示するための好適な形式に整形して出力する。 Result output unit 509, a word other than the noise word from the input word (registered known word to word storage unit 504, and unknown words newly searched semantic retrieving unit 505), and the meaning of those words the shaping and outputs a suitable format for display on a portable device 102. 好適な形式の一例を図8に示す。 An example of a preferred form shown in FIG. 図8はポータブルデバイス102に表示されている状態の一例を示す図である。 Figure 8 is a diagram illustrating an example of a state that is displayed on the portable device 102. この例では、入力された単語からノイズ語以外の単語を一覧表示し、一覧からユーザー所望の単語が選択されると、選択された単語の意味を表示するようなUIの一例である。 In this example, it lists words other than noise words from the input word, if the user desired word is selected from a list, which is an example of a UI that displays the meaning of the selected word. 表示は一例であり、単語とその意味とを表示する形態であればこの限りではない。 Display is an example, not limited as long as the form that displays the word and its meaning. 結果出力部509は、通信部501を通じて形成した出力結果をポータブルデバイス102に送信する。 Result output section 509 transmits the output result of forming through the communication unit 501 to the portable device 102.

以上のように文書解析装置103は単語検索を行って意味ととともに提示する機能を持ち、単語検索装置ということもできる。 Document analysis device 103 as described above has a function to be presented with the meaning carried out the word search, it is also possible that the word search apparatus.

図9は、図1に示した単語辞書提示装置104のシステム構成図である。 Figure 9 is a system configuration diagram of a word dictionary presentation device 104 shown in FIG. 通信部901は文書解析装置103から受信した単語を単語確認部902に送信し、辞書を用いて検索した結果を文書解析装置103に送信する。 The communication unit 901 transmits the word received from the document analysis unit 103 to the word confirmation unit 902 transmits the result of a search utilizing the dictionary document analysis unit 103. 単語確認部902は、通信部より受信した単語の意味を辞書部903に問い合わせ、辞書部903に単語が登録されていれば、単語と意味とを応答し、登録されていなければ、登録されていない旨を通信部901を経由して文書解析装置103に送信する。 Word check unit 902 inquires the meaning of the word received from the communication unit in the dictionary unit 903, if the word is in the dictionary unit 903, in response to the meaning the word, if not registered, is registered via the communication unit 901 that there is no transmitted to the document analysis unit 103. 辞書部903は、単語と意味とを関連付けて保存したデータベースである。 Dictionary unit 903 is a database stored in association with each meaning word.

<テキスト内の単語の意味表示手順> <Meaning display procedure of words in the text>
次に本実施形態における単語とその意味を出力するための手段について図10〜図13のフローチャートを用いて説明する。 Then a word in the present embodiment the means for outputting the meaning will be described with reference to the flowchart of FIGS. 10-13.

図10は、本実施形態を実施するための全体フローである。 Figure 10 is an overall flowchart for implementing the present embodiment. ポータブルデバイス102は、マイクユニット208にて音声信号を受信し、音声認識処理を行った結果をテキストとして、文書解析装置103に送信する(S1001)。 Portable device 102 receives the speech signal at the microphone unit 208, a text result of the speech recognition process, and transmits the document analysis unit 103 (S1001). テキストを受信した文書解析装置103は、形態素解析部502にてテキストから単語を抽出する(S1002)。 Document analysis unit 103 which has received the text, extracts words from the text by morphological analysis unit 502 (S1002). 抽出した単語は未知語、既知語の判断が行われ(S1003)、未知語であればその意味を検索し、意味を持つ単語とノイズ語とを単語保存部504に保存する(S1004)。 Extracted words are unknown word, known language determination is made (S1003), if the unknown word to search for the meaning, is stored in the word storage unit 504 and the words and noise words having meaning (S1004). ポータブルデバイス102は、意味を持つ単語に対して、意味を検索した結果を表示する(S1005)。 Portable device 102 for the word with a meaning, and displays the result of searching the meaning (S1005). なお本例においては、テキストに複数の同一の単語が含まれている場合には、それら複数の同一の単語はひとつの単語として扱われる。 Note in the present embodiment, when there is more than one identical word text, the plurality of identical words is treated as a single word. ただし、後述する図7の参照テーブル等に記録するために、処理対象のテキストに出現した単語ごとの出現回数を単語に関連付けて記憶してもよい。 However, in order to record the reference table or the like in FIG. 7 to be described later, it may be stored in association with the number of occurrences of each word appearing in the text to be processed into words. この場合には、後述のS1306では、出現回数に、1ではなく記憶したテキスト内の出現回数を加算する。 In this case, the S1306 will be described later, the number of occurrences, adds the number of occurrences of the text that is not 1 storage.

<未知語判断手順> <Unknown word judgment procedure>
図11は、未知語を判断するための処理S1003の詳細な未知語判断フローである。 Figure 11 is a detailed unknown word determination flow of a process S1003 for determining an unknown word. 文書解析装置103は、抽出した単語と登録済みのノイズ語それぞれとを比較し(S1101)、抽出した単語にノイズ語に含まれる単語があるかどうかを判定する(S1102)。 Document analysis unit 103, the extracted word is compared with the registered noise words respectively (S1101), determines whether a word contained in the noise word in extracted word (S1102). ノイズ語に含まれる単語がある場合、その単語を抽出した単語群から除去する(S1103)。 If there is a word included in the noise word is removed from the word group extracted the word (S1103). 残った単語を登録済みの既知語それぞれと比較し(S1104)、既に登録済みの既知語であるかどうかを判定する(S1105)。 The remaining words compared to the known word each registered (S1104), already determined whether the registered known language (S1105). 既知語であると判定した単語に関しては、解析対象のテキストに出現した出現単語としてアクセス解析保存部508に記憶し(S1106)、S1005の表示処理に進む。 For the word determined to be a known word, stored in the access analysis storage unit 508 as written words appearing in the text to be analyzed (S1106), the process proceeds to the display processing of S1005. 一方、既知語でないと判定した単語に関しては、S1004の意味検索及び単語登録処理(詳細は後述の図12)に進む。 On the other hand, with respect to the words it is judged that no known word, meaning the search and word registration processing S1004 (details FIG. 12 which will be described later), the process proceeds to.

<意味検索及び単語登録手順> <Means search and word registration procedure>
図12は、意味検索と単語登録処理S1004の詳細なフローである。 Figure 12 is a detailed flow of semantic retrieving the word registration process S1004. 文書解析装置103の意味検索部505は、意味を検索するための参照先定義を取得し(S1201)、単語の意味を単語辞書提示装置104に対して問い合わせる(S1202)。 Meaning the search unit 505 of the document analysis unit 103 acquires the referenced definition for retrieving means (S1201), inquires the meaning of the word for the word dictionary presentation device 104 (S1202). 意味を検索するための参照先定義とは、例えば単語辞書提示装置104のアドレス等であり、問い合わせは、たとえば単語の意味を問い合わせることを示すメッセージに、単語または単語群を組み合わせて構成される。 The search referenced definition for the meaning, for example, the address of the word dictionary presentation device 104, etc., query, for example, the message indicating that query the meaning of a word, formed by combining a word or group of words. 問い合わせを受信した単語辞書提示装置104は、問い合わされた単語の意味を、単語とその意味とを登録したデータベースで検索し(S1203)、意味が検索できない場合は、すなわち単語がデータベースでヒットしなかった場合には、検索に失敗した旨を文書解析装置103の意味検索部505に返す。 Word dictionary presentation device 104 which has received the inquiry, the meaning of words interrogated searched database registered word and its meaning (S1203), if the meaning is not searched, i.e. no hit word in the database when the returns that the search fails to sense the search unit 505 of the document analysis device 103. 検索に失敗した場合、文書解析装置103の意味検索部505は、次の検索先があるかどうかを判定し、ある場合は、再度同じ単語の意味を次の検索先に対して問い合わせる(S1206)。 If the search fails, meaning the search unit 505 of the document analysis unit 103 determines whether the next search destination, if there is an inquiry the meaning of the same word again for the next search destination (S1206) . 次の検索先がない場合(すなわち全ての検索先で検索済みの場合)は、問い合わせた単語は、ノイズ語として、DB登録部506から単語保存部504に保存される(S1205)。 : For no search destination (i.e. if the search already in all search target) is word queried as noise-word is stored from the DB registration unit 506 in the word storage unit 504 (S1205). 単語の意味が検索できた場合(すなわち検索に成功した場合)は、単語の意味を意味検索部505に応答し、意味検索部505は、新たな既知語として、当該検索した単語とその意味をDB登録部506を介して単語保存部504に登録する(S1207)。 If the meaning of a word could be retrieved (i.e. if a successful search) responds the meaning of the word in the semantic retrieving unit 505, meaning the search unit 505 as a new known word, the words and their meanings the search registered in the word storage unit 504 via the DB registration unit 506 (S1207). そして、既知語として登録した単語を、解析対象のテキストに出現した出現単語として、ステップS1106で登録した出現単語に加えて一時的に記憶し(S1208)、S1005の表示処理に進む。 Then, a word registered as a known word, the written words appearing in the text to be analyzed, temporarily stored in addition to the emergence words registered in step S1106 (S1208), the process proceeds to the display processing of S1005.

<表示手順> <Display procedure>
図13は、単語の意味を表示する処理S1005の詳細なフローである。 Figure 13 is a detailed flow of processing S1005 for displaying the meaning of the word. 文書解析装置103のアクセス解析部507は、S1106またはS1208で一時的に記憶した出現単語を取得し(S1301)、アクセス解析保存部508から参照率テーブル(図7)を取得し(S1302)、参照率テーブルに出現単語の登録を試みる(S1303)。 Access analysis section 507 of the document analysis unit 103 acquires the appearance words temporarily stored in S1106 or S1208 (S1301), the reference rate table from access analysis storage unit 508 acquires (Fig. 7) (S1302), see the rate table attempts to register the appearance word (S1303). この出現単語の登録要求を行ったとき、単語ごとに既に登録済みかどうかを判定し(S1304)、未登録の単語であれば、参照率テーブルに、その出現単語のIDや出現回数、テナントIDおよびユーザーIDを登録する(S1305)。 When I went a registration request for the appearance words, a determination is made as to whether either already registered for each word (S1304), if the unregistered word, the reference rate table, ID and the number of occurrences of the appearance word, tenant ID and to register a user ID (S1305). 新規登録時にはまだ参照はされていないので、参照回数には0を設定する。 Because they are not still see at the time of new registration, the reference count is set to 0. テナントIDおよびユーザーIDは、例えばポータブルデバイス102からテキストと共に受信した解析要求に含まれたIDを書き込む。 Tenant ID and user ID, for example writes the ID included from the portable device 102 analyzes the request received along with the text. この場合、S1307で求める参照率は0となってしまうので、参照率を計算せずにS1309に分岐する。 In this case, since the reference index for determining in S1307 becomes 0, branches to S1309 without calculating the reference rate. すなわち、出現回数が1となる初出語は、ポータブルデバイス102に表示する単語リストに含める不明語であるとして扱われる。 In other words, the new term the first time that it appears that the number of occurrences is 1 is treated as an unknown language to be included in the word list that you want to display on the portable device 102.

一方、既に登録されている単語である場合、登録済みの単語に対して、その出現回数を1つ増やす(S1306)。 On the other hand, when a word already registered for the registered words, increasing one the number of occurrences (S1306). ただし、単語ごとにテキスト内に出現した回数を記憶している場合には、その回数を出現回数に加算してもよい。 However, if you are storing the number of times that appeared in the text for each word may be added to the number of times the number of occurrences. その後、出現単語を、ポータブルデバイスに表示する単語リストに加えるか否かを決定するための値(参照率)を計算する。 Thereafter, the appearance words, to calculate a value for determining whether added to the word list to be displayed on the portable device (see rate). この値は、ポータブルデバイス102で表示された際に参照された参照回数を参照率テーブルに記憶しておき、参照回数を出現回数で割ることで得られる値である。 This value is a value obtained by dividing stores the reference number which is referred to when displayed in the portable device 102 to the reference rate table, the reference count in number of occurrences. その参照率の値を参考値とする(S1307)。 The value of the reference rate used as reference value (S1307). なお、本実施例における参照とは、出現単語のリストをポータブルデバイスで表示した際に、或る単語についてその意味を表示させるためにユーザーがリスト中から選択することである。 Note that the reference in this embodiment, when displaying a list of words and the portable device is that the user in order to display the meaning for a certain word is selected from the list. したがって出現単語と判定されてリスト表示されたとしても、ユーザーがその意味を改めて知る必要がなければ参照されることはないため参照回数は増えることがない。 Therefore it is determined that the appearance word even listed, user reference number does not increase because never need be referenced unless knowing the meaning again. S1307で算出された参考値が、あらかじめ決めておいた基準値以上(すなわち所定値以上)かどうかを判断し(S1308)、基準値以上であった場合は、意味の表示が必要な不明語としてポータブルデバイス102に単語とその意味とを表示するように単語リストのデータを作成する(S1309)。 Reference value calculated in S1307 is predetermined which had been above the reference value (i.e. above a predetermined value) to determine whether (S1308), the case of equal to or more than the reference value, as an unknown word requiring Notations to create a data list of words to display the word and its meaning to the portable device 102 (S1309). 一方、参考値が基準値より小さい場合は、不明語ではなく表示は不要と判断し、意味を持つ単語であっても単語リストには含めない。 On the other hand, if the reference value is smaller than the reference value, it is determined display is unnecessary, not the unknown language, not included in the word list even a word that has a meaning. したがってポータブルデバイス102には表示されない。 Thus not displayed on the portable device 102.

またポータブルデバイスに表示された単語リストのうちから、参照された単語については、参照された単語に関する情報が文書解析装置103に送信される。 Also among the word list displayed on the portable device, for referenced words, information on the referenced word is transmitted to the document analysis unit 103. 文書解析装置103は、参照された単語の意味を表示する形式、たとえば図8のような形式で単語リストを再構成し、それをポータブルデバイス102に送信して表示させる。 Document analysis unit 103, the format for displaying the meaning of the referenced words, for example, to reconfigure the word list in a format as shown in FIG. 8, is displayed by sending it to the portable device 102. 文書解析装置103はその際、参照された単語の参照回数に1加算する。 Document analysis unit 103 this time, 1 is added to the referenced reference count of words. なお、本実施形態では、一つの単語リストに対して、ひとつの単語に対して複数回参照された場合でも、すべて参照回数として記録する。 In the present embodiment, for one word list, even if it is referenced multiple times for a single word is recorded as all reference count. たとえば2回参照されれば参照回数は2増加する。 See, for example, the number of times if the referenced twice 2 increases. これは、参照された回数が多ければ、その単語を表示する必要性が高いと推定できるためである。 This the more the number of times referenced is because it can be estimated that it is highly necessary to view the word. 一方、一つの単語リストにおいて一つの単語が何度参照されても1回と数えてもよい。 On the other hand, one word at a word list may be counted as one be referenced multiple times.

なお、図13の手順においては、S1301からS1306までを、出現単語のそれぞれに順次着目して単語ごとに繰り返し実行し、全ての出現単語について登録又は出現回数の更新が終了した後、ステップS1307からS1309を実行してもよい。 In the procedure of FIG. 13, until S1306 from S1301, after repeatedly executed for each word sequentially focused on each occurrence word, updating of registration or number of occurrences for all the words and the completed, steps S1307 S1309 may be the execution. この場合、新規に参照率テーブルに登録した単語はその参考値が0なので、出現回数が1の単語に限っては参考値に関わらず単語リストに加える必要がある。 In this case, the words registered in the new reference rate table is because the reference value is 0, is the number of occurrences is only the word of 1 it is necessary to add to the word list, regardless of the reference value.

またS1308の基準値は、たとえば、或る単語について、その初出時に参照された後、何回目の出現まで単語リストに加えるべきかを考慮して決定することができる。 The reference value of the S1308, for example, for a certain word, after being referenced at the time of first occurrence, can be determined by considering whether to add to the word list until the advent of many times. たとえば、或る単語が初出時に参照されると、二回目の出現時には、出現回数は2、参照回数は1となり、参照率は0.5となる。 For example, if one word is referred to first occurrence, a second time at the time of occurrence, number of occurrences 2, reference number 1, and the reference index becomes 0.5. したがって、基準値を0.5としておけば、参照率は基準値以上となり、このときは単語リストに加えられる。 Therefore, if the reference value is 0.5, the reference rate becomes more than the reference value, is added to the word list at this time. 二回目に参照されないと三回目の出現時には、参照率は1/3となり、基準値0.5より小さくなるので、もはや単語リストには加えられない。 Second time at the time of the third time when unreferenced appeared, the reference rate is 1/3, becomes smaller than the reference value 0.5 is not added to the longer word list. このようにして、基準値をたとえば1/N(ただし小数表現では切り上げ)とすることで、初出に参照された場合には、N回目の出現まで単語リストに加えることができる。 In this way, by setting the reference value, for example 1 / N (provided that rounded up in a decimal representation), when referenced to the first appearance may be added to the word list until the appearance of the N-th.

以上の構成及び手順により、ポータブルデバイス102には、対象のテキストに含まれる単語群から、ノイズ語や、既知語のうち参照率が低い単語を除いた、初出語と不明語とを、その意味を参照可能な形式で表示することが可能となる。 With the above configuration and procedure, the portable device 102, the group of words included in the target text, noise terms and to remove a low reference index words of the known words, a first-appearing word and unknown word, the meaning It can be displayed in a browsable form a. このため、不明であろう単語の意味を効率よくユーザーに提示することができる。 For this reason, it is possible to present the meaning of the word would be unknown to the efficient user. なお上記手順において、S1208において記憶した出現単語のみを不明語として単語リストに含めてもよい。 It should be noted that in the above-mentioned procedure, may be included in the word list only the appearance word stored in S1208 as an unknown language. この場合には、既知語の関する参照率の分析は不要となる。 In this case, analysis of the reference rate regarding the known words is not required.

[変形例] [Modification]
図13の手順では、いったん単語リストから除外された単語は、その後は参照率があがることがないことから二度と単語リストに入れられることがない。 In the procedure of FIG. 13, once the word is excluded from the word list, it never thereafter is placed in again word list since it is not possible to see rate is increased. そこで、たとえば出現回数が所定回数に達したなら、出現回数および参照回数として0を設定する。 Therefore, for example, if number of occurrences reaches a predetermined number, 0 is set as the number of occurrences and the reference count. このように参照率をリセットする機構を設けることで、いったん既知語として単語リストから落とされた単語を、再度単語リストに載せることができる。 The reference rate as by providing a mechanism to reset the once a word that was dropped from the word list as a known word, can be placed back word list.

[実施形態2] [Embodiment 2]
実施形態1では、学習期間が少ないと不明語の判断が弱くなる、すなわち判断の精度が低くなるという問題がある。 In the first embodiment, it is weakened unknown words determined to have fewer learning period, i.e. there is a problem that the determination of the accuracy is lowered. そこで、ユーザーのプロファイルに応じて、不明語ではないと判断される単語を変更することを可能とする。 So, depending on the user's profile, making it possible to change a word that is determined not to be the unknown language. この判断手順について図14のフロー図を用いて説明する。 This determination procedure will be described with reference to the flowchart of FIG. 14. 図14の手順は、アクセス解析部507がポータブルデバイス102から解析要求を受信した際に実行される。 Procedure of Figure 14 is executed when the access analysis section 507 receives the analysis request from the portable device 102.

アクセス解析部507は、アクセス解析保存部508に、解析要求の要求元ユーザーを新しく追加する(S1401)。 Access analysis section 507, the access analysis storage unit 508, adding a new requesting user of the analysis request (S1401). この時、アクセス解析保存部508に登録されている参照率テーブルに同一テナントのユーザーが登録されているかどうかを判定する(S1402)。 At this time, it is determined whether the reference index table that is registered in the access analysis storage unit 508 the user's identity tenants registered (S1402). 同一テナントのユーザーとは、マルチテナント環境において、同じサービスを受領しているユーザーのことである。 A user of the same tenant in a multi-tenant environment is that users who are receiving the same service. 具体的には、同じテナントIDを持つ他のユーザーである。 Specifically, it is the other users with the same tenant ID. 同一テナントのユーザーがいる場合、参照率テーブルに登録されている同一テナントに属するユーザーすべての出現単語を参照して、いずれのユーザーも参照回数が0回の単語を調べる(S1403)。 If you have users in the same tenant, referring to the user all occurrences words belonging to the same tenant, which is registered in the reference rate table, none of the user reference count is checked 0 times the words of (S1403). いずれのユーザーも参照回数が0回の単語があった場合、その単語は同一テナント内では一般的に知られている公知語として判断し、その単語IDと参照回数および出現回数を登録ユーザーのものとしてコピーして、参照率テーブルに当該登録ユーザーのレコードを新規追加する(S1404)。 If the any of the reference count users had zero word, that word is judged as a known word is generally known within the same tenant, as the reference number and number of occurrences and the word ID of the registered user copy as, the registration records of users newly added to the reference rate table (S1404). 複数のユーザーに同じ単語が登録されている場合には、それらのうちのいずれかをコピーする。 When the same word is registered in a plurality of user copies of any of them. すなわち、要求元ユーザーと同一のテナントに属するユーザーについて求められる参照率を、要求元ユーザーについても適用する。 That is, the reference rate obtained for users belonging to the requesting user and the same tenants, also apply to the requesting user.

これにより初回から学習期間があるものと同じになり、公知語が不明語から排除されて表示されなくなる。 This will be the same as those where there is a learning period from the first time, well-known word is no longer displayed after being eliminated from the unknown language.

[実施形態3] [Embodiment 3]
実施形態3では、学習していかないと単語毎に不明語が判断できず、既に知っている単語であっても表示されてしまう場合がある。 In the third embodiment, there is a case where unknown word to each word unless Ika learned can not be determined, it would appear even word already know. そこで、不明語をレベル分けし、表示レベルを指定することで単語の表示を変更することを可能とする。 Therefore, the level divided into the unknown word, making it possible to change the display of the word by specifying the display level.

レベルを指定するためのUIの一例を図15に示す。 An example of a UI for designating a level shown in Figure 15. 単語のレベルはあらかじめ辞書単位で指定しておく。 Level of words should be specified in advance the dictionary unit. 単語辞書提示装置104が複数台で構成されている場合は、単語辞書提示装置104毎で異なるレベルであるとしてもよい。 If the word dictionary presentation device 104 is configured by a plurality, it may be the different levels word dictionary presenting unit 104 each.
コントロール1501は、表示レベルを示す表示コントロールの一例である。 Control 1501 is an example of a display control indicating the display level.

矢印コントロール1502を押下することで、表示されるレベルが下がり、表示量が増える。 By pressing the arrow controls 1502, lower the level displayed, the display amount is increased. 矢印コントロール1503を押下することで表示されるレベルが上がり、表示量が減る。 Raise the level displayed by pressing the arrow control 1503, display quantity is reduced. たとえば、「波動方程式」という単語のレベルが2であるとすれば、図15に例示された表示レベル「レベル1」より高いので、この単語は表示される。 For example, if the level of the word "wave equation" is 2 is higher than the illustrated display level "Level 1" in FIG. 15, the word is displayed. コントロール1503を押下して表示レベルが3以上にあげられると、「波動方程式」の単語レベルが表示レベルより低くなるので、単語リストには表示されなくなる。 When the display level by pressing the control 1503 and the like in 3 or more, because the word level is lower than the display level of the "wave equation", will no longer be displayed in the word list.

たとえば単語リストがポータブルデバイス102に表示された状態でコントロール1502または1503が押下されると、その操作に関する情報が文書解析装置103に送信される。 For example, control 1502 or 1503 in a state in which the word list is displayed on the portable device 102 is pressed, information about the operation is sent to the document analysis unit 103. 文書解析装置103は、その情報を受信して、単語リストから、新たなレベル以上のレベルを与えられた単語を不明語から選択して新たな単語リストを再構成し、それをポータブルデバイス102に送信して表示させる。 Document analysis unit 103 receives the information from the word list, words given a new level or higher level by selecting from an unknown word to reconstruct a new word list, it to the portable device 102 Submit to be displayed. このような処理のために、本実施形態では、図13の処理は単語のレベルとは無関係に実行し、最大単語リストを作成しておく。 For such processing, in the present embodiment, the process of FIG. 13 is independently executed from the level of the word, you create a maximum word list. ただし、単語ごとに辞書で指定されたレベルはその単語リストに含めておく。 However, the level specified in the dictionary for each word should be included in the word list. 最大単語リストは、最低の表示レベルが指定されたときに表示する単語リストである。 The maximum word list is a word list to be displayed when the lowest display level is specified. 表示レベルが上げられると、その最大単語リストから、表示レベル以上のレベルを持つ単語が選択されて、新たな単語リストが再構成されてポータブルデバイス102に送信されて表示される。 When raised the display level from its maximum word list, is selected word having a level greater than the display level, the new word list is displayed it is transmitted is reconstructed in the portable device 102.

これにより、指定された表示レベルより低いレベルの単語がフィルタリングされ、表示される単語を減らすことができる。 Thus, low levels words than the specified display level is filtered, it is possible to reduce a word to be displayed.

[その他の実施例] [Other embodiments]
また、本発明は、以下の処理を実行することによっても実現される。 Further, the present invention can also be realized by a computer of a system or apparatus. 即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。 That is, software (program) for realizing the functions of the above is supplied to a system or an apparatus via a network or various storage medium, a computer of the system or apparatus (or CPU or MPU) reads the program is a process to be executed.

Claims (9)

  1. テキストに含まれた単語のうちから不明語を決定して不明語の単語リストを出力する単語検索装置であって、 A word search device that outputs a word list of the unknown word to determine the unknown word from among the words contained in the text,
    ノイズ語と既知語とを記憶する単語記憶手段と、 And the word storage means for storing the noise-word and the well-known words,
    前記テキストに含まれる単語のうち、前記ノイズ語にも前記既知語にも該当しない単語を辞書で検索する検索手段と、 Among the words included in the text, a search means for searching for a word in the noise word does not correspond to the known word in the dictionary,
    前記検索手段による検索が失敗した単語を前記ノイズ語として登録し、検索が成功した単語を前記既知語として新たに登録する単語登録手段と、 A word registration unit search by the searching means registers the word failed as the noise word, newly registers the searched words is successful as the known word,
    前記テキストに含まれた単語のうちから、前記既知語として新たに登録した単語を不明語として含む単語リストを作成する作成手段と、 From among the words included in the text, and creating means for creating a word list that contains a word that has been newly registered as the known word as unknown words,
    前記単語リストを端末に送信して表示させる手段とを有することを特徴とする単語検索装置。 Word search apparatus characterized by having a means for displaying and transmitting the word list to the terminal.
  2. 前記作成手段は、前記テキストに含まれており、前記既知語として記憶されていた単語のうち、前記単語リストにおいて参照された参照率が所定値以上の単語も不明語として単語リストに含めることを特徴とする請求項1に記載の単語検索装置。 It said creating means is included in the text, of the words which have been stored as the known word, that referenced referenced index in the word list is included in the word list as also unknown word words than a predetermined value word search device according to claim 1, wherein.
  3. 前記端末に表示された単語リストのうちから参照された単語に関する情報を受信し、当該単語の出現回数に対する参照された回数の比を前記参照率として求めることを特徴とする請求項2に記載の単語検索装置。 It receives information about the referenced word from among the word list displayed on the terminal, according to the ratio of the number of the reference to the number of occurrences of the word to claim 2, characterized in that calculated as the reference rate word search apparatus.
  4. 前記参照率は、前記テキストの解析要求を送信したユーザーごとに求められることを特徴とする請求項2又は3に記載の単語検索装置。 The reference rate is word search device according to claim 2 or 3, characterized in that it is determined for each user who sent the analysis request of the text.
  5. 前記テキストの解析要求を受信した場合、その要求元ユーザーと同一のテナントに属するユーザーについて求められる参照率を、前記要求元ユーザーについても適用することを特徴とする請求項4に記載の単語検索装置。 When receiving the analysis request of the text, the reference rate obtained for users belonging to the requesting user and the same tenant, word search device according to claim 4, characterized in that also applied to the requesting user .
  6. 前記単語にはレベルが関連付けられており、 The has an associated level word,
    前記作成手段は、指定されたレベルより低いレベルに関連付けられた単語を前記単語リストに含めないことを特徴とする請求項1乃至5のいずれか一項に記載の単語検索装置。 Said creation means, word search device according the associated lower than the level specified level word to any one of claims 1 to 5, characterized in that not included in the word list.
  7. 請求項1乃至6のいずれか一項に記載の単語検索装置と、 A word search device according to any one of claims 1 to 6,
    前記単語検索装置から出力される単語リストを表示する端末とを含むことを特徴とする単語検索システム。 Word search system which comprises a terminal for displaying a list of words output from the word search device.
  8. テキストに含まれた単語のうちから不明語を決定して不明語の単語リストを出力する単語検索方法であって、 A word search method for outputting a word list of the unknown word to determine the unknown word from among the words contained in the text,
    前記テキストに含まれる単語のうち、単語記憶手段に記憶されたノイズ語にも既知語にも該当しない単語を辞書で検索する検索工程と、 Among the words included in the text, a search step of searching for a word in the noise word stored in the word storage means does not correspond to a known word in the dictionary,
    前記検索工程による検索が失敗した単語を前記ノイズ語として前記単語記憶手段に登録し、検索が成功した単語を前記既知語として前記単語記憶手段に新たに登録する単語登録工程と、 A word registration process search by the searching step are registered in the word storage means for a word failed as the noise word is newly registered in the word storage means for a word search is successful as the known word,
    前記テキストに含まれた単語のうちから、前記既知語として新たに登録した単語を不明語として含む単語リストを作成する作成工程と、 From among the words included in the text, and create a process to create a word list that contains a word that has been newly registered as the known word as unknown words,
    前記単語リストを端末に送信して表示させる工程とを有することを特徴とする単語検索方法。 Word search method characterized by a step of displaying by sending the word list to the terminal.
  9. テキストに含まれた単語のうちから不明語を決定して不明語の単語リストを出力する単語検索方法をコンピュータに実行させるためのプログラムであって、 A program for executing a word search method for outputting a word list of the unknown word to determine the unknown word from among the words contained in the text on the computer,
    前記テキストに含まれる単語のうち、単語記憶手段に記憶されたノイズ語にも既知語にも該当しない単語を辞書で検索する検索工程と、 Among the words included in the text, a search step of searching for a word in the noise word stored in the word storage means does not correspond to a known word in the dictionary,
    前記検索工程による検索が失敗した単語を前記ノイズ語として前記単語記憶手段に登録し、検索が成功した単語を前記既知語として前記単語記憶手段に新たに登録する単語登録工程と、 A word registration process search by the searching step are registered in the word storage means for a word failed as the noise word is newly registered in the word storage means for a word search is successful as the known word,
    前記テキストに含まれた単語のうちから、前記既知語として新たに登録した単語を不明語として含む単語リストを作成する作成工程と、 From among the words included in the text, and create a process to create a word list that contains a word that has been newly registered as the known word as unknown words,
    前記単語リストを端末に送信して表示させる工程とをコンピュータに実行させるためのプログラム。 Program for executing a step of displaying by sending the word list to the terminal to the computer.
JP2012270704A 2012-12-11 2012-12-11 Word search device and word search method Pending JP2014115908A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012270704A JP2014115908A (en) 2012-12-11 2012-12-11 Word search device and word search method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012270704A JP2014115908A (en) 2012-12-11 2012-12-11 Word search device and word search method

Publications (1)

Publication Number Publication Date
JP2014115908A true JP2014115908A (en) 2014-06-26

Family

ID=51171815

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012270704A Pending JP2014115908A (en) 2012-12-11 2012-12-11 Word search device and word search method

Country Status (1)

Country Link
JP (1) JP2014115908A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105700768A (en) * 2014-12-12 2016-06-22 纳宝株式会社 Method, system, and non-transitory recording medium for providing additional information associated with information list on a display
JP2016201057A (en) * 2015-04-14 2016-12-01 日本放送協会 Document display device, document display method and program thereof

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105700768A (en) * 2014-12-12 2016-06-22 纳宝株式会社 Method, system, and non-transitory recording medium for providing additional information associated with information list on a display
KR20160071845A (en) * 2014-12-12 2016-06-22 네이버 주식회사 Method, system and recording medium for providing word meaning
KR101659928B1 (en) * 2014-12-12 2016-09-26 네이버 주식회사 Method, system and recording medium for providing word meaning
JP2016201057A (en) * 2015-04-14 2016-12-01 日本放送協会 Document display device, document display method and program thereof

Similar Documents

Publication Publication Date Title
US9043208B2 (en) System, method and program product for providing automatic speech recognition (ASR) in a shared resource environment
US8903847B2 (en) Digital media voice tags in social networks
CN1790326B (en) System for synchronizing natural language input element and graphical user interface
CN102272828B (en) Method and system for providing a voice interface
US5991719A (en) Semantic recognition system
RU2417408C2 (en) Dynamic user experience with semantic rich objects
US9348906B2 (en) Method and system for performing an audio information collection and query
CN102549653B (en) Speech translation system, first terminal device, speech recognition server device, translation server device, and speech synthesis server device
US8990182B2 (en) Methods and apparatus for searching the Internet
US20050289134A1 (en) Apparatus, computer system, and data processing method for using ontology
CN101479728A (en) Visual and multi-dimensional search
US20160098393A1 (en) Natural language understanding (nlu) processing based on user-specified interests
US8666963B2 (en) Method and apparatus for processing spoken search queries
CN105453080A (en) Extensible context-aware natural language interactions for virtual personal assistants
US9563629B2 (en) Information processing apparatus and information processing method
CN101305360A (en) Indexing and searching speech with text meta-data
US8443288B2 (en) Ubiquitous companion agent
JP2006004274A (en) Interactive processing device, interactive processing method, and interactive processing program
CN100423005C (en) Method and system for indexing entity
US9633653B1 (en) Context-based utterance recognition
CN105074816A (en) Facilitating development of a spoken natural language interface
JP4985974B2 (en) Communication support method, system and server equipment
CN102103634B (en) Information processing apparatus and method
EP1333426B1 (en) Voice command interpreter with dialog focus tracking function and voice command interpreting method
US20110153748A1 (en) Remote forensics system based on network