JP5379416B2 - Language processing apparatus and language processing method - Google Patents

Language processing apparatus and language processing method Download PDF

Info

Publication number
JP5379416B2
JP5379416B2 JP2008181978A JP2008181978A JP5379416B2 JP 5379416 B2 JP5379416 B2 JP 5379416B2 JP 2008181978 A JP2008181978 A JP 2008181978A JP 2008181978 A JP2008181978 A JP 2008181978A JP 5379416 B2 JP5379416 B2 JP 5379416B2
Authority
JP
Japan
Prior art keywords
reading
character string
language processing
partial
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008181978A
Other languages
Japanese (ja)
Other versions
JP2010020638A (en
JP2010020638A5 (en
Inventor
和恵 金子
津義 八木沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2008181978A priority Critical patent/JP5379416B2/en
Publication of JP2010020638A publication Critical patent/JP2010020638A/en
Publication of JP2010020638A5 publication Critical patent/JP2010020638A5/ja
Application granted granted Critical
Publication of JP5379416B2 publication Critical patent/JP5379416B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は言語処理装置および言語処理方法に関し、特に、文字列に対して新たに読みを付与することを支援する言語処理装置および言語処理方法に関する。   The present invention relates to a language processing apparatus and a language processing method, and more particularly to a language processing apparatus and a language processing method that support adding a new reading to a character string.

従来の仮名漢字変換システムや検索システム、文章読上げシステム、音声認識システム等においては、使用する辞書に登録されていない語(新出語)に対して読みを付与する場合は、ユーザに読みを入力させることが一般的である。   In the conventional kana-kanji conversion system, search system, text-to-speech system, speech recognition system, etc., if you want to give a reading to a word (new word) that is not registered in the dictionary to be used, input the reading to the user It is common to make it.

このような新出語の読みを登録するための方法として、以下のような様々な手法が提案されている。   The following various methods have been proposed as a method for registering readings of such new words.

例えば、閲覧したホームページ(HP)や電子メール等のテキストデータから語を取り出して、ユーザに読みを付与させて仮名漢字変換用のデータベースを更新する方法がある(特許文献1参照)。   For example, there is a method of taking out words from text data such as a browsed homepage (HP) or e-mail, and updating the database for kana-kanji conversion by giving the user reading (see Patent Document 1).

また、テキスト情報と音声情報の2種類の情報を入力して、ユーザによる読みの入力の手間を省く方法がある。具体的には、テキスト情報から未登録語と思われる語を抽出する一方で、ラジオなどで放送された音声を音声認識して文字情報に変えて、テキスト情報と同じ文章がある箇所を探し、未登録語の読み情報を取り出す(特許文献2参照)。   In addition, there is a method in which two types of information, text information and voice information, are input to save the user from inputting readings. Specifically, while extracting words that appear to be unregistered words from text information, the voice broadcast on the radio etc. is recognized and converted to text information, looking for places with the same sentence as text information, Reading information of unregistered words is taken out (see Patent Document 2).

また、ユーザにとって新出語と思われるものを検索キーとして、所定のテキストデータやインターネットの検索を行い、該検索結果を用いて新出語を説明する資料を作成する方法がある(特許文献3参照)。   Further, there is a method of searching for predetermined text data or the Internet using a search key as a new word for the user, and creating a material explaining the new word using the search result (Patent Document 3). reference).

また、検索結果を表示する方法としては、検索キーとマッチングする箇所を表示するものがあり、例えば、マッチングした箇所を特定箇所に配置し、その周囲の文脈を表示するKWIC(KeyWord In Context)検索が知られている。KWIC検索はインターネットにおける一般的な検索エンジンでも用いられており、検索結果としてHPの文章の抜粋を表示して、検索キーに該当する部分を太字にて強調表示する。また、質問用語を検索キーとして検索し、マッチングした箇所の周囲の文を表示する方法もある(特許文献4参照)。   In addition, as a method of displaying the search result, there is a method of displaying a location that matches the search key. For example, a KWIC (KeyWord In Context) search that places the matched location in a specific location and displays the surrounding context. It has been known. KWIC search is also used in general search engines on the Internet, and an HP text excerpt is displayed as a search result, and a portion corresponding to a search key is highlighted in bold. In addition, there is a method in which a query term is searched as a search key and a sentence around a matched portion is displayed (see Patent Document 4).

また、辞書への自動登録の方法としては、言語解析用の辞書に登録すべき語の統計情報として、インターネットでの検索結果を利用する方法がある(特許文献5参照)。   In addition, as a method of automatic registration in a dictionary, there is a method of using search results on the Internet as statistical information of words to be registered in a dictionary for language analysis (see Patent Document 5).

以上のような方法によって、ユーザが新出語の読みを登録し、利用することができる。
特開2002-229999号公報 特開2005-234219号公報 特開2004-157897号公報 特登録03303912号特許 特開2002-297587号公報
By the method as described above, the user can register and use the reading of the new word.
Japanese Patent Laid-Open No. 2002-229999 JP 2005-234219 A Japanese Patent Laid-Open No. 2004-157897 Patent No.03303912 Patent Japanese Patent Laid-Open No. 2002-297587

上記従来例として示したような、ユーザが新たな読みを随時登録する方法は、例えば仮名漢字変換システム等、ユーザによるドキュメント作成の際に行うのであれば十分に対応可能であった。   The method of registering new readings as needed by the user as shown in the above conventional example can be sufficiently handled if it is performed at the time of document creation by the user, such as a kana-kanji conversion system.

しかしながら、データがオンタイムで発生するニュースや電子番組表情報等を扱う場合には、辞書に未登録である新出語が出現することが多く、かつ読み方が分かりにくい場合も多い。このような場合、ユーザがその新出語の読みを正確にかつ即座に入力することは困難であった。   However, when dealing with news, electronic program guide information, etc. that occur on-time, new words that are not registered in the dictionary often appear and the reading is often difficult to understand. In such a case, it was difficult for the user to input the new word reading accurately and immediately.

例えば、上述した特許文献1に記載された方法では、ユーザが読みを知らない場合にはその読みを付与することはもちろんできないし、間違った読みを付与してしまう可能性もある。また特許文献2に記載された方法では、文字情報を補うための音声情報がない場合には、読みを付与することができない。   For example, in the method described in Patent Document 1 described above, if the user does not know the reading, it is of course impossible to give the reading, and there is a possibility of giving the wrong reading. In the method described in Patent Document 2, reading cannot be given if there is no audio information for supplementing character information.

そこで、システムが未知の新出語に対して読みを自動作成することが考えられるが、この場合、ユーザが読み誤りに気づかずに、間違った読みがそのまま登録・使用されてしまうという問題がある。このような誤登録を防ぐため、また、通常の読みと異なるような読み方が適用される場合も考慮して、自動作成された読みについてはユーザによる確認を併用することが望ましい。   Therefore, it is conceivable that the system automatically creates a reading for an unknown new word, but in this case, there is a problem that the wrong reading is registered and used as it is without the user noticing a reading error. . In order to prevent such erroneous registration, and in consideration of the case where reading different from normal reading is applied, it is desirable to use confirmation by the user together with automatically generated reading.

そこで、新出語について例えばインターネット検索を行うことによって、正しい読みを確認することが考えられる。この検索として特許文献3に記載された方法を適用した場合、表記のみに基づく検索が行われるため、該検索結果には読み情報を有さないものも多く含まれ、それらを一つ一つ調べるという煩雑な作業が必要となってしまう。   Therefore, it is conceivable to confirm the correct reading by performing, for example, an Internet search for new words. When the method described in Patent Document 3 is applied as this search, a search based only on the notation is performed, so the search results include many items that do not have reading information, and are examined one by one. This is a complicated task.

また、検索結果を表示する際には、新出語の正しい読みが記載された部分が、ユーザに視認され易いように例えば強調表示されることが望ましい。しかしながら、一般的な検索エンジンのように、検索結果において検索キー(この場合新出語)に該当する部分のみが強調表示される場合には、ユーザが知りたい読みに相当する箇所については強調表示されない。また、特許文献4に記載された、質問用語の周囲の文を表示する方法を用いても、読みとして知りたい部分が強調表示されるわけではない。   Further, when displaying the search result, it is desirable to highlight, for example, a portion where the correct reading of the new word is written so that the user can easily recognize it. However, when only the part corresponding to the search key (in this case, a new word) is highlighted in the search result like a general search engine, the part corresponding to the reading that the user wants to know is highlighted. Not. Moreover, even if the method of displaying the sentence surrounding the question term described in Patent Document 4 is used, the portion that is desired to be read is not highlighted.

また、新出語の読みを辞書登録する際にも、特許文献5に記載された、新出語の統計情報として検索結果を利用して辞書登録を行う方法においては、新出語の表記情報とその前後の接続関係を抽出して登録を行うため、読みに限定した登録はできない。   In addition, when registering a new word reading as a dictionary, the method of registering a dictionary using search results as statistical information of a new word described in Patent Document 5 uses new word notation information. Because the registration is performed by extracting the connection relationship before and after that, registration limited to reading is not possible.

このように、新出語の読みを確認して辞書登録するために、該新出語の表記のみをキーとした検索を行うと、その検索結果としては読みを含まない情報も多く抽出されてしまうため、ユーザが正確な読みを確認することは容易ではなかった。   In this way, in order to confirm the reading of a new word and register it in the dictionary, when a search is performed using only the new word notation as a key, a lot of information that does not include the reading is also extracted as the search result. Therefore, it is not easy for the user to confirm an accurate reading.

本発明は上述した問題を解決するためになされたものであり、新出語の文字列に対する適切な読みを効率良く決定することができる言語処理装置および言語処理方法を提供することを目的とする。   The present invention has been made to solve the above-described problem, and an object of the present invention is to provide a language processing apparatus and a language processing method capable of efficiently determining an appropriate reading for a character string of a new word. .

上記目的を達成するための一手段として、本発明の言語処理装置は以下の構成を備える。   As a means for achieving the above object, a language processing apparatus of the present invention comprises the following arrangement.

すなわち、処理対象となる文字列を取得する取得手段と、前記文字列に対する読み全体の一部を示す部分読み文字列を作成する部分読み作成手段と、前記文字列および前記部分読み文字列を検索キーとして、テキストデータを含むデータベースを検索する検索手段と、前記検索手段による検索結果に基づいて、前記文字列に対する読み全体における、前記部分読み文字列に該当しない部分の読みを示す補完読み文字列を補完して、該読み全体を示す全体読み文字列を一つ以上作成する全体読み作成手段と、を有することを特徴とする。 That is, an acquisition unit that acquires a character string to be processed, a partial reading generation unit that generates a partial reading character string that indicates a part of the entire reading of the character string, and the character string and the partial reading character string are searched A search means for searching a database including text data as a key, and a complementary reading character string indicating a reading of a portion not corresponding to the partial reading character string in the whole reading of the character string based on a search result by the searching means complement and characterized by having a, a creation means to read the whole to create entire read a string of one or more showing the entire reading said.

上記構成からなる本発明によれば、新出語の文字列に対する適切な読みを効率良く決定することができる。   According to the present invention configured as described above, it is possible to efficiently determine appropriate reading for a character string of a new word.

以下、添付の図面を参照して、本発明をその好適な実施形態に基づいて詳細に説明する。なお、以下の実施形態において示す構成は一例に過ぎず、本発明は図示された構成に限定されるものではない。   Hereinafter, the present invention will be described in detail based on preferred embodiments with reference to the accompanying drawings. The configurations shown in the following embodiments are merely examples, and the present invention is not limited to the illustrated configurations.

<第1実施形態>
●システム構成
本実施形態の情報処理システムにおいては、辞書に登録されていない文字列に対し、ユーザが適切な読みを付与することを支援する。
<First Embodiment>
System Configuration In the information processing system of the present embodiment, the user is supported to give appropriate readings to character strings that are not registered in the dictionary.

図1は、本実施形態の情報処理システムの構成を示すブロック図である。同図において、101は、読みの分からない文字列(以下、表記文字列)を取得する表記入力部である。102は、表記文字列を形態素解析するための形態素解析辞書である。103は、表記文字列を構成する形態素の読みや品詞などの情報を取得する形態素解析部である。104は、形態素解析結果を用いて、表記文字列に対する読み全体の一部を示す部分読み文字列を作成するための部分読み作成ルールである。105は、部分読み作成ルール104を用いて、形態素解析結果から不確かな部分の読みを排除して部分読み文字列を作成する、部分読み作成部である。106は、検索結果から、表記文字列に対する読み全体における、部分読み文字列に該当しない不確かな部分の読みを示す補完読み文字列を検出するための読み補完ルールである。107は、表記文字列と部分読みが検索される、検索対象テキストである。108は、表記文字列と部分読み文字列を検索キーとして、検索対象テキスト107を検索する検索部である。109は、検索結果から補完読み文字列を抽出することにより、表記文字列の読み全体を示す全体読み文字列を一つ以上作成する全体読み検知部である。110は、表記文字列に対する読みをユーザに示すべく検索結果を表示する結果表示部である。111は、一つ以上表示された検索結果から、表記文字列に対する適切な読みをユーザ指示に基づいて決定する操作入力部である。112は、表記文字列に対して最終決定された読みを、形態素解析辞書102に登録する辞書登録部である。なお、形態素解析辞書102、部分読み作成ルール104、読み補完ルール106、検索対象テキスト107、はそれぞれ、データベースの形態をとる。   FIG. 1 is a block diagram showing the configuration of the information processing system of this embodiment. In the figure, reference numeral 101 denotes a notation input unit that acquires a character string (hereinafter referred to as a notation character string) that cannot be read. Reference numeral 102 denotes a morpheme analysis dictionary for morphological analysis of a written character string. Reference numeral 103 denotes a morpheme analysis unit that acquires information such as readings and parts of speech of morphemes that form a written character string. Reference numeral 104 denotes a partial reading creation rule for creating a partial reading character string indicating a part of the entire reading of the written character string using the morphological analysis result. A partial reading creation unit 105 creates a partial reading character string by eliminating partial readings from the morphological analysis result using the partial reading creation rule 104. Reference numeral 106 denotes a reading completion rule for detecting a complementary reading character string indicating a reading of an uncertain part not corresponding to the partial reading character string in the entire reading of the written character string from the search result. Reference numeral 107 denotes a search target text in which a written character string and partial reading are searched. A search unit 108 searches the search target text 107 using the written character string and the partial reading character string as search keys. Reference numeral 109 denotes a whole reading detection unit that creates one or more whole reading character strings indicating the whole reading of the written character string by extracting a complementary reading character string from the search result. Reference numeral 110 denotes a result display unit that displays a search result in order to show the user the reading of the written character string. An operation input unit 111 determines an appropriate reading for the written character string based on a user instruction from one or more displayed search results. Reference numeral 112 denotes a dictionary registration unit for registering the final reading for the written character string in the morphological analysis dictionary 102. Note that the morphological analysis dictionary 102, the partial reading creation rule 104, the reading completion rule 106, and the search target text 107 each take the form of a database.

●読み検索処理
図2は、本実施形態における、新出語に対する読みの検索処理を示すフローチャートである。
Reading Reading Process FIG. 2 is a flowchart showing a reading search process for a new word in the present embodiment.

まずステップS201で表記入力部101において、読みの検索対象となる表記文字列を入力する。そしてステップS202で形態素解析部103において、該入力された表記文字列に対して形態素解析辞書102を用いて形態素解析を施し、その読みや品詞を求める。   First, in step S201, the notation input unit 101 inputs a notation character string to be read. In step S202, the morpheme analysis unit 103 performs morpheme analysis on the input written character string using the morpheme analysis dictionary 102, and obtains its reading and part of speech.

次にステップS203で部分読み作成部105において、形態素解析結果から不確定と思われる部分を除外して、部分読み文字列を作成する。この作成処理は部分読み作成ルール104を参照して行われる。   Next, in step S203, the partial reading creation unit 105 creates a partial reading character string by excluding a part that is considered indeterminate from the morphological analysis result. This creation process is performed with reference to the partial reading creation rule 104.

ここで図3に、部分読み作成ルール104における、不確定部分の除外ルールの例を示す。本実施形態では、不確定部分の除外ルールとして、表記文字列の種別による分類を採用している。この種別は、表記文字列が含まれるテキストのフォーマットを解析する等によって、予め与えられているものとする。そして、表記種別に応じて、不確定部分の除外理由が規定されている。除外理由としては、「A.姓と名の固有名詞以外の品詞の語がある」「B.複数の読み方がある」「C.漢字表記の未知語を含む」「D.アルファベット表記の未知語を含む」「E.記号や数字を含む」がある。図3の例では、「人名」種別に対しては、A〜Eの5種類の除外理由があり、「タイトル」種別に対してはB〜Eの4種類の除外理由がある。   Here, FIG. 3 shows an example of an indeterminate portion exclusion rule in the partial reading creation rule 104. In the present embodiment, classification based on the type of written character string is adopted as an exclusion rule for indeterminate portions. This type is given in advance, for example, by analyzing the format of a text including a notation character string. And the reason for excluding the uncertain part is defined according to the notation type. Reasons for exclusion are: “A. There are words with parts of speech other than proper names of surnames and surnames”, “B. There are multiple readings”, “C. Including unknown words in Kanji” “D. Unknown in alphabets” And "E. Including symbols and numbers". In the example of FIG. 3, there are five types of exclusion reasons A to E for the “person name” type, and four types of exclusion reasons B to E for the “title” type.

例えば、表記種別「人名」に対して適用される除外理由Aは、「姓と名の構成以外に別品詞の語が混入している」場合、別品詞が混入した位置で解析誤りを起こしているものとみなし、該誤りを除外する旨を示す。したがってこの除外理由Aによれば、確定できる姓もしくは名のどちらか一方が部分読みとして採用される。具体的には、「杉田佐智枝」という表記文字列がある場合に、「杉田(すぎた 固有名詞 姓)佐(すけ 名詞)智枝(ちえ 固有名詞 名)」という解析結果が得られたとする。この場合、人名の中に名詞の「佐(すけ 名詞)」が混在しているとため、名の部分の読みが不適切であると判断され、「すぎた」が部分読みとして採用される。   For example, the reason for exclusion A applied to the notation type “person name” is that if “a word with a different part of speech is mixed in addition to the composition of the surname and first name”, an analysis error occurs at the position where the different part of speech is mixed. This indicates that the error is excluded. Therefore, according to this exclusion reason A, either the last name or the last name that can be confirmed is adopted as the partial reading. Specifically, if there is a notation character string “Satomi Sugita”, it is assumed that an analysis result “Sugita (sugi no proper surname) Sa (Suke noun) Tomoe (Chi proper name)” is obtained. In this case, since the noun “sa (noun)” is mixed in the personal name, it is determined that the reading of the name part is inappropriate, and “too much” is adopted as the partial reading.

なお、表記種別「人名」または「タイトル」に対して適用される、他の除外理由B〜Eについても、図3にそれぞれの具体例を示し、ここでは簡単に説明する。   Other exclusion reasons B to E applied to the notation type “person name” or “title” are also shown in FIG. 3 and will be briefly described here.

除外理由Bは、「複数の読み方がある」場合に、該複数の読み方の可能性がある部分を除外する旨を示し、残った確定可能な読みが部分読みとして採用される。具体的には、「国分一郎」という表記文字列がある場合に、解析結果として「国分」に二通りの読みが存在しているため、これを除外した残りである「いちろう」を部分読みとして採用する。   The reason for exclusion B indicates that, in the case of “a plurality of readings”, a part having a possibility of the plurality of readings is excluded, and the remaining definable readings are adopted as the partial readings. Specifically, if there is a character string “Kokubun Ichiro”, there are two readings in “Kokubun” as the analysis result, so the remaining “Ichirou” is excluded as a partial reading. adopt.

また、除外理由Cは、「漢字表記の未知語を含む」場合に、該未知語を除外する旨を示し、残った読みが部分読みとして採用される。具体的には、「川井礼乃」という表記文字列がある場合に、解析結果として「礼乃」が未知語であるため、これを除外した残りである「かわい」を部分読みとして採用する。   Further, the exclusion reason C indicates that the unknown word is excluded in the case of “including an unknown word expressed in Kanji”, and the remaining reading is adopted as the partial reading. Specifically, when there is a notation character string “Reino Kawai”, “Reino” is an unknown word as an analysis result. Therefore, “Kawai”, which is the remaining word except for this, is adopted as a partial reading.

また、除外理由Dは、「アルファベット表記の未知語を含む」場合に、該未知語を除外する旨を示し、残った読みが部分読みとして採用される。具体的には、「新入幕SuperRookie」という表記文字列がある場合に、解析結果として「SuperRookie」が未知語であるため、これを除外した残りである「しんにゅうまく」を部分読みとして採用する。   The exclusion reason D indicates that the unknown word is excluded in the case of “including unknown words expressed in alphabets”, and the remaining reading is adopted as the partial reading. Specifically, when there is a character string “New Entrance SuperRookie”, “SuperRookie” is an unknown word as an analysis result.

また、除外理由Eは、「記号や数字を含む」場合に、該記号や数字を除外する旨を示し、残った読みが部分読みとして採用される。具体的には、「西ジャニ∞」という表記文字列がある場合に、解析結果として「∞」が未知語であるため、これを除外した残りである「にしじゃに」を部分読みとして採用する。   The exclusion reason E indicates that the symbol or number is excluded when “includes symbol or number”, and the remaining reading is adopted as the partial reading. Specifically, when there is a notation character string “West Jani ∞”, since “∞” is an unknown word as an analysis result, the remaining “Nishijani” is excluded as a partial reading. .

なお、本実施形態では除外ルールに基づいて部分読みを自動作成する例を示したが、ユーザによる指示入力によって部分読みを決定することも可能である。   In the present embodiment, an example in which partial reading is automatically created based on an exclusion rule has been described. However, partial reading can be determined by an instruction input by a user.

以上のように部分読みが作成されると、次にステップS204で検索部108において、表記文字列と部分読み文字列を検索キーとして、検索対象テキスト107を検索する。   When the partial reading is created as described above, in step S204, the search unit 108 searches the search target text 107 using the notation character string and the partial reading character string as search keys.

そしてステップS205では、何らかの検索結果が得られたか否かを判定する。検索結果がない場合にはステップS212に進み、該当する表記文字列と部分読み文字列が無いために、参考となる読みを提示できない旨を表示して、処理を終了する。   In step S205, it is determined whether any search result is obtained. If there is no search result, the process advances to step S212 to display that the reference reading cannot be presented because there is no corresponding notation character string and partial reading character string, and the process ends.

一方、検索結果があった場合にはステップS206に進み、全ての検索結果について後述する処理が終了したか否かを判定し、未処理の検索結果が残っている場合にはステップS207に進む。   On the other hand, if there is a search result, the process proceeds to step S206, where it is determined whether or not the processing described later has been completed for all the search results, and if there is an unprocessed search result, the process proceeds to step S207.

ステップS207では検索結果の一つを取り出し、次にステップS208で全体読み検知部109において、該検索結果に基づいて表記文字列と読みの同定を行う。すなわち、表記文字列と部分読み文字列による検索結果から、該当箇所の含まれるテキストについて、表記文字列に対する読み全体における、部分読み文字列に該当しない部分である補完読み文字列を抽出することにより、表記文字列に対する読み全体を確定する。この確定の際には、予め定められた読み補完ルール106が適用される。以下、ここで確定された表記文字列に対する読み全体を全体読み文字列と称する。すなわち、ここで抽出された補完読み文字列を部分読み文字列に付与することによって、全体読み文字列が確定する。   In step S207, one of the search results is extracted, and in step S208, the whole reading detection unit 109 identifies the written character string and the reading based on the search result. That is, by extracting the supplementary reading character string that is a portion not corresponding to the partial reading character string in the whole reading for the notation character string from the search result by the written character string and the partial reading character string. , Confirm the entire reading for the notation string. In this determination, a predetermined reading completion rule 106 is applied. Hereinafter, the entire reading for the notation character string determined here is referred to as a whole reading character string. That is, by adding the complementary reading character string extracted here to the partial reading character string, the entire reading character string is determined.

ここで図4に、読み補完ルール106の例を示す。読み補完ルール106はすなわち、検索結果に含まれる、表記文字列および部分読み文字列の位置関係に基づいて、補完読み文字列を抽出するための規則を規定したものである。ここでは、図3に示した除外ルールにおいて、除外理由Cの具体例として示した表記「川井礼乃」を例として、詳細に説明する。この場合、ステップS203で部分読みとして「かわい」が生成され、ステップS204で「川井礼乃」と「かわい」を検索キーとして検索が行われている。   Here, FIG. 4 shows an example of the reading completion rule 106. That is, the reading completion rule 106 defines a rule for extracting a complementary reading character string based on the positional relationship between the written character string and the partial reading character string included in the search result. Here, in the exclusion rule shown in FIG. 3, the description “Reino Kawai” shown as a specific example of the reason for exclusion C will be described in detail. In this case, “kawai” is generated as a partial reading in step S203, and the search is performed using “no Kawai” and “kawai” as search keys in step S204.

図4の検出条件Aは、「表記に連続して括弧で囲む箇所があり、括弧の内部がすべて仮名でかつ部分読みが含まれる」場合に、「括弧の内部の仮名における、部分読み以外」の箇所を、補間読みとして検出する旨を示す。すなわち、表記の直後に括弧で囲まれた仮名文字列があり、その仮名列が部分読みを含む場合、部分読みを除外した部分が求める読みの補間部分となる。図4に示す具体例では、下線部分の「あやの」が補完読み文字列として抽出される。   The detection condition A in FIG. 4 is “when there is a part enclosed in parentheses in the notation, and the inside of the parenthesis is all kana and includes partial reading”, “other than partial reading in kana inside the parenthesis” This indicates that the part is detected as interpolation reading. That is, when there is a kana character string enclosed in parentheses immediately after notation, and the kana string includes partial reading, a portion excluding partial reading becomes an interpolation portion of the reading. In the specific example shown in FIG. 4, “Ayano” in the underlined portion is extracted as a complementary reading character string.

なお、本実施形態では読み補間ルールとして他の検出条件B〜Eも有するが、その具体例を図4に示し、ここでは簡単に説明する。   In the present embodiment, other detection conditions B to E are included as a reading interpolation rule. A specific example thereof is shown in FIG. 4 and will be briefly described here.

検出条件Bは、「表記に連続して括弧で囲む箇所があり、括弧の内部に部分読みが含まれる」場合に、「括弧の内部の部分読みを含む仮名文字列における、部分読み以外」の箇所を、補完読み文字列として検出する旨を示す。   The detection condition B is “other than partial reading in a kana character string including partial reading inside the parenthesis” when “there is a portion enclosed in parentheses in the notation and partial reading is included inside the parenthesis”. This indicates that the location is detected as a complementary reading character string.

検出条件Cは、「表記の前後に読みを示すタグ表記があり、それに連続して部分読みを含む仮名文字列がある」場合に、「仮名文字列における、部分読み以外」の箇所を、補完読み文字列として検出する旨を示す。   The detection condition C is that when there is a tag notation indicating reading before and after the notation, and there is a kana character string including a partial reading in succession, a part other than “partial reading in the kana character string” is complemented. Indicates that it is detected as a reading character string.

検出条件Dは、「表記の前後一定区間内に、部分読みを含む仮名文字列がある」場合に、「仮名文字列における、部分読みの前後」の箇所を、補完読み文字列として検出する旨を示す。   The detection condition D is that, when “there is a kana character string including a partial reading in a certain section before and after the notation”, the position “before and after partial reading in the kana character string” is detected as a complementary reading character string. Indicates.

検出条件Eは、「表記を含む括弧で囲まれた箇所があり、その後に括弧で囲む箇所があり、括弧の内部に部分読みを含む仮名文字列がある」場合に、以下に示す箇所を補完読み文字列として検出する旨を示す。すなわち、「括弧内部の仮名文字列における、部分読み以外で、表記の前後にある文字の読み以外」の箇所を検出する。   Detection condition E complements the following parts when "There is a part enclosed in parentheses including the notation, followed by a part enclosed in parentheses, and there is a kana character string including partial reading inside the parentheses" Indicates that it is detected as a reading character string. That is, a part of “a reading of characters in front and back of a kana character string inside a parenthesis other than a partial reading is detected” is detected.

以上のように全体読み文字列が確定されると、次にステップS209において、現在の検索結果に基づいて確定された全体読み文字列が、これまでの検索結果に現れていない、すなわち候補として作成されていない新しい全体読み文字列であるか否かを判定する。新しい全体読み文字列であればステップS211に進み、「表記・読み」の候補を新しく作成し、ステップS210で該新規作成された「表記・読み」の候補に対し、現在処理中であった検索結果を追加する。一方、新しい全体読み文字列でない、すなわち既に検出された全体読み文字列である場合にはステップS210に進み、すでに作成されている「表記・読み」の候補に対して、現在処理中であった検索結果を追加する。   When the entire reading character string is determined as described above, in step S209, the entire reading character string determined based on the current search result does not appear in the previous search results, that is, is created as a candidate. It is determined whether or not it is a new whole reading character string that has not been processed. If it is a new whole reading character string, the process proceeds to step S211, and a new “notation / reading” candidate is created, and the newly created “notation / reading” candidate is currently being processed for the newly created “notation / reading” candidate. Add results. On the other hand, if it is not a new whole reading character string, that is, if it is an already detected whole reading character string, the process proceeds to step S210, and a “notation / reading” candidate already created is currently being processed. Add search results.

その後、処理はステップS206に戻って、全ての検索結果に対する処理が終了したか否かを判定する。終了していればステップS212に進んで、「表記・読み」の候補と、それに対応付けられる検索結果のリストを結果表示部110に表示することによってユーザに提示し、処理を終了する。   Thereafter, the processing returns to step S206, and it is determined whether or not the processing for all search results has been completed. If completed, the process proceeds to step S212, where a “notation / reading” candidate and a list of search results associated therewith are displayed on the result display unit 110 to be presented to the user, and the process ends.

以上の読み検索処理により、新出語の表記と読みに対する一つ以上の候補が、その根拠としての検索結果とともにリスト表示されるため、ユーザが適切な読みを選択することが容易に可能となる。   Through the above-described reading search process, one or more candidates for new word notation and reading are displayed in a list together with the search results as the basis thereof, so that the user can easily select an appropriate reading. .

●表記入力処理
ここで、本実施形態における表記入力部101について、詳細に説明する。図5は、表記入力部101の詳細構成を示すブロック図である。図5において、501は、処理対象となるテキストデータを入力するテキスト入力部である。502は、入力されたテキストデータを解析して、新出語を検出する新出語検出部である。503は、これまでに入力されたテキスト中に出現した語の履歴管理を行う出現履歴データベースであり、語についての出現頻度や出現時刻情報を有する。表記入力部101ではすなわち、新出語検出部502で新出語として検出された語を、読みの検索対象となる表記文字列として形態素解析部103へ出力する。
Notation Input Processing Here, the notation input unit 101 in this embodiment will be described in detail. FIG. 5 is a block diagram showing a detailed configuration of the notation input unit 101. In FIG. 5, reference numeral 501 denotes a text input unit for inputting text data to be processed. A new word detection unit 502 analyzes input text data and detects a new word. Reference numeral 503 denotes an appearance history database that manages the history of words that have appeared in the text input so far, and has appearance frequency and appearance time information about the words. That is, the notation input unit 101 outputs a word detected as a new word by the new word detection unit 502 to the morpheme analysis unit 103 as a notation character string to be searched for reading.

ここで、表記入力部101の新出語検出部502における新出語検出処理について、図6のフローチャートを用いて説明する。   Here, the new word detection processing in the new word detection unit 502 of the notation input unit 101 will be described with reference to the flowchart of FIG.

まずステップS601において、テキスト入力部501から処理対象となるテキストデータを入力する。そしてステップS602において、該入力されたテキストデータのフォーマットを解析する。具体的には、テレビの電子番組表のように、タイトル、出演者、ジャンル、概要などの記述フォーマットが予め定められているものを想定すると、それぞれの項目を切り出す。例えば出演者については、人名一つ一つについて切り出しを行う。なお、電子番組表のような定型フォーマットのみならず、非定型フォーマットのテキストデータを処理対象とすることも可能である。その場合には、形態素解析結果を利用して新出語の単位を単語とする。または、係り受け解析を用いて新出語の単位を句としても良い。   First, in step S601, text data to be processed is input from the text input unit 501. In step S602, the format of the input text data is analyzed. Specifically, assuming that a description format such as title, performer, genre, and outline is predetermined as in an electronic program guide on television, each item is extracted. For example, performers are cut out for each person name. It should be noted that text data in an atypical format as well as a standard format such as an electronic program guide can be processed. In that case, the unit of a new word is made into a word using a morphological analysis result. Alternatively, the unit of new words may be a phrase using dependency analysis.

以上のように入力されたテキストデータからの語の切り出しが終了すると、次にステップS603において、切り出した語の全てについて、後述する新出語判定処理が終了したか否かを判定する。全て終了していれば処理を終了するが、未処理の語があればステップS604に進む。   When the extraction of words from the text data input as described above is completed, in step S603, it is determined whether or not a new word determination process described later has been completed for all of the extracted words. If all have been completed, the process ends. If there is an unprocessed word, the process proceeds to step S604.

ステップS604では、切り出した語の一つを現処理対象語として取り出す。そしてステップS605で現処理対象語をキーとして出現履歴データベース503を検索することによって、ステップS606で現処理対象語が新出語であるか否かを判定する。この判定方法としては例えば、現処理対象語の出現履歴を参照して、未だ管理されていない、すなわち出現履歴が無い場合にはもちろん、現処理対象語は新出語であると判定される。また、たとえ出現履歴があってもその出現頻度や出現時刻情報により、まれにしか出現せず最終出現時刻が古いような場合には、現処理対象後は読みを調べなおす必要があると判断し、すなわち新出語と同様であると判定される。   In step S604, one of the extracted words is extracted as the current processing target word. Then, by searching the appearance history database 503 using the current processing target word as a key in step S605, it is determined in step S606 whether the current processing target word is a new word. As this determination method, for example, with reference to the appearance history of the current processing target word, it is determined that the current processing target word is a new word as a matter of course when it is not managed yet, that is, there is no appearance history. Also, even if there is an appearance history, if it appears rarely and the last appearance time is old due to the appearance frequency and appearance time information, it is determined that it is necessary to reexamine the reading after the current processing target. That is, it is determined that it is the same as the new word.

なお、ここでは新出語の判定を出現履歴データベース503を参照することによって行う例を示したが、本発明はこの例に限定されず、例えば形態素解析辞書102を参照して、未登録であれば新出語であると判定しても良い。   Although an example in which the determination of a new word is performed by referring to the appearance history database 503 is shown here, the present invention is not limited to this example, and may be unregistered with reference to the morphological analysis dictionary 102, for example. It may be determined that the word is a new word.

新出語であれば、ステップS607で現処理対象語を形態素解析部103へ出力し、その後ステップS608において出現履歴データベース503にこれを登録する。一方、新出語でなければ、ステップS608で出現履歴データベース503に対し、出現頻度と出現時刻履歴の更新を行う。   If it is a new word, the current processing target word is output to the morpheme analyzing unit 103 in step S607, and is registered in the appearance history database 503 in step S608. On the other hand, if it is not a new word, the appearance frequency and appearance time history are updated in the appearance history database 503 in step S608.

なお、ステップS606における新出語判定が出現履歴の有無のみに依存する場合には、出現頻度や出現時刻を保存する必要はない。すなわちこの場合、ステップS606で新出語でないと判断されれば、ステップS608の出現頻度と出現時刻履歴の更新は行わないようにしても良い。   If the new word determination in step S606 depends only on the presence / absence of the appearance history, it is not necessary to store the appearance frequency and the appearance time. That is, in this case, if it is determined in step S606 that the word is not a new word, the appearance frequency and appearance time history in step S608 may not be updated.

以上のステップS604〜S608の処理を、テキストデータから切り出された全ての語に対して行うことで、該テキストデータに含まれる全ての新出語に対し、上述した第1実施形態における読み検索処理が施され、読み候補が提示される。   The above-described processing of steps S604 to S608 is performed on all words extracted from the text data, so that all the new words included in the text data are read and searched in the first embodiment described above. And candidate readings are presented.

このように本実施形態では、テキストに出現する語の履歴に基づいて新出語を検出することにより、更新が必要な読みが古いまま使用されてしまうことを防ぐことができる。   As described above, in the present embodiment, by detecting a new word based on the history of words appearing in the text, it is possible to prevent the reading that needs to be updated from being used as it is old.

●結果表示・登録処理
以下、本実施形態における結果表示部110における表示方法ついて、詳細に説明する。
Result Display / Registration Processing A display method in the result display unit 110 in this embodiment will be described in detail below.

結果表示部110においては、表記文字列と部分読み文字列による検索結果を表示する際に、入力として与えられた表記文字列と、部分読み文字列を補完する補完読み文字列を、周りにある他の文字列とは異なる表示形態によって強調表示する。   In the result display unit 110, when displaying the search result by the notation character string and the partial reading character string, the notation character string given as an input and the complementary reading character string for complementing the partial reading character string are around. It is highlighted with a display form different from other character strings.

例えば、「川井礼乃」という表記文字列と「かわい」という部分読み文字列が与えられた場合、対応付けられた検索結果中の「礼乃」に該当する補完読み文字列を強調表示する。この場合の強調表示としては、反転、文字色、背景色、フォントの大きさの変更や、また太字表示や明滅表示、または下線を付す、等が考えられる。図4に示した読み補間ルールの具体例においては、このように下線を付した強調表示の例が示されている。   For example, when a notation character string “Reino Kawai” and a partial reading character string “Kawai” are given, the supplementary reading character string corresponding to “Reino” in the associated search result is highlighted. As highlighting in this case, inversion, change of character color, background color, font size, bold display, blinking display, underline, etc. can be considered. In the specific example of the reading interpolation rule shown in FIG. 4, an example of highlighting with an underline is shown.

ここで図7に、結果表示部110における他の強調表示例を示す。この例では、表記文字列「国分一郎」と、部分読み文字列「いちろう」を検索キーとした場合に、「こくぶんいちろう」と「こくぶいちろう」の2種類の全体読み文字列が検出されている。なお本実施形態では、同じ表記文字列と全体読み文字列の対(1候補)については、対応する一つ以上の検索結果をまとめて表示する。   Here, FIG. 7 shows another example of highlighted display in the result display unit 110. In this example, when the notation character string “Ichiro Kokubun” and the partial reading character string “ICHIRO” are used as search keys, two types of whole reading character strings “KOKUBUICHIRO” and “KOKUBUICHIRO” are detected. ing. In the present embodiment, for a pair (one candidate) of the same written character string and whole reading character string, one or more corresponding search results are collectively displayed.

図7の左側における「表記・読み」の候補の表示には、チェックボックスが付与されている。ユーザは、操作入力部111よりいずれかのチェックボックスを選択することによって、表記文字列に対する適切な全体読み文字列を指示し、該指示された候補が、辞書登録部112によって形態素解析辞書102に新規登録される。   A check box is added to the display of candidates for “notation / reading” on the left side of FIG. The user selects an appropriate whole reading character string for the written character string by selecting any check box from the operation input unit 111, and the instructed candidate is stored in the morphological analysis dictionary 102 by the dictionary registration unit 112. New registration.

図7の中央に表示される検索結果のそれぞれにおいては、テキスト中に現れた表記文字列、部分読み文字列、および補完読み文字列が表示されている。特に補完読み文字列については、下線の付与による強調表示がなされている。なお図7に示す例では、検索キーとして使用された表記文字列(国分一郎)と部分読み文字列(いちろう)についても、太字による強調表示を行っているが、補完読み文字列とは明確に区別される。なお、「表記・読み」の候補における表記文字列と全体読み文字列においても検索結果表示と同様に、補完読み文字列等を強調表示しても良い。
また、図7の右側には各検索結果のリンク先が表示されており、ユーザが各検索結果におけるテキストの信憑性を判断したい場合は、それぞれのリンクをたどって原文の内容を確認することができる。
In each of the search results displayed in the center of FIG. 7, a notation character string, a partial reading character string, and a complementary reading character string appearing in the text are displayed. In particular, the supplementary reading character string is highlighted by underlining. In the example shown in FIG. 7, the notation character string (Ichiro Kokubun) and the partial reading character string (ICHIRO) used as the search keys are also highlighted in bold, but the supplementary reading character string is clearly Differentiated. Note that the supplementary reading character string or the like may be highlighted in the notation character string and the entire reading character string in the “notation / reading” candidate as in the search result display.
Further, the link destination of each search result is displayed on the right side of FIG. 7, and when the user wants to determine the authenticity of the text in each search result, the contents of the original text can be confirmed by following each link. it can.

以上説明したように本実施形態によれば、新出語の表記文字列とその全体読み文字列の一つ以上の候補が、対応する検索結果とともにリスト表示される。さらに、該表示においては補完読み文字列が強調表示されるため、ユーザによる閲覧性が向上し、ユーザが適切な読みを選択し、登録することが容易に可能となる。   As described above, according to the present embodiment, one or more candidates for the new character notation character string and the whole reading character string are displayed together with the corresponding search results. Furthermore, since the supplementary reading character string is highlighted in the display, the user's viewability is improved, and the user can easily select and register an appropriate reading.

<変形例>
なお、本発明は上述した実施形態に限定されるものではなく、その変形例もまた、本発明の範疇である。以下、本実施形態に対する変形例を挙げる。
<Modification>
In addition, this invention is not limited to embodiment mentioned above, The modification is also the category of this invention. Hereafter, the modification with respect to this embodiment is given.

本実施形態では、読みを平仮名の文字列として説明したが、本発明はこの例に限らず、例えばカタカナやローマ字であっても良い。
また本実施形態では、読み補完ルールにおいて、部分読み文字列の表記文字列上での位置情報については特に考慮していない。そこで、この位置情報を用いてマッチングを行い、前後に余分な仮名が存在する場合に、提示順序を変更するか、検索結果として採用しないようにしても良い。
In the present embodiment, the reading has been described as a character string of hiragana, but the present invention is not limited to this example, and may be, for example, katakana or romaji.
In the present embodiment, the position information on the notation character string of the partial reading character string is not particularly considered in the reading completion rule. Therefore, matching may be performed using this position information, and the presentation order may be changed or not employed as a search result when there are extra kana characters before and after.

また読み補完処理においては、検索結果から抽出された補完読み文字列をそのまま採用している例を示したが、漢字などの読み方を参照して、読みの確からしさを検討することも有効である。すなわち、この確からしさに基づいて提示順序を変更するか、検索結果として採用しないようにしても良い。   Moreover, in the reading completion process, an example is shown in which the complementary reading character string extracted from the search result is used as it is. However, it is also effective to examine the accuracy of reading by referring to how to read kanji. . That is, the presentation order may be changed based on the certainty or may not be adopted as a search result.

また、部分読み文字列として全体読み文字列内の1箇所のみを採用する例を示したが、読みの確かな部分を複数箇所採用して、これらを検索キーとして用いても良い。この場合、複数箇所についての読み補完が行われる。   Moreover, although the example which employ | adopts only one place in the whole reading character string as a partial reading character string was shown, you may employ | adopt a part with certain reading and use these as a search key. In this case, reading complementation is performed for a plurality of locations.

また、読み付け対象である表記文字列について、その種別が予め与えられているものとして説明したが、これを与えずに、固有名詞辞書を用いた形態素解析によって得られる種別(人名や地名等)を用いても良い。   In addition, the description character string to be read is described as having been given in advance, but the type (person name, place name, etc.) obtained by morphological analysis using a proper noun dictionary without giving it. May be used.

また、部分読み作成ルールにおいて「人名」や「タイトル」などの表記種別を用いているが、テキストデータのフォーマットを解析することで得られる属性を検索キーとして追加しても良い。例えば電子番組表のように、タイトル、出演者、ジャンル、概要などのフォーマット情報を有するデータに対し、まず、「出演/」「監督/」「脚本/」などタグから人名の職業を求る。そしてさらに検索結果を絞り込むために、「タレント」「監督」「脚本家」などの職業を検索キーとして追加しても良い。   In addition, in the partial reading creation rule, a notation type such as “person name” or “title” is used, but an attribute obtained by analyzing the format of text data may be added as a search key. For example, for data having format information such as title, performer, genre, and outline, such as an electronic program guide, first, the occupation of the person's name is obtained from tags such as “appearance /”, “director /”, and “screenplay /”. In order to further narrow down the search results, occupations such as “talent”, “director”, and “screenwriter” may be added as search keys.

また本実施形態では、検索対象テキスト107のデータベースを検索対象としているが、インターネットなどのネットワークを介した検索を行っても良いことはもちろんである。このように、インターネットを経由した検索を行う場合には、URLの記述を対象として部分読みのローマ字文字列を検索しても良い。この場合、読み補完ルールにおいて、"/"や".","@"等を括弧に代えて用いても良い。例えば「雍正王朝」という表記文字列から、「ouhyou」という読みを作成して検索することによって、「www.xxx.jp/yyy/xxx/youseiouhyou.htm」というURLが検出されたとする。この場合、該URL内部の"/"や"."を読みのローマ字列の区切り記号として使用して「youseiouhyou」を切り出し、部分読み文字列を除外して、「yousei」という読みを補完読み文字列とすることができる。   In the present embodiment, the database of the search target text 107 is a search target, but it goes without saying that the search may be performed via a network such as the Internet. In this way, when performing a search via the Internet, a partially read Roman character string may be searched for the description of the URL. In this case, "/", ".", "@", Etc. may be used instead of parentheses in the reading completion rule. For example, it is assumed that a URL “www.xxx.jp/yyy/xxx/youseiouhyou.htm” is detected by creating and searching a reading “ouhyou” from a character string “Masamasa dynasty”. In this case, “youseiouhyou” is cut out using “/” or “.” In the URL as a delimiter of the reading Roman character string, the partial reading character string is excluded, and the reading “yousei” is replaced with the supplementary reading character. Can be a column.

また、同じ「表記・読み」の対(候補)に対して検索結果を追加して表示する例を示したが、同じ「表記・読み」の候補について結果をマージせずに、複数の検索結果のそれぞれに対して「表記・読み」を付与して表示しても良い。   In addition, an example was shown in which search results are added and displayed for the same “notation / reading” pair (candidate), but multiple search results can be displayed without merging the results for the same “notation / reading” candidate. Each may be displayed with “notation / reading”.

また、図2のステップS205において検索結果が無い場合には、検索結果が見つからない旨を表示して終了する例を示した。しかしながらこのような場合に、適切とした部分読みに対して別の読み方を付与したもの、または不適切とした読み部分をキーとしたもの等を部分読み文字列として、再度検索を繰り返しても良い。このように、別の部分読み文字列を作成して検索を繰り返す場合、最初に不適切と思われる部分の部分読み文字列の組み合わせもあわせて作成し、全ての可能性に対して検索を行い、検索結果の提示の際に確実と思われる順に提示するようにしても良い。   Further, in the case where there is no search result in step S205 in FIG. 2, an example is shown in which the search result is not found and the process ends. However, in such a case, the search may be repeated again using a partial reading character string that is obtained by adding another reading to the appropriate partial reading or using the inappropriate reading portion as a key. . In this way, when creating another partial reading character string and repeating the search, first create a combination of partial reading character strings of parts that seem to be inappropriate first, and search for all possibilities. Alternatively, the search results may be presented in an order that seems to be certain.

なお、本実施形態によって更新された形態素解析辞書102は、音声合成システムにおける読み付け処理の際に利用しても良いし、音声認識システムにおける音声認識グラマ作成の際に利用しても良い。   Note that the morphological analysis dictionary 102 updated according to the present embodiment may be used for reading processing in the speech synthesis system or may be used for creating speech recognition grammars in the speech recognition system.

<他の実施形態>
本発明は例えば、システム、装置、方法、プログラム若しくは記憶媒体(記録媒体)等としての実施態様をとることが可能である。具体的には、複数の機器(例えば、ホストコンピュータ、インタフェース機器、スキャナ、webアプリケーション等)から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
<Other embodiments>
The present invention can take the form of, for example, a system, apparatus, method, program, or storage medium (recording medium). Specifically, the present invention may be applied to a system composed of a plurality of devices (for example, a host computer, an interface device, a scanner, a web application, etc.), or may be applied to an apparatus composed of a single device. .

本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される。なお、この場合のプログラムとは、実施形態において図に示したフローチャートに対応したコンピュータ可読のプログラムである。   The present invention also provides a software program that implements the functions of the above-described embodiments directly or remotely to a system or apparatus, and the system or apparatus computer reads out and executes the supplied program code. Achieved. The program in this case is a computer-readable program corresponding to the flowchart shown in the drawing in the embodiment.

従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。   Accordingly, since the functions of the present invention are implemented by computer, the program code installed in the computer also implements the present invention. In other words, the present invention includes a computer program itself for realizing the functional processing of the present invention.

その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等の形態であっても良い。   In that case, as long as it has the function of a program, it may be in the form of object code, a program executed by an interpreter, script data supplied to the OS, or the like.

プログラムを供給するための記録媒体としては、以下に示す媒体がある。例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD-ROM、CD-R、CD-RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD-ROM,DVD-R)などである。   Recording media for supplying the program include the following media. For example, floppy disk, hard disk, optical disk, magneto-optical disk, MO, CD-ROM, CD-R, CD-RW, magnetic tape, nonvolatile memory card, ROM, DVD (DVD-ROM, DVD- R).

プログラムの供給方法としては、以下に示す方法も可能である。すなわち、クライアントコンピュータのブラウザからインターネットのホームページに接続し、そこから本発明のコンピュータプログラムそのもの(又は圧縮され自動インストール機能を含むファイル)をハードディスク等の記録媒体にダウンロードする。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明に含まれるものである。   As a program supply method, the following method is also possible. That is, the browser of the client computer is connected to a homepage on the Internet, and the computer program itself (or a compressed file including an automatic installation function) of the present invention is downloaded to a recording medium such as a hard disk. It can also be realized by dividing the program code constituting the program of the present invention into a plurality of files and downloading each file from a different homepage. That is, a WWW server that allows a plurality of users to download a program file for realizing the functional processing of the present invention on a computer is also included in the present invention.

また、本発明のプログラムを暗号化してCD-ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせることも可能である。すなわち該ユーザは、その鍵情報を使用することによって暗号化されたプログラムを実行し、コンピュータにインストールさせることができる。   In addition, the program of the present invention is encrypted, stored in a storage medium such as a CD-ROM, distributed to users, and key information for decryption is downloaded from a homepage via the Internet to users who have cleared predetermined conditions. It is also possible to make it. That is, the user can execute the encrypted program by using the key information and install it on the computer.

また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される。さらに、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。   Further, the functions of the above-described embodiments are realized by the computer executing the read program. Furthermore, based on the instructions of the program, an OS or the like running on the computer performs part or all of the actual processing, and the functions of the above-described embodiments can also be realized by the processing.

さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、実行されることによっても、前述した実施形態の機能が実現される。すなわち、該プログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行うことが可能である。   Further, the program read from the recording medium is written in a memory provided in a function expansion board inserted into the computer or a function expansion unit connected to the computer, and then executed, so that the program of the above-described embodiment can be obtained. Function is realized. That is, based on the instructions of the program, the CPU provided in the function expansion board or function expansion unit can perform part or all of the actual processing.

本発明に係る一実施形態における情報処理システムの構成を示すブロック図である。It is a block diagram which shows the structure of the information processing system in one Embodiment which concerns on this invention. 本実施形態における読み検索処理を示すフローチャートである。It is a flowchart which shows the reading search process in this embodiment. 本実施形態における部分読み文字列作成時の除外ルールの一例を示す図である。It is a figure which shows an example of the exclusion rule at the time of the partial reading character string preparation in this embodiment. 本実施形態における全体読み文字列作成時の補完ルールの一例を示す図である。It is a figure which shows an example of the complement rule at the time of the whole reading character string preparation in this embodiment. 本実施形態における表記入力部の構成を示す図である。It is a figure which shows the structure of the description input part in this embodiment. 本実施形態における新出語検出処理を示すフローチャートである。It is a flowchart which shows the new word detection process in this embodiment. 本実施形態における検索結果の表示例を示す図である。It is a figure which shows the example of a display of the search result in this embodiment.

Claims (16)

処理対象となる文字列を取得する取得手段と、
前記文字列に対する読み全体の一部を示す部分読み文字列を作成する部分読み作成手段と、
前記文字列および前記部分読み文字列を検索キーとして、テキストデータを含むデータベースを検索する検索手段と、
前記検索手段による検索結果に基づいて、前記文字列に対する読み全体における、前記部分読み文字列に該当しない部分の読みを示す補完読み文字列を補完して、該読み全体を示す全体読み文字列を一つ以上作成する全体読み作成手段と
有することを特徴とする言語処理装置。
An acquisition means for acquiring a character string to be processed;
Partial reading creation means for creating a partial reading character string indicating a part of the entire reading for the character string;
Search means for searching a database including text data using the character string and the partial reading character string as a search key;
Based on the search result by the search means, a complementary reading character string indicating a reading of a portion not corresponding to the partial reading character string in the entire reading of the character string is complemented, and an entire reading character string indicating the entire reading is obtained. A whole reading creation means for creating one or more ;
Language processing apparatus characterized by having a.
さらに、  further,
前記全体読み作成手段で作成された一つ以上の前記全体読み文字列を読み候補として出力する出力手段と、  Output means for outputting one or more whole reading character strings created by the whole reading creation means as reading candidates;
前記出力手段で出力された一つ以上の前記全体読み文字列から、前記文字列に対する読みを選択する選択手段と、  Selecting means for selecting a reading for the character string from one or more whole reading character strings output by the output means;
を有することを特徴とする請求項1に記載の言語処理装置。The language processing apparatus according to claim 1, further comprising:
前記出力手段は、一つ以上の前記全体読み文字列のそれぞれについて、前記検索手段による検索結果を対応付けて出力することを特徴とする請求項に記載の言語処理装置。 The language processing apparatus according to claim 2 , wherein the output unit outputs a search result by the search unit in association with each of the one or more whole reading character strings. 前記出力手段は、前記全体読み文字列と前記検索結果を対応付けて表示し、
前記選択手段は、ユーザ指示に基づいて、一つ以上の前記全体読み文字列から前記文字列に対する読みを選択することを特徴とする請求項に記載の言語処理装置。
The output means displays the whole reading character string and the search result in association with each other,
The language processing apparatus according to claim 3 , wherein the selection unit selects a reading for the character string from one or more of the whole reading character strings based on a user instruction.
前記出力手段は、前記検索結果に含まれる前記補完読み文字列を強調表示することを特徴とする請求項に記載の言語処理装置。 The language processing apparatus according to claim 4 , wherein the output unit highlights the complementary reading character string included in the search result. 前記出力手段は、前記検索結果に含まれる前記文字列および前記部分読み文字列と、前記検索結果に含まれる前記補完読み文字列と、前記検索結果に含まれるその他の文字列と、をそれぞれ異なる形態で表示することを特徴とする請求項に記載の言語処理装置。 The output means is different from the character string and the partial reading character string included in the search result, the complementary reading character string included in the search result, and another character string included in the search result. 6. The language processing apparatus according to claim 5 , wherein the language processing apparatus is displayed in a form. さらに、前記文字列を形態素解析する形態素解析手段を有し、
前記部分読み作成手段は、前記形態素解析手段による形態素解析結果に基づいて、前記部分読み文字列を作成することを特徴とする請求項1乃至のいずれか1項に記載の言語処理装置。
Furthermore, it has morpheme analysis means for morphological analysis of the character string,
The partial reading creation means, based on the morphological analysis result of the morphological analysis means, language processing apparatus according to any one of claims 1 to 6, characterized in that to create the partial read character string.
さらに、前記文字列を形態素解析する形態素解析手段と、
前記選択手段で選択された読みを、前記形態素解析手段で用いられる形態素解析辞書に登録する登録手段を有し、
前記部分読み作成手段は、前記形態素解析手段による形態素解析結果に基づいて、前記部分読み文字列を作成することを特徴とする請求項2乃至6のいずれか1項に記載の言語処理装置。
Furthermore, morpheme analysis means for morphological analysis of the character string,
Readings selected by the selecting means, have a registration means for registering the morphological analysis dictionary used in the morphological analysis means,
The language processing apparatus according to claim 2, wherein the partial reading creation unit creates the partial reading character string based on a morpheme analysis result by the morpheme analysis unit.
前記全体読み作成手段は、前記検索手段による一つ以上の検索結果のそれぞれから前記補完読み文字列を抽出して前記部分読み文字列を補完することによって、一つ以上の前記全体読み文字列を作成することを特徴とする請求項1乃至のいずれか1項に記載の言語処理装置。 The whole reading creation means extracts one or more whole reading character strings by extracting the complementary reading character strings from each of one or more search results by the searching means and complementing the partial reading character strings. language processing apparatus according to any one of claims 1 to 8, wherein the creating. 前記全体読み作成手段は、前記検索結果に含まれる、前記文字列および前記部分読み文字列の位置関係に基づいて、前記補完読み文字列を抽出することを特徴とする請求項に記載の言語処理装置。 The language according to claim 9 , wherein the whole reading creation unit extracts the complementary reading character string based on a positional relationship between the character string and the partial reading character string included in the search result. Processing equipment. さらに、テキストデータにおける語の出現履歴を管理する履歴管理手段を有し、
前記取得手段は、前記履歴管理手段によって未だ管理されていない語が出現した場合に、該語を前記文字列として取得することを特徴とする請求項1乃至10のいずれか1項に記載の言語処理装置。
Furthermore, it has a history management means for managing the appearance history of words in text data,
The language according to any one of claims 1 to 10 , wherein, when a word that has not yet been managed by the history management unit appears, the acquisition unit acquires the word as the character string. Processing equipment.
前記検索手段は、インターネットを介した検索を行うことを特徴とする請求項1乃至11のいずれか1項に記載の言語処理装置。 Said retrieval means, language processing apparatus according to any one of claims 1 to 11, characterized in that a search through the Internet. 言語処理装置が行う言語処理方法であって、
前記言語処理装置の取得手段が、処理対象となる文字列を取得する取得ステップと、
前記言語処理装置の部分読み作成手段が、前記文字列に対する読み全体の一部を示す部分読み文字列を作成する部分読み作成ステップと、
前記言語処理装置の検索手段が、前記文字列および前記部分読み文字列を検索キーとして、テキストデータを含むデータベースの検索を行う検索ステップと、
前記言語処理装置の全体読み作成手段が、前記検索ステップによる検索結果に基づいて、前記文字列に対する読み全体における、前記部分読み文字列に該当しない部分の読みを示す補完読み文字列を補完して、該読み全体を示す全体読み文字列を一つ以上作成する全体読み作成ステップと
有することを特徴とする言語処理方法。
A language processing method performed by a language processing device,
An acquisition step in which the acquisition unit of the language processing apparatus acquires a character string to be processed;
A partial reading creation step in which the partial reading creation means of the language processing device creates a partial reading character string indicating a part of the entire reading for the character string;
A search step in which the search means of the language processing device searches a database including text data using the character string and the partial reading character string as search keys;
The whole reading creation means of the language processing device complements a supplementary reading character string indicating a reading of a portion not corresponding to the partial reading character string in the whole reading for the character string, based on a search result by the searching step. A whole reading creation step for creating one or more whole reading character strings indicating the whole reading ;
Language processing method characterized by having a.
さらに、  further,
前記言語処理装置の出力手段が、前記全体読み作成ステップにおいて作成された一つ以上の前記全体読み文字列を読み候補として出力する出力ステップと、  An output step in which the output means of the language processing device outputs one or more whole reading character strings created in the whole reading creation step as reading candidates;
前記言語処理装置の選択手段が、前記出力ステップにおいて出力された一つ以上の前記全体読み文字列から、前記文字列に対する読みを選択する選択ステップと、  A selection step in which the selection unit of the language processing device selects a reading for the character string from one or more of the whole reading character strings output in the output step;
を有することを特徴とする請求項13に記載の言語処理方法。The language processing method according to claim 13, further comprising:
コンピュータを請求項1乃至12のいずれか1項に記載の言語処理装置として機能させるためのプログラム。 A program for causing a computer to function as the language processing apparatus according to any one of claims 1 to 12 . 請求項15に記載のプログラムを記憶したコンピュータ可読な記憶媒体。 A computer-readable storage medium storing the program according to claim 15 .
JP2008181978A 2008-07-11 2008-07-11 Language processing apparatus and language processing method Expired - Fee Related JP5379416B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008181978A JP5379416B2 (en) 2008-07-11 2008-07-11 Language processing apparatus and language processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008181978A JP5379416B2 (en) 2008-07-11 2008-07-11 Language processing apparatus and language processing method

Publications (3)

Publication Number Publication Date
JP2010020638A JP2010020638A (en) 2010-01-28
JP2010020638A5 JP2010020638A5 (en) 2011-08-25
JP5379416B2 true JP5379416B2 (en) 2013-12-25

Family

ID=41705448

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008181978A Expired - Fee Related JP5379416B2 (en) 2008-07-11 2008-07-11 Language processing apparatus and language processing method

Country Status (1)

Country Link
JP (1) JP5379416B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102742192B (en) 2010-02-01 2015-08-19 日本电气株式会社 Channel estimating interpolating circuit and method
JP6162074B2 (en) * 2014-05-22 2017-07-12 株式会社日立製作所 Search key creation method and apparatus

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1011431A (en) * 1996-06-19 1998-01-16 Okinawa Nippon Denki Software Kk Kanji retrieval device and method
JP2002350146A (en) * 2001-05-25 2002-12-04 Mitsubishi Electric Corp Navigation device
JP2006194952A (en) * 2005-01-11 2006-07-27 Nissan Motor Co Ltd Registering method for sentence analysis dictionary for voice synthesis and voice reading device using the method

Also Published As

Publication number Publication date
JP2010020638A (en) 2010-01-28

Similar Documents

Publication Publication Date Title
JP6461980B2 (en) Coherent question answers in search results
JP2011501258A (en) Information extraction apparatus and method
WO2015047920A1 (en) Title and body extraction from web page
JP4860416B2 (en) Document search apparatus, document search method, and document search program
JP2008287406A (en) Information processor, information processing method, program, and recording medium
JP5430312B2 (en) Data processing apparatus, data name generation method, and computer program
KR101086550B1 (en) Japanese automatic recommendation system and method using roman conversion
JPH09198395A (en) Document retrieval device
JP5379416B2 (en) Language processing apparatus and language processing method
JP2007072646A (en) Retrieval device, retrieval method, and program therefor
JP2019121164A (en) Document creating apparatus, document creating method, database construction apparatus, database construction method, and program
JP5025603B2 (en) Machine translation apparatus, machine translation program, and machine translation method
JP3937741B2 (en) Document standardization
JP5326781B2 (en) Extraction rule creation system, extraction rule creation method, and extraction rule creation program
JP4301879B2 (en) Abstract creation support system and patent document search system
JP4143085B2 (en) Synonym acquisition method and apparatus, program, and computer-readable recording medium
JP2009104475A (en) Similar document search device, similar document search method and program
JP4300056B2 (en) CONCEPT EXPRESSION GENERATION METHOD, PROGRAM, STORAGE MEDIUM, AND CONCEPT EXPRESSION GENERATION DEVICE
JP6451151B2 (en) Question answering apparatus, question answering method, program
JP4304146B2 (en) Dictionary registration device, dictionary registration method, and dictionary registration program
WO2023286340A1 (en) Information processing device and information processing method
JP5289468B2 (en) Answer search apparatus, method, and program
JP4135467B2 (en) Information processing apparatus, system, and program
JP2006172029A (en) Search result presentation method
JP5262190B2 (en) Input completion device and input completion program

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110707

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110707

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121130

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130830

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130927

R151 Written notification of patent or utility model registration

Ref document number: 5379416

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees