JP2009169513A - Device, method and program for estimating nickname - Google Patents
Device, method and program for estimating nickname Download PDFInfo
- Publication number
- JP2009169513A JP2009169513A JP2008004364A JP2008004364A JP2009169513A JP 2009169513 A JP2009169513 A JP 2009169513A JP 2008004364 A JP2008004364 A JP 2008004364A JP 2008004364 A JP2008004364 A JP 2008004364A JP 2009169513 A JP2009169513 A JP 2009169513A
- Authority
- JP
- Japan
- Prior art keywords
- nickname
- name
- candidate
- unit
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
この発明は、名称を入力として愛称を推定して出力する装置、方法およびプログラムに関する。 The present invention relates to an apparatus, a method, and a program for estimating and outputting a nickname using a name as an input.
近年、情報検索技術は広く浸透し多様な場面で使われるようになってきた。一般的に、情報検索を実行する際には、検索キーワードを入力として与え、入力された検索キーワードに一致または強く関連するような文書を結果として返す。例えば、ある人物の名称を検索キーワードとして、当該人物に関連する文書をWebページから検索することなどが行われている。 In recent years, information retrieval technology has been widely used and used in various situations. Generally, when performing an information search, a search keyword is given as an input, and a document that matches or is strongly related to the input search keyword is returned as a result. For example, using a person's name as a search keyword, a document related to the person is searched from a Web page.
人名等の名称には正式名称のほかに、他の呼び名として、愛称、略称、別名、および通称等が存在する。このため、正式名称と愛称等との対応関係を知らなければ、一方のみを検索キーワードとして検索することになり、必要な情報を網羅的に探すことが困難となる。例えば、人名「O田Y美」で愛称「Yりん」である人物がいたとき、「O田Y美」だけを検索キーワードとすると、「Yりん」のみを含む情報を取得することができない。 In addition to the official name, names such as personal names include nicknames, abbreviations, aliases, and common names as other names. For this reason, if the correspondence between the official name and the nickname is not known, only one is searched as a search keyword, and it is difficult to search for necessary information comprehensively. For example, when there is a person with the personal name “Oda Ymi” and the nickname “YRin”, if only “Oda Ymi” is the search keyword, information including only “YRin” cannot be acquired.
一方、音声認識技術を用いたヒューマンインタフェースの実用化も進んでいる。そして、今後は音声対話や音声による情報検索が行われると想定される。音声による情報検索処理では、テキストによる情報検索処理と比較して、愛称等の表現が使われる可能性が高い。このため、ユーザの自由な発話を促進するためにも、愛称等の表現を正式名称に対応付けて認識できることが必要である。 On the other hand, human interface using speech recognition technology is also being put into practical use. In the future, it is assumed that information retrieval by voice dialogue or voice will be performed. In the information search process by voice, there is a high possibility that expressions such as nicknames are used compared to the information search process by text. For this reason, in order to promote a user's free speech, it is necessary to be able to recognize expressions such as nicknames in association with formal names.
一般に音声認識では、発話された音声と照合するための音声認識辞書が用いられる。そして、音声認識辞書に存在しない未登録語は音声認識することができない。このため、愛称等の表現が音声認識辞書に単語登録されていなければ、音声で発話された愛称を認識することさえできない。さらに、検索対象となりうる人物の人名や愛称は日々更新されうるため、更新されうる人名等を正常に認識できるように音声認識辞書も更新する必要があるが、コストが大きい。 Generally, in speech recognition, a speech recognition dictionary for collating with spoken speech is used. An unregistered word that does not exist in the speech recognition dictionary cannot be recognized by speech. For this reason, if a nickname or the like is not registered in the speech recognition dictionary, the nickname spoken by speech cannot be recognized. Furthermore, since the names and nicknames of persons who can be searched can be updated every day, it is necessary to update the speech recognition dictionary so that the names and the like that can be updated can be recognized normally, but the cost is high.
例えば、検索対象となる人物としては、テレビ番組に出演するような芸能人が挙げられる。ところが、テレビ番組等では、新規な芸能人が登場し、その愛称が急速に広まることが多い。このように日々更新されうる人名等に対応するために、音声認識辞書を更新し続ける必要がある。 For example, a person to be searched includes an entertainer who appears in a television program. However, new entertainers appear in television programs and the like, and their nicknames are often spread rapidly. In order to cope with names and the like that can be updated every day in this way, it is necessary to continue to update the speech recognition dictionary.
なお、略称と正式名称との対応関係を獲得するための技術として、入力語を語分割し、分割した単語の頭文字を組み合わせる技術や、公的機関、大企業などの正式名称とその略称とを対応づけてデータベースに保持する技術が提案されている(例えば、特許文献1)。しかし、上述の音声認識辞書と同様に、日々更新されうる人名などを対象とする場合は、最新のデータベースを人手で提供し続けるためのコストが増大する。また、単語の頭文字を組み合わせるというだけの簡単な略称生成方法では、正式名称に含まれる語句以外の文字を含みうる愛称を生成できない。例えば、正式名称「N弁護士連盟」から略称「N弁連」などは生成できるが、正式名称「N弁護士連盟」に含まれる語句以外の文字を含みうる愛称は生成できない。 In addition, as a technique for acquiring the correspondence between abbreviations and official names, the input words are divided into words, the combination of the initials of the divided words, and the official names and abbreviations of public institutions, large corporations, etc. Has been proposed (for example, Patent Document 1). However, as in the case of the above-described speech recognition dictionary, when a person name that can be updated daily is targeted, the cost for continuing to provide the latest database manually increases. In addition, a simple abbreviation generation method that only combines the initial letters of words cannot generate nicknames that can include characters other than words included in official names. For example, although the abbreviation “N Benren” can be generated from the official name “N Lawyer Federation”, a nickname that can include characters other than the words included in the official name “N Lawyer Federation” cannot be generated.
また、特許文献2では、略称生成ルールを用いて、名称から略称を生成する技術が提案されている。この方法では、入力語を分割した各基本語のうち、略称生成に用いる箇所を指定するような略称生成ルールを保持する。そして、この略称生成ルールによって入力語から略称候補が生成される。また、語検索装置の対象文書に付与されたキーワード中に略称候補が存在すれば略称として判定され、略称による語検索も行われる。
なお、略称とは、長い名称を省略したものであるため、正式名称に関連した文字列のみで構成される。例えば、人名「P田A也」、人名の読み「ピイタエイヤ」、愛称「ピイエイ」である人物の場合、人名の読みに含まれる文字列のみで構成される略称が愛称となっていると言える。一方、人名「S田U朗」、愛称「トケイ王子」である人物のように、人名とは全く異なる表現が愛称とされる場合がある。また、人名「I田M也」、人名の読み「アイタメツヤ」である人物に対して、人名の読みの一部を利用して元の人名とは関係のない文字を挿入し、新規の単語である愛称「メッチー」を作り出す場合がある。後者の2つの場合には、特許文献2のような略称の生成方法では愛称を生成することはできない。
The abbreviation is an abbreviation for a long name, and is composed of only a character string related to the official name. For example, in the case of a person having a personal name “P field Aya”, a personal name reading “Pita Eiya”, and a nickname “Pii A”, it can be said that an abbreviation composed only of a character string included in the personal name reading is a nickname. On the other hand, an expression completely different from the personal name may be nicknamed, such as a person with the personal name “Suda Uro” and the nickname “Tokei Prince”. In addition, for a person who has a person name “Ida Miya” and a person name reading “Aitametsuya”, a character that is not related to the original person name is inserted using a part of the person name reading, and a new word is used. A nickname “Metchy” may be created. In the latter two cases, the nickname cannot be generated by the abbreviation generation method as in
また、特許文献2では、語検索装置の対象文書にキーワードが付与されており、キーワードとして与えられている単語に略称候補が存在すればその略語候補が略語として選定される。例えば、「生命保険」という検索キーワードに対し、「生命保」「生保」「生保険」といった略語候補が存在するとき、文書に付与されたキーワードとして「生保」が存在すれば「生保」だけが略語として認定される。
In
すなわち、特許文献2では、略称候補がキーワードとして付与された文書が存在することが前提となっている。しかし、例えば、Webページから検索する場合のように、愛称がキーワードとして語分割されているデータが存在しない場合には、愛称候補が生成された後、生成された愛称候補から適切な愛称候補を選定することは困難となる。
That is, in
一方、非特許文献1では、呼称と正式名称とが、「(呼称)こと(正式名称)」という日本語独特の典型表現で表されることを利用して呼称を抽出する技術が提案されている。具体的には、非特許文献1の方法では、「こと(正式名称)」を検索キーワードとしてWeb検索を行い、「こと」の前に出現する文字から正式名称に対応する呼称を抽出している。この方法によれば、上記の「ピイエイ」「トケイ王子」「メッチー」のいずれの愛称も取得できる可能性がある。
On the other hand, Non-Patent
しかしながら、非特許文献1の方法であっても、正式名称に対応する正しい愛称を取得できない場合がある。非特許文献1では、「こと」の前に出現する文字列中から呼称部分を抽出する際に形態素解析器を使用している。このため、形態素解析器が利用する辞書中に愛称が単語として登録されておらず、愛称が名前から作られた造語であるような場合には、愛称を文字列中から切り分けることが困難となる。例えば、非特許文献1の方法では、正しい愛称が「Uーちゃん」であっても、「ーちゃん」が愛称として抽出される場合がある。
However, even with the method of Non-Patent
また、非特許文献1では、上述のように「(愛称)こと(正式名称)」などの典型表現を利用しているが、検索対象文書中で愛称がそのような典型表現で記載されていない場合には、愛称を取得することができない。
Further, in Non-Patent
本発明は、上記に鑑みてなされたものであって、人名等の名称から愛称をより適切に取得できる装置、方法およびプログラムを提供することを目的とする。 The present invention has been made in view of the above, and an object thereof is to provide an apparatus, a method, and a program that can more appropriately acquire a nickname from a name such as a person's name.
上述した課題を解決し、目的を達成するために、本発明は、名称から前記名称の愛称を推定する愛称推定装置であって、前記名称に含まれる文字のうち、前記愛称の候補に含める文字の位置を表す位置情報と、予め定められた付加文字列とを含む前記愛称の候補の生成規則を記憶する規則記憶部と、前記名称を入力する名称入力部と、入力された前記名称に含まれる文字のうち、前記生成規則の前記位置情報で表される位置の文字を取得し、取得した文字と前記生成規則の前記付加文字列とを結合した前記愛称の候補を生成する生成部と、生成された前記愛称の候補を出力する出力部と、を備えたことを特徴とする。 In order to solve the above-described problems and achieve the object, the present invention is a nickname estimation device that estimates a nickname of a name from a name, and includes characters included in the nickname candidate among characters included in the name Included in the input name, a rule storage unit that stores generation information of the nickname candidate including position information representing the position of the character and a predetermined additional character string, a name input unit that inputs the name A generation unit that acquires a character at a position represented by the position information of the generation rule, and generates the nickname candidate that combines the acquired character and the additional character string of the generation rule; And an output unit that outputs the generated nickname candidates.
また、本発明は、上記装置を実行することができる方法およびプログラムである。 Further, the present invention is a method and program capable of executing the above-described apparatus.
本発明によれば、人名等の名称から愛称をより適切に取得できるという効果を奏する。 According to the present invention, there is an effect that a nickname can be acquired more appropriately from a name such as a person's name.
以下に添付図面を参照して、この発明にかかる装置、方法およびプログラムの最良な実施の形態を詳細に説明する。 Exemplary embodiments of an apparatus, a method, and a program according to the present invention will be described below in detail with reference to the accompanying drawings.
(第1の実施の形態)
上述のように、従来は、愛称、略称、および別名等は、予め人手で作成してデータベースに登録していた。また、略称の場合は、所定の略称生成パターンによって、正式名称から略称を推定する方法が用いられていた。しかし、テレビ番組の番組表データ(EPG(Electronic Program Guide)データ)のような日々更新される情報では、例えば新しい芸能人が現れることによってデータの更新が頻繁に必要となる。このため、辞書に蓄えておくだけは充分に対応することが困難である。また、辞書の更新を人手で行うのはコストがかかる。
(First embodiment)
As described above, conventionally, nicknames, abbreviations, aliases, and the like have been manually created and registered in a database. In the case of an abbreviation, a method of estimating an abbreviation from a formal name using a predetermined abbreviation generation pattern has been used. However, information that is updated daily, such as program guide data (EPG (Electronic Program Guide) data) of television programs, needs to be updated frequently due to the appearance of new entertainers, for example. For this reason, it is difficult to respond sufficiently only by storing it in the dictionary. In addition, it is expensive to manually update the dictionary.
第1の実施の形態にかかる愛称推定装置は、予め定められた愛称の候補(愛称候補)の生成規則(愛称生成ルール)に従って、入力された名称に対する愛称候補を生成する。 The nickname estimation apparatus according to the first embodiment generates a nickname candidate for an input name in accordance with a predetermined nickname candidate (nickname candidate) generation rule (nickname generation rule).
図1は、第1の実施の形態にかかる愛称推定装置100の構成を示すブロック図である。図1に示すように、愛称推定装置100は、ルール記憶部121と、名称入力部101と、候補生成部102と、出力部103と、を備えている。
FIG. 1 is a block diagram illustrating a configuration of a
ルール記憶部121は、入力された名称の愛称候補を生成するための愛称生成ルールを記憶する。図2は、ルール記憶部121に記憶された愛称生成ルールの一例を示す図である。図2に示すように、愛称生成ルールは、入力された名称のうち、いずれの文字種のいずれの位置の文字を使って愛称を生成するかを特定する情報(記号)と、愛称の一部を構成する付加文字列(「ちゃん」など)とを含んでいる。
The
本実施の形態では、3桁の数値による記号で文字種と文字の位置を特定可能としている。100の位の数値は文字種を表し、「1」が正式名称、「2」がひらがな表記、および「3」がカタカナ表記にそれぞれ対応する。10の位の数値は、名称を構成する各語句単位の、名称の先頭を基準とした位置を識別するための情報を表す。例えば、姓と名とを語句単位とする人名の場合、10の位の数値が「1」の場合は姓を表し、「2」の場合は名を表す。なお、例えば、グループ名、団体名等の名称では、3つ以上の語句単位から構成される場合があるため、10の位の数値は3以上となりうる。以下では、10の位の数値は、「1(姓)」および「2(名)」のいずれかを取る場合を例に説明する。1の位の数値は、各語句単位内での先頭からの位置を識別するための情報を表す。 In the present embodiment, it is possible to specify the character type and the character position by using a three-digit numerical symbol. The numerical value of the hundreds represents the character type, with “1” corresponding to the official name, “2” corresponding to hiragana notation, and “3” corresponding to katakana notation. The numerical value at the 10's position represents information for identifying the position of each word unit constituting the name with respect to the beginning of the name. For example, in the case of a person name whose first and last names are word units, if the numerical value at the 10th place is “1”, it represents the last name, and “2” represents the first name. For example, in a name such as a group name or an organization name, there are cases where the name is composed of three or more word units, so that the numerical value at the tenth place can be three or more. In the following, a case where the numerical value at the 10th place takes either “1 (last name)” or “2 (first name)” will be described as an example. The numerical value of 1's represents information for identifying the position from the beginning in each word unit.
なお、同図では愛称生成ルールの欄の右に愛称生成ルールを適用した例を記載しているが、実際のルール記憶部121には愛称生成ルールのみが記憶されている。
In the figure, an example in which the nickname generation rule is applied is described to the right of the nickname generation rule column, but only the nickname generation rule is stored in the actual
また、ルール記憶部121は、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAM(Random Access Memory)などの一般的に利用されているあらゆる記憶媒体により構成することができる。
Further, the
名称入力部101は、人名等の名称の入力を受け付ける。なお、名称入力部101は、語句単位を識別可能な形式で名称の入力を受付ける。例えば、人名の場合、名称入力部101は、姓と名とをそれぞれ独立に入力する。
The
また、名称入力部101は、正式名称とともに、正式名称のひらがな表記およびカタカナ表記の入力を受付ける。例えば、人名が「P田A也」の場合、名称入力部101は、姓名を分けた正式名称である姓の「P田」と名の「A也」とともに、ひらがな表記の姓の「ぴいた」と名の「えいや」や、カタカナ表記の姓「ピイタ」と名の「エイヤ」の入力を受付ける。
In addition, the
なお、名称の入力方法はこれに限られず、名称を構成する語句単位を識別可能な方法であればあらゆる方法を適用できる。例えば、名称入力部101が、スペースなどの所定の文字列で語句単位に区切られた名称の入力を受付けるように構成してもよい。
Note that the method for inputting a name is not limited to this, and any method can be applied as long as it is a method that can identify a word unit constituting a name. For example, the
また、名称を語句単位に区切らずに入力するように構成してもよい。この場合、名称入力部101は、例えば人名辞典を利用して入力された「P田A也」を姓の「P田」と名の「A也」に分けるように構成してもよい。また、ひらがな表記とカタカナ表記の入力を受付ける代わりに、名称入力部101が、人名辞典等を利用して入力された正式名称の読みを推定し、ひらがな表記やカタカナ表記を取得するように構成してもよい。
Moreover, you may comprise so that a name may be input, without dividing | segmenting into a phrase unit. In this case, for example, the
候補生成部102は、ルール記憶部121に記憶されている愛称生成ルールを参照して、入力された名称に対する愛称候補を生成する。具体的には、候補生成部102は、入力された名称を記号に変換し、愛称生成ルール中の記号のうち、変換した記号と同一の記号を、変換した記号に対応する文字に置き換えることにより愛称候補を生成する。
The
ここで、名称から記号への変換方法の具体例について、図3〜図6を用いて説明する。図3は、入力された名称データの一例を示す図である。図3に示すように、以下では、漢字を含む正式名称である名称1と、ひらがな表記である名称2と、カタカナ表記である名称3とが入力された場合を例に説明する。なお、同図の記号欄は、各名称を記号に変換した結果を表している。変換方法の詳細は、それぞれ図4〜図6で説明する。
Here, the specific example of the conversion method from a name to a symbol is demonstrated using FIGS. FIG. 3 is a diagram illustrating an example of input name data. As shown in FIG. 3, hereinafter, a case where a
図4は、図3の名称1(正式名称)を記号に変換する例を示す図である。図4は、名称1に含まれる文字表記ごとに、文字種、語句単位の位置(姓か名か)、および語句単位内での文字位置と、変換結果である記号とを表している。名称1は、正式名称であるため、文字種は「1」となる。また、区切り文字であるスペースの前後のいずれに位置するかによって、各文字表記に対応する姓名欄が「1」および「2」のいずれかに設定される。さらに、姓または名内での各文字表記の文字位置が設定される。そして、文字種、姓名、および文字位置に対応する各数値を結合した3桁の数値が変換結果の記号として生成される。
FIG. 4 is a diagram illustrating an example of converting the name 1 (official name) in FIG. 3 into a symbol. FIG. 4 shows, for each character notation included in the
図5は、図3の名称2(ひらがな表記)を記号に変換する例を示す図である。名称2はひらがな表記であるため、文字種に「2」が設定される。また、図6は、図3の名称3(カタカナ表記)を記号に変換する例を示す図である。名称3はカタカナ表記であるため、文字種に「3」が設定される。
FIG. 5 is a diagram illustrating an example in which name 2 (hiragana notation) in FIG. 3 is converted into a symbol. Since
候補生成部102は、このようにして各名称を記号に変換し、図3に示すような記号を生成する。そして、候補生成部102は、変換した記号と同一の記号を含む愛称生成ルールに、変換した記号に対応する文字を当てはめることによって、愛称候補を生成する。
The
例えば、正式名称として図3の人名301(「P田 A也」)と、カタカナ表記302(「ピイタ エイヤ」)とが入力され、図2の最上部の愛称生成ルール「311 312 321 322」に対して、入力された名称を適用する場合を考える。この場合、愛称生成ルール内の記号はいずれも100の位の数字が3であるため、候補生成部102は、カタカナ表記の文字を当てはめて愛称候補を生成する。具体的には、候補生成部102は、図2の最上部の愛称生成ルール中の「311」の部分に「ピ」、「312」の部分に「イ」、「321」の部分に「エ」、および「322」の部分に「イ」を当てはめ、図2の愛称候補201(「ピイエイ」)を生成する。
For example, the person name 301 (“P field Aya”) and the katakana notation 302 (“Pita Aiya”) in FIG. 3 are input as formal names, and the nickname generation rule “311 312 321 322” at the top of FIG. On the other hand, consider a case where the input name is applied. In this case, since all the symbols in the nickname generation rule have the number of the 100's place, the
出力部103は、候補生成部102が生成した1つまたは複数の愛称候補を出力する。適合する愛称生成ルールが存在せず、愛称候補が生成されなかった場合は、出力部103は、該当候補なしという結果を出力してもよい。
The
次に、このように構成された第1の実施の形態にかかる愛称推定装置100による愛称推定処理について図7を用いて説明する。図7は、第1の実施の形態における愛称推定処理の全体の流れを示すフローチャートである。
Next, the nickname estimation process by the
まず、名称入力部101が、正式名称、ひらがな表記、およびカタカナ表記を含む名称データを入力する(ステップS701)。次に、候補生成部102が、名称データ内の正式名称、ひらがな表記、およびカタカナ表記をそれぞれ記号化する(ステップS702)。
First, the
次に、候補生成部102は、ルール記憶部121から愛称生成ルールを取得する(ステップS703)。そして、候補生成部102は、記号化した名称を愛称生成ルールに適用して愛称候補を生成する(ステップS704)。具体的には、候補生成部102は、取得した愛称生成ルールそれぞれについて、愛称生成ルールに含まれる記号のうち、ステップS702で名称から変換した記号と同一の記号を、変換した記号の変換元の文字に置き換えた愛称候補を生成する。最後に、出力部103が、生成された愛称候補を出力し(ステップS705)、愛称推定処理を終了する。
Next, the
このように、第1の実施の形態にかかる愛称推定装置では、予め定められた愛称生成ルールに従って、入力された名称に対する愛称候補を生成できるため、人名等の名称から愛称をより適切に取得することができる。 As described above, in the nickname estimation device according to the first embodiment, a nickname candidate for an input name can be generated according to a predetermined nickname generation rule, and thus a nickname is more appropriately acquired from a name such as a person name. be able to.
また、生成した愛称候補によって音声認識辞書や愛称辞書を更新できるため、人手による辞書作成コストを削減することができる。さらに、情報検索の際に、正式名称と、生成された愛称候補との対応を用いることにより、いずれか一方が入力された場合であっても、愛称と正式名称の両方で検索を行うことが可能になる。 Moreover, since the speech recognition dictionary and the nickname dictionary can be updated with the generated nickname candidates, it is possible to reduce manual dictionary creation costs. Furthermore, in the information search, by using the correspondence between the official name and the generated nickname candidate, even if either one is input, it is possible to perform a search using both the nickname and the official name. It becomes possible.
一方、音声対話の際には、愛称推定結果を元に音声認識辞書に愛称を追加しておけば、ユーザが愛称で人名を呼称した場合であっても、愛称を正しく音声認識することが可能になる。また、人名が愛称で呼称された場合であっても、愛称を正式名称に変換することにより、呼称の対象を正しく理解することが可能になる。 On the other hand, if a nickname is added to the speech recognition dictionary based on the nickname estimation result during voice conversation, the nickname can be recognized correctly even if the user names the nickname. become. Further, even when a person's name is nicknamed, it is possible to correctly understand the name of the name by converting the nickname to an official name.
(第2の実施の形態)
第2の実施の形態にかかる愛称推定装置は、Webなどから取得された文書を対象として、生成された愛称候補を検索し、当該文書に含まれる愛称候補を選択することにより、さらに適切な愛称候補を取得する。
(Second Embodiment)
The nickname estimation device according to the second embodiment searches for a generated nickname candidate for a document acquired from the Web or the like, and selects a nickname candidate included in the document, thereby further appropriately nickname. Get candidates.
図8は、第2の実施の形態にかかる愛称推定装置800の構成を示すブロック図である。図8に示すように、愛称推定装置800は、ルール記憶部121と、文書記憶部822と、名称入力部101と、候補生成部102と、出力部103と、選択部804と、を備えている。
FIG. 8 is a block diagram showing a configuration of a
第2の実施の形態では、文書記憶部822と選択部804とを追加したことが第1の実施の形態と異なっている。その他の構成および機能は、第1の実施の形態にかかる愛称推定装置100の構成を表すブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。
The second embodiment is different from the first embodiment in that a
文書記憶部822は、Webページなどの所定の文書群を検索対象とし、正式名称を検索キーワードとして実行された検索処理の処理結果である文書を記憶する。文書記憶部822は、例えば検索キーワードの個数等に応じて順位付けされた検索結果の文書のうち、上位の所定数の文書を記憶する。
The
選択部804は、候補生成部102が生成した愛称候補から、より適切な愛称候補を選択する。具体的には、選択部804は、まず生成された愛称候補それぞれについて、文書記憶部822に記憶した文書に愛称候補が含まれているか否かを判定する。そして、選択部804は、文書記憶部822の文書中に含まれる愛称候補に対して、「(愛称候補)こと(正式名称)」という連語を検索キーワードとし、Webページを検索対象として検索を実行する。そして、選択部804は、検索されたWebページが多い順に愛称候補を順位付けし、上位の所定数の愛称候補を選択する。
The
次に、このように構成された第2の実施の形態にかかる愛称推定装置800による愛称推定処理について図9を用いて説明する。図9は、第2の実施の形態における愛称推定処理の全体の流れを示すフローチャートである。
Next, a nickname estimation process performed by the
ステップS901からステップS904までの、名称入力処理、記号化処理、ルール取得処理、および候補生成処理は、第1の実施の形態にかかる愛称推定装置100におけるステップS701からステップS704までと同様の処理なので、その説明を省略する。
The name input process, symbolization process, rule acquisition process, and candidate generation process from step S901 to step S904 are the same processes as from step S701 to step S704 in the
愛称候補が生成された後、選択部804は、正式名称を検索キーワードとしてWebページなどの所定の文書群を検索し、上位の所定数の検索結果である文書を文書記憶部822に保存する(ステップS905)。
After the nickname candidate is generated, the
次に、選択部804は、保存した文書に各愛称候補が存在するか否かを判定し、保存した文書中に含まれる愛称候補のみを選択する(ステップS906)。さらに、選択部804は、選択した愛称候補それぞれについて、「(愛称候補)こと(正式名称)」という連語を検索キーワードとしてWeb上で検索を行う(ステップS907)。そして、選択部804は、ヒット件数順に愛称候補を並べ、上位N個の候補を選択する(ステップS908)。
Next, the
最後に、出力部103が、選択された愛称候補を出力し(ステップS909)、愛称推定処理を終了する。
Finally, the
なお、選択部804が、出力部103によって出力された愛称候補から、ユーザが指定した愛称候補を選択するように構成してもよい。この場合、例えば、出力部103が、生成された愛称候補をディスプレイなどの表示装置に表示し、キーボードやマウスなどのインターフェースによって、ユーザが表示された愛称候補から所望の愛称候補を指定可能とする。また、例えば、出力部103が、生成された愛称候補のテキストデータを音声信号に合成してスピーカから出力し、マイク等のインターフェースによってユーザが音声によって所望の愛称候補を指定できるように構成してもよい。
Note that the
ユーザに呼びかけを行うロボットなどの対話装置に本実施の形態を適用する場合、名称入力部101でユーザ等の名前を入力し、出力部103から出力された愛称を呼称表現として利用してもよい。この場合、対話装置は、例えば選択部804によって任意に愛称候補を選択し、選択した愛称で呼称して良いか否かを、ユーザに対して音声で確認するように構成してもよい。
When this embodiment is applied to an interactive device such as a robot that calls a user, a name of the user or the like may be input by the
このように、第2の実施の形態にかかる愛称推定装置では、Webなどの所定の文書群から取得された文書を対象として、生成された愛称候補を検索し、当該文書に含まれる愛称候補を選択することによって、より適切な愛称候補を取得することができる。 As described above, in the nickname estimation apparatus according to the second embodiment, a generated nickname candidate is searched for a document acquired from a predetermined document group such as the Web, and the nickname candidate included in the document is determined. By selecting, a more appropriate nickname candidate can be acquired.
(第3の実施の形態)
第3の実施の形態にかかる愛称推定装置は、名称と、当該名称について事前に分かっている愛称との対を入力して愛称生成ルールを学習する。
(Third embodiment)
The nickname estimation apparatus according to the third embodiment learns a nickname generation rule by inputting a pair of a name and a nickname known in advance for the name.
図10は、第3の実施の形態にかかる愛称推定装置1000の構成を示すブロック図である。図10に示すように、愛称推定装置1000は、ルール記憶部121と、名称入力部101と、候補生成部102と、出力部103と、学習データ入力部1005と、学習部1006と、を備えている。
FIG. 10 is a block diagram illustrating a configuration of a
第3の実施の形態では、学習データ入力部1005および学習部1006を追加したことが第1の実施の形態と異なっている。その他の構成および機能は、第1の実施の形態にかかる愛称推定装置100の構成を表すブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。
The third embodiment is different from the first embodiment in that a learning
学習データ入力部1005は、名称と、その名称について既に分かっている愛称とを対応づけた学習データを入力する。学習データ入力部1005は、姓名に分割された正式名称、正式名称のひらがな表記、および正式名称のカタカナ表記などの異なる表記と、愛称との対を学習データとして入力する。なお、姓名に分割前の名称とその愛称との対を与えるように構成してもよい。
The learning
学習部1006は、入力された学習データから新たな愛称生成ルールを生成し、生成した愛称生成ルールをルール記憶部121に保存する。具体的には、学習部1006は、まず、入力された学習データの名称と愛称との双方に共通して含まれる共通文字を取得する。そして、学習部1006は、得られた共通文字を候補生成部102と同様の方法により記号化する。さらに、学習部1006は、学習データの愛称のうち共通文字を図3に示すような名称データの記号に置き換えることにより愛称生成ルールを作成する。
The
次に、このように構成された第3の実施の形態にかかる愛称推定装置1000による学習処理について図11および図12を用いて説明する。図11は、第3の実施の形態における学習処理の全体の流れを示すフローチャートである。また、図12は、生成された愛称生成ルールの一例を示す図である。
Next, learning processing by the
なお、学習された愛称生成ルール、または事前に記憶された愛称生成ルールによる愛称推定処理は、第1の実施の形態の愛称推定処理を表す図7と同様であるためその説明を省略する。 Note that the nickname estimation process based on the learned nickname generation rule or the nickname generation rule stored in advance is the same as that in FIG. 7 representing the nickname estimation process of the first embodiment, and a description thereof will be omitted.
まず、学習データ入力部1005は、名称と愛称との対である学習データを入力する(ステップS1101)。次に、学習部1006は、名称と愛称とに共通する共通文字を取得する(ステップS1102)。次に、学習部1006は、取得した共通文字を記号化する(ステップS1103)。
First, the learning
例えば、姓名に分割された人名である図12の正式名称1201(「H田 I美」)と、愛称1202(「Iちゃん」)とを対応づけた学習データが入力された場合、学習部1006は、「I」を共通文字として取得する。「I」は、正式名称の名の最初の文字であるため、学習部1006は、この共通文字を「121」に記号化する。
For example, when learning data in which the official name 1201 (“Imi Hada”) in FIG. 12, which is a name divided into first and last names, is associated with the nickname 1202 (“I-chan”) is input, the
次に、学習部1006は、共通文字の記号と、愛称内の共通文字以外の文字とを結合して愛称生成ルールを作成する(ステップS1104)。上記例では、記号化した「121」と、愛称内の共通文字「I」以外の文字とを結合した愛称生成ルール1203(「121ちゃん」)が作成される。
Next, the
図12では、人名「P野S也」のひらがな表記1211(「ぴいの えすや」)と、その愛称1212(「ぴいちゃん」)との対である学習データが入力された場合に生成される愛称生成ルール1213(「211 212ちゃん」)の例も示されている。 In FIG. 12, nickname generation generated when learning data that is a pair of the hiragana notation 1211 (“Pii no Esya”) of the person name “P No Saya” and its nickname 1212 (“Piichan”) is input. An example of rule 1213 (“211 212-chan”) is also shown.
なお、学習部1006は、さらに、愛称生成ルールを相互に比較することにより、新たな愛称生成ルールを生成する。具体的には、学習部1006は、まず、ある愛称生成ルール(ルール1とする)に対して記号部分のみが置き換えられた他の愛称生成ルール(ルール2とする)をルール記憶部121から検索する。そして、学習部1006は、このようなルール2が存在する場合、ルール1と記号部分が共通する他の愛称生成ルール(ルール3とする)をさらに検索し、ルール3の記号部分をルール2の記号部分に置換した新たな愛称生成ルールを生成する。
Note that the
例えば、図12に示すように、愛称生成ルール1203(「121ちゃん」)、愛称生成ルール1213(「211 212ちゃん」)、および愛称生成ルール1223(「121やん」)という3つの愛称生成ルールが、学習データから直接学習できたとする。このうち、愛称生成ルール1203(「121ちゃん」)および愛称生成ルール1213(「211 212ちゃん」)は、記号である「121」と「211 212」の部分のみが異なる。また、愛称生成ルール1203(「121ちゃん」)に対しては、同一の記号「121」を含む別の愛称生成ルール1223(「121やん」)が存在する。このため、学習部1006は、愛称生成ルール1223(「121やん」)の記号「121」の部分を、「211 212」に置き換えた愛称生成ルール(「211 212やん」)を新たに生成することができる。
For example, as shown in FIG. 12, there are three nickname generation rules: a nickname generation rule 1203 (“121-chan”), a nickname generation rule 1213 (“211 212-chan”), and a nickname generation rule 1223 (“121 Yan”). Suppose you can learn directly from the learning data. Among these, the nickname generation rule 1203 (“121-chan”) and the nickname generation rule 1213 (“211 212-chan”) differ only in the portions “121” and “211 212” that are symbols. For the nickname generation rule 1203 (“121-chan”), there is another nickname generation rule 1223 (“121 Yan”) that includes the same symbol “121”. Therefore, the
このように、学習データ中に直接学習することができるデータが存在しなかったとしても、既に学習された愛称生成ルールから、他の愛称生成ルール(「211 212やん」)を類推学習することができる。 As described above, even if there is no data that can be directly learned in the learning data, another nickname generation rule (“211 212 Yan”) can be analogically learned from the nickname generation rule that has already been learned. it can.
図11に戻り、学習部1006は、生成した愛称生成ルールをルール記憶部121に保存し(ステップS1105)、学習処理を終了する。
Returning to FIG. 11, the
図13は、学習された愛称生成ルールの使用例を示す図である。図13は、正式名称1301(「P田 Y子」)と、正式名称の読みであるひらがな表記1302(「ぴいた わいこ」)と、カタカナ表記1303(「ピイタ ワイコ」)とが入力された例を示している。この場合、直接学習された3つの愛称生成ルール(「121ちゃん」、「211 212 ちゃん」、および「121やん」)からは、それぞれ愛称候補1311、1312、1313(「Yちゃん」、「ぴいちゃん」、「Yやん」)が生成される。さらに、直接学習された愛称生成ルールから類推学習された愛称生成ルール(「211 212やん」)からは、愛称候補1314(「ぴいやん」)をさらに生成することができる。
FIG. 13 is a diagram illustrating a usage example of the learned nickname generation rule. FIG. 13 shows an example in which an official name 1301 (“P field Y child”), a hiragana notation 1302 (“Pita Waiko”) and a katakana notation 1303 (“Pita Waiko”) are input. Is shown. In this case,
このように、第3の実施の形態にかかる愛称推定装置では、名称と愛称とを対応づけた学習データを用いて愛称生成ルールを学習することができる。 Thus, in the nickname estimation apparatus according to the third embodiment, a nickname generation rule can be learned using learning data in which a name and a nickname are associated with each other.
上述のように、略称は、元の名称に関連した文字列のみで構成されるため、特許文献2のように略称を生成するための略称生成ルールを書き下すことは比較的容易である。一方、愛称は、名称とは無関係な文字が挿入され、表現の多様性が多い。このため、規則を書き下すことが難しい場合もある。本実施の形態の方法により愛称生成ルールを学習可能とすれば、このような問題を解消できる。
As described above, since the abbreviation is composed only of the character string related to the original name, it is relatively easy to write down the abbreviation generation rule for generating the abbreviation as in
(第4の実施の形態)
第4の実施の形態にかかる愛称推定装置は、愛称生成ルールによる愛称候補の生成に加えて、Webなどの外部データから愛称候補を抽出し、生成および抽出した愛称候補から適切な愛称候補を選択する。
(Fourth embodiment)
The nickname estimation apparatus according to the fourth embodiment extracts a nickname candidate from external data such as the Web in addition to generation of a nickname candidate based on a nickname generation rule, and selects an appropriate nickname candidate from the generated and extracted nickname candidates To do.
図14は、第4の実施の形態にかかる愛称推定装置1400の構成を示すブロック図である。図14に示すように、愛称推定装置1400は、ルール記憶部121と、文書記憶部822と、名称入力部101と、候補生成部102と、出力部103と、選択部1404と、候補抽出部1407と、を備えている。
FIG. 14 is a block diagram showing a configuration of a
第4の実施の形態では、候補抽出部1407を追加したこと、および選択部1404の機能が第2の実施の形態と異なっている。その他の構成および機能は、第2の実施の形態にかかる愛称推定装置800の構成を表すブロック図である図8と同様であるので、同一符号を付し、ここでの説明は省略する。
In the fourth embodiment, the
候補抽出部1407は、Web上のデータなどの外部データから愛称候補となる文字列を抽出する。候補抽出部1407は、例えば「(愛称)こと(正式名称)」のような典型表現を利用して外部データから愛称候補を含む文字列を検索する。具体的には、候補抽出部1407は、ある名称について、「こと(正式名称)」を検索キーワードとして外部データを検索する。そして、候補抽出部1407は、得られた文書から「こと(正式名称)」の前の所定数の文字からなる文字列を取得し、取得した文字列から愛称候補を抽出する。文字列の取得方法および取得した文字列から愛称候補を抽出する方法についての詳細は後述する。
The
選択部1404は、候補生成部102が生成した愛称候補に加えて、候補抽出部1407が抽出した愛称候補を対象として、愛称候補の選択処理を実行する。また、選択部1404は、生成された愛称候補それぞれについて、文書記憶部822に記憶した文書中の正式名称の前後の所定文字数内に愛称候補が含まれているか否かを判定する。そして、選択部1404は、文書中の正式名称の前後の所定文字数内に含まれる愛称候補に対して、「(愛称候補)こと(正式名称)」という連語を検索キーワードとし、Webページを検索対象として検索を実行する。そして、選択部1404は、検索されたWebページが多い順に愛称候補を順位付けし、上位の所定数の愛称候補を選択する。
The
次に、このように構成された第4の実施の形態にかかる愛称推定装置1400による愛称推定処理について図15を用いて説明する。図15は、第4の実施の形態における愛称推定処理の全体の流れを示すフローチャートである。
Next, a nickname estimation process performed by the
ステップS1501からステップS1504までの、名称入力処理、記号化処理、ルール取得処理、および候補生成処理は、第2の実施の形態にかかる愛称推定装置800におけるステップS901からステップS904までと同様の処理なので、その説明を省略する。
The name input process, symbolization process, rule acquisition process, and candidate generation process from step S1501 to step S1504 are the same processes as from step S901 to step S904 in the
愛称候補が生成された後、選択部1404は、正式名称を検索キーワードとしてWebページなどの所定の文書群を検索し、上位の所定数の検索結果である文書(以下、文書pageという)を文書記憶部822に保存する(ステップS1505)。
After the nickname candidate is generated, the
次に、選択部1404は、保存した文書pageから、正式名称の前後s文字(sは1以上の整数)の文字列を取得する(ステップS1506)。さらに、選択部1404は、取得した文字列中に出現する愛称候補のみを選択する(ステップS1507)。
Next, the
次に、候補抽出部1407が、文書pageから愛称候補を抽出する愛称候補抽出処理を実行する(ステップS1508)。愛称候補抽出処理の詳細については後述する。
Next, the
次に、選択部1404は、ステップS1507で選択された愛称候補およびステップS1508で抽出された愛称候補のそれぞれについて、「(愛称候補)こと(正式名称)」という連語を検索キーワードとしてWeb上で検索を行う(ステップS1509)。そして、選択部1404は、ヒット件数順に愛称候補を並べ、上位N個の候補を選択する(ステップS1510)。
Next, the
最後に、出力部103が、選択された愛称候補を出力し(ステップS1511)、愛称推定処理を終了する。
Finally, the
次に、ステップS1508の愛称候補抽出処理の詳細について図16を用いて説明する。図16は、第4の実施の形態における愛称候補抽出処理の全体の流れを示すフローチャートである。 Next, details of the nickname candidate extraction process in step S1508 will be described with reference to FIG. FIG. 16 is a flowchart showing the overall flow of the nickname candidate extraction process in the fourth embodiment.
まず、候補抽出部1407は、「こと(正式名称)」を検索キーワードとしてWeb検索を実行し、上位N件の文書を取得する(ステップS1601)。次に、候補抽出部1407は、取得した文書から、検索キーワードである「こと(正式名称)」の前のt文字(tは1以上の整数))の文字列strを取得する(ステップS1602)。
First, the
次に、候補抽出部1407は、取得した文字列strのそれぞれについて、文字列strの任意の位置の文字から文字列strの最後の文字までの範囲の文字列である接尾辞を生成する(ステップS1603)。
Next, the
図17は、接尾辞の一例を示す図である。図17は、文字列1701(「今日は良い天気だ」)から作成される8つの接尾辞1711〜1718(「だ」、「気だ」、「天気だ」、「い天気だ」、「良い天気だ」、「は良い天気だ」、「日は良い天気だ」、「今日は良い天気だ」)を示している。
FIG. 17 is a diagram illustrating an example of a suffix. FIG. 17 shows eight
図16に戻り、候補抽出部1407は、各接尾辞について、保存した文書pageおよび文字列strを対象から、接尾辞の前の1文字を取得し、取得した文字の種類数を取得する(ステップS1604)。
Returning to FIG. 16, the
図18は、種類数の取得方法の一例を示す模式図である。図18は、図17の接尾辞に対して、「今日は良い天気だ」、「明日は良い天気だ」、および「気持ちの良い天気だ」という3つの文字列のみが、文書pageおよび文字列str内に存在するときの、各接尾辞の前の文字の種類数を表している。なお、図18内の数値が、各接尾辞の直前の文字の種類数を表している。また、種類数を数える際には、文書page、文字列str、および接尾辞中のカタカナ表記はひらがな表記に置き換えて数える。 FIG. 18 is a schematic diagram illustrating an example of a method for acquiring the number of types. FIG. 18 shows only the three character strings “Today is good weather”, “Tomorrow is good weather”, and “Pleasant weather” for the suffix of FIG. It represents the number of types of characters before each suffix when present in str. In addition, the numerical value in FIG. 18 represents the number of types of characters immediately before each suffix. Further, when counting the number of types, the katakana notation in the document page, the character string str, and the suffix is replaced with the hiragana notation.
この例では、例えば図17の接尾辞1715(「良い天気だ」)に対しては、直前の文字として文字1801(「は」)および文字1802(「の」)が取得される。したがって、接尾辞1715に対する種類数は2となる。
In this example, for the
図16に戻り、候補抽出部1407は、各接尾辞のうち未処理の接尾辞を取得する(ステップS1605)。そして、候補抽出部1407は、取得した接尾辞に対してステップS1604で取得された種類数が1より大きく、かつ、接尾辞の先頭1文字を削除した接尾辞に対してステップS1604で取得された種類数が1であるか否かを判断する(ステップS1606)。
Returning to FIG. 16, the
接尾辞に対して取得された種類数が1より大きく、かつ、接尾辞の先頭1文字を削除した接尾辞に対して取得された種類数が1である場合(ステップS1606:YES)、候補抽出部1407は、取得した接尾辞を愛称候補として抽出する(ステップS1607)。
If the number of types acquired for the suffix is greater than 1 and the number of types acquired for the suffix from which the first character of the suffix is deleted is 1 (step S1606: YES), candidate extraction The
接尾辞に対して取得された種類数が1より大きく、かつ、接尾辞の先頭1文字を削除した接尾辞に対して取得された種類数が1でない場合(ステップS1606:NO)、候補抽出部1407は、さらに、接尾辞に対して取得された種類数が1であり、かつ、接尾辞の先頭1文字を削除した接尾辞に対して取得された種類数が1より大きいか否かを判断する(ステップS1608)。
If the number of types acquired for the suffix is greater than 1 and the number of types acquired for the suffix from which the first character of the suffix is deleted is not 1 (step S1606: NO), the
接尾辞に対して取得された種類数が1であり、かつ、接尾辞の先頭1文字を削除した接尾辞に対して取得された種類数が1より大きい場合(ステップS1608:YES)、候補抽出部1407は、取得した接尾辞から先頭1文字を削除した接尾辞を、愛称候補として抽出する(ステップS1609)。
If the number of types acquired for the suffix is 1 and the number of types acquired for the suffix from which the first character of the suffix is deleted is greater than 1 (step S1608: YES), candidate extraction The
次に、候補抽出部1407は、すべての接尾辞を処理したか否かを判断する(ステップS1610)。すべての接尾辞を処理していない場合(ステップS1610:NO)、候補抽出部1407は、次の未処理の接尾辞を取得して処理を繰り返す(ステップS1605)。
Next, the
すべての接尾辞を処理した場合(ステップS1610:YES)、候補抽出部1407は、文字列str中での頻度が一致する他の愛称候補の部分文字列である愛称候補を削除する(ステップS1611)。
When all the suffixes have been processed (step S1610: YES), the
このような処理により、「こと(正式名称)」を検索キーワードとして検索した文書から、適切な愛称候補を抽出することができる。例えば、非特許文献1のように形態素解析器を利用する場合と比較すると、正しい愛称が「Uーちゃん」である場合に、誤って「ーちゃん」が愛称として抽出される可能性を低減することができる。
By such processing, an appropriate nickname candidate can be extracted from a document searched for “ko (formal name)” as a search keyword. For example, as compared to the case of using a morphological analyzer as in
このように、第4の実施の形態にかかる愛称推定装置では、Webなどの外部データから愛称候補を抽出できるため、さらに適切な愛称候補を選択することができる。例えば、愛称生成ルールのみでは、名称内の文字を全く含まない愛称を推定することが困難であるが、外部データを参照することにより、このような愛称も抽出することが可能となる。 As described above, in the nickname estimation apparatus according to the fourth embodiment, nickname candidates can be extracted from external data such as the Web, so that more appropriate nickname candidates can be selected. For example, it is difficult to estimate a nickname that does not include any characters in the name by using only the nickname generation rule, but it is possible to extract such a nickname by referring to external data.
次に、第1〜第4の実施の形態にかかる愛称推定装置のハードウェア構成について図19を用いて説明する。図19は、第1〜第4の実施の形態にかかる愛称推定装置のハードウェア構成図である。 Next, the hardware configuration of the nickname estimation apparatus according to the first to fourth embodiments will be described with reference to FIG. FIG. 19 is a hardware configuration diagram of the nickname estimation apparatus according to the first to fourth embodiments.
第1〜第4の実施の形態にかかる愛称推定装置は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、HDD、CD(Compact Disc)ドライブ装置などの外部記憶装置と、ディスプレイ装置などの表示装置と、キーボードやマウスなどの入力装置と、各部を接続するバス61を備えており、通常のコンピュータを利用したハードウェア構成となっている。
The nickname estimation apparatus according to the first to fourth embodiments communicates with a control device such as a CPU (Central Processing Unit) 51 and a storage device such as a ROM (Read Only Memory) 52 and a
第1〜第4の実施の形態にかかる愛称推定装置で実行される愛称推定プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。 The nickname estimation program executed by the nickname estimation apparatus according to the first to fourth embodiments is a file in an installable format or an executable format, and is a CD-ROM (Compact Disk Read Only Memory), a flexible disk (FD). ), A CD-R (Compact Disk Recordable), a DVD (Digital Versatile Disk), and the like.
また、第1〜第4の実施の形態にかかる愛称推定装置で実行される愛称推定プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第1〜第4の実施の形態にかかる愛称推定装置で実行される愛称推定プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。 Further, the nickname estimation program executed by the nickname estimation apparatus according to the first to fourth embodiments is stored on a computer connected to a network such as the Internet, and is provided by being downloaded via the network. It may be configured. Moreover, you may comprise so that the nickname estimation program performed with the nickname estimation apparatus concerning 1st-4th embodiment may be provided or distributed via networks, such as the internet.
また、第1〜第4の実施の形態の愛称推定プログラムを、ROM等に予め組み込んで提供するように構成してもよい。 Moreover, you may comprise so that the nickname estimation program of 1st-4th embodiment may be previously incorporated in ROM etc. and provided.
第1〜第4の実施の形態にかかる愛称推定装置で実行される愛称推定プログラムは、上述した各部(名称入力部、候補生成部、出力部、選択部、学習データ入力部、学習部、候補抽出部)を含むモジュール構成となっており、実際のハードウェアとしてはCPU51(プロセッサ)が上記記憶媒体から愛称推定プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、上述した各部が主記憶装置上に生成されるようになっている。 The nickname estimation program executed by the nickname estimation apparatus according to the first to fourth embodiments includes the above-described units (name input unit, candidate generation unit, output unit, selection unit, learning data input unit, learning unit, candidate As the actual hardware, the CPU 51 (processor) reads out the nickname estimation program from the storage medium and executes it to load the respective units onto the main storage device. Each unit is generated on the main memory.
以上のように、本発明にかかる装置、方法およびプログラムは、名称だけでなく名称の愛称が処理対象となりうる情報検索装置、音声認識装置、音声対話装置などに適している。 As described above, the apparatus, method, and program according to the present invention are suitable for an information search apparatus, a voice recognition apparatus, a voice interactive apparatus, and the like that can be processed not only by names but also by nicknames.
51 CPU
52 ROM
53 RAM
54 通信I/F
61 バス
100 愛称推定装置
101 名称入力部
102 候補生成部
103 出力部
121 ルール記憶部
201 愛称候補
301 人名
302 カタカナ表記
800 愛称推定装置
804 選択部
822 文書記憶部
1000 愛称推定装置
1005 学習データ入力部
1006 学習部
1201 正式名称
1202、1212 愛称
1203、1213、1223 愛称生成ルール
1211 ひらがな表記
1301 正式名称
1302 ひらがな表記
1303 カタカナ表記
1311〜1314 愛称候補
1400 愛称推定装置
1404 選択部
1407 候補抽出部
1701 文字列
1711〜1718 接尾辞
1801、1802 文字
51 CPU
52 ROM
53 RAM
54 Communication I / F
61
Claims (10)
前記名称に含まれる文字のうち、前記愛称の候補に含める文字の位置を表す位置情報と、予め定められた付加文字列とを含む前記愛称の候補の生成規則を記憶する規則記憶部と、
前記名称を入力する名称入力部と、
入力された前記名称に含まれる文字のうち、前記生成規則の前記位置情報で表される位置の文字を取得し、取得した文字と前記生成規則の前記付加文字列とを結合した前記愛称の候補を生成する生成部と、
生成された前記愛称の候補を出力する出力部と、
を備えたことを特徴とする愛称推定装置。 A nickname estimation device that estimates a nickname of a name from a name,
Among the characters included in the name, a rule storage unit that stores position information indicating a position of a character to be included in the nickname candidate and a generation rule for the nickname candidate including a predetermined additional character string;
A name input unit for inputting the name;
Among the characters included in the input name, the character at the position represented by the position information of the generation rule is acquired, and the nickname candidate obtained by combining the acquired character and the additional character string of the generation rule A generating unit for generating
An output unit for outputting the generated nickname candidates;
A nickname estimation device characterized by comprising:
前記学習データの前記名称と前記学習データの前記愛称とに共通して含まれる共通文字を取得し、前記学習データの前記名称から前記共通文字の位置を表す位置情報を生成し、前記学習データの前記愛称から前記共通文字を削除した文字列を生成し、生成した位置情報と生成した文字列とを前記愛称の候補の生成規則として学習する学習部と、をさらに備えたこと、
を特徴とする請求項1に記載の愛称推定装置。 A learning data input unit for inputting learning data in which the name and a nickname already known for the name are associated;
A common character included in common in the name of the learning data and the nickname of the learning data is acquired, position information representing a position of the common character is generated from the name of the learning data, and the learning data A learning unit that generates a character string in which the common character is deleted from the nickname, and learns the generated position information and the generated character string as a generation rule for the nickname candidate;
The nickname estimation apparatus according to claim 1.
を特徴とする請求項1に記載の愛称推定装置。 Determining whether or not the nickname candidate is included in a predetermined first document and further including a selection unit that selects the nickname candidate included in the first document;
The nickname estimation apparatus according to claim 1.
を特徴とする請求項3に記載の愛称推定装置。 The selection unit further searches the second document including the selected candidate for the nickname among predetermined second documents, and is determined in advance in descending order of the number of the second documents searched. Selecting a number of said nickname candidates;
The nickname estimation apparatus according to claim 3.
を特徴とする請求項3に記載の愛称推定装置。 The selection unit determines whether the nickname candidate is included in the first document including the input name among the first documents, and the nickname included in the first document. Selecting candidates for
The nickname estimation apparatus according to claim 3.
を特徴とする請求項5に記載の愛称推定装置。 The selection unit obtains a character string having a predetermined number of characters before and after the name from the first document including the inputted name, and the nickname for the obtained character string Determining whether or not a candidate is included, and selecting the nickname candidate included in the acquired character string;
The nickname estimation apparatus according to claim 5.
を特徴とする請求項1に記載の愛称推定装置。 The third document including the inputted name is searched for from among the predetermined third documents, and at least one character having a predetermined number of characters before and after the name of the searched third document. Further comprising an extraction unit for acquiring a column and extracting the nickname candidate from the acquired character string;
The nickname estimation apparatus according to claim 1.
を特徴とする請求項1に記載の愛称推定装置。 A selection unit for selecting the nickname candidate designated by the user from the outputted nickname candidates;
The nickname estimation apparatus according to claim 1.
前記愛称推定装置は、前記名称に含まれる文字のうち、前記愛称の候補に含める文字の位置を表す位置情報と、予め定められた付加文字列とを含む前記愛称の候補の生成規則を記憶する規則記憶部を備え、
名称入力部が、前記名称を入力する名称入力ステップと、
生成部が、入力された前記名称に含まれる文字のうち、前記生成規則の前記位置情報で表される位置の文字を取得し、取得した文字と前記生成規則の前記付加文字列とを結合した前記愛称の候補を生成する生成ステップと、
出力部が、生成された前記愛称の候補を出力する出力ステップと、
を備えたことを特徴とする愛称推定方法。 A nickname estimation method executed by a nickname estimation device that estimates a nickname of a name from a name,
The nickname estimation apparatus stores position information indicating a position of a character to be included in the nickname candidate among characters included in the name, and a nickname candidate generation rule including a predetermined additional character string. A rule storage unit,
A name input step in which the name input unit inputs the name;
The generation unit acquires the character at the position represented by the position information of the generation rule among the characters included in the input name, and combines the acquired character and the additional character string of the generation rule Generating the nickname candidate; and
An output unit for outputting the generated nickname candidate;
A nickname estimation method characterized by comprising:
前記愛称推定装置は、前記名称に含まれる文字のうち、前記愛称の候補に含める文字の位置を表す位置情報と、予め定められた付加文字列とを含む前記愛称の候補の生成規則を記憶する規則記憶部を備え、
前記名称を入力する名称入力手順と、
入力された前記名称に含まれる文字のうち、前記生成規則の前記位置情報で表される位置の文字を取得し、取得した文字と前記生成規則の前記付加文字列とを結合した前記愛称の候補を生成する生成手順と、
生成された前記愛称の候補を出力する出力手順と、
を前記愛称推定装置に実行させる愛称推定プログラム。 A nickname estimation program executed by a nickname estimation device that estimates a nickname of the name from a name,
The nickname estimation apparatus stores position information indicating a position of a character to be included in the nickname candidate among characters included in the name, and a nickname candidate generation rule including a predetermined additional character string. A rule storage unit,
A name input procedure for inputting the name;
Among the characters included in the input name, the character at the position represented by the position information of the generation rule is acquired, and the nickname candidate obtained by combining the acquired character and the additional character string of the generation rule A generation procedure for generating
An output procedure for outputting the generated nickname candidates;
A nickname estimation program for causing the nickname estimation apparatus to execute the program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008004364A JP5248121B2 (en) | 2008-01-11 | 2008-01-11 | Apparatus, method and program for estimating nickname |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008004364A JP5248121B2 (en) | 2008-01-11 | 2008-01-11 | Apparatus, method and program for estimating nickname |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009169513A true JP2009169513A (en) | 2009-07-30 |
JP5248121B2 JP5248121B2 (en) | 2013-07-31 |
Family
ID=40970637
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008004364A Expired - Fee Related JP5248121B2 (en) | 2008-01-11 | 2008-01-11 | Apparatus, method and program for estimating nickname |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5248121B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020077249A (en) * | 2018-11-08 | 2020-05-21 | カシオ計算機株式会社 | Information processing device, robot, information processing method and program |
CN111814470A (en) * | 2020-07-14 | 2020-10-23 | 混沌时代(北京)教育科技有限公司 | Method and system for extracting name based on internet nickname |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103146439B (en) * | 2012-12-18 | 2014-06-18 | 柳州钢铁股份有限公司 | Coke oven gas negative pressure naphthalene washing method and equipment |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11109991A (en) * | 1997-10-08 | 1999-04-23 | Mitsubishi Electric Corp | Man machine interface system |
JP2004118741A (en) * | 2002-09-27 | 2004-04-15 | Toshiba Corp | Curtailed word formation supporting device and curtailed word formation supporting program |
WO2004044887A1 (en) * | 2002-11-11 | 2004-05-27 | Matsushita Electric Industrial Co., Ltd. | Speech recognition dictionary creation device and speech recognition device |
JP2006012000A (en) * | 2004-06-29 | 2006-01-12 | Canon Sales Co Inc | Method, device for retrieving document, computer program and computer readable recording medium |
-
2008
- 2008-01-11 JP JP2008004364A patent/JP5248121B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11109991A (en) * | 1997-10-08 | 1999-04-23 | Mitsubishi Electric Corp | Man machine interface system |
JP2004118741A (en) * | 2002-09-27 | 2004-04-15 | Toshiba Corp | Curtailed word formation supporting device and curtailed word formation supporting program |
WO2004044887A1 (en) * | 2002-11-11 | 2004-05-27 | Matsushita Electric Industrial Co., Ltd. | Speech recognition dictionary creation device and speech recognition device |
JP2006012000A (en) * | 2004-06-29 | 2006-01-12 | Canon Sales Co Inc | Method, device for retrieving document, computer program and computer readable recording medium |
Non-Patent Citations (2)
Title |
---|
CSNG200800127046; 榎 将功 外3名: '日本語における略語自動生成法の検討とその音声インタフェースへの応用' 情報処理学会研究報告 第2007巻第129号, 20071220, P.313〜318, 社団法人情報処理学会 * |
JPN6012040613; 榎 将功 外3名: '日本語における略語自動生成法の検討とその音声インタフェースへの応用' 情報処理学会研究報告 第2007巻第129号, 20071220, P.313〜318, 社団法人情報処理学会 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020077249A (en) * | 2018-11-08 | 2020-05-21 | カシオ計算機株式会社 | Information processing device, robot, information processing method and program |
JP7205173B2 (en) | 2018-11-08 | 2023-01-17 | カシオ計算機株式会社 | Information processing device, robot, information processing method and program |
CN111814470A (en) * | 2020-07-14 | 2020-10-23 | 混沌时代(北京)教育科技有限公司 | Method and system for extracting name based on internet nickname |
Also Published As
Publication number | Publication date |
---|---|
JP5248121B2 (en) | 2013-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5257071B2 (en) | Similarity calculation device and information retrieval device | |
JP5426710B2 (en) | Search support device, search support method and program | |
US11586689B2 (en) | Electronic apparatus and controlling method thereof | |
CN109785842A (en) | Speech recognition error correction method and speech recognition error correction system | |
JP2007058509A (en) | Language processing system | |
JP2006301446A (en) | Reading generation device and method, and computer program | |
JP2017174059A (en) | Information processor, information processing method, and program | |
JP2017097062A (en) | Reading imparting device, speech recognition device, reading imparting method, speech recognition method, and program | |
JP2015215626A (en) | Document reading-aloud support device, document reading-aloud support method, and document reading-aloud support program | |
JP5248121B2 (en) | Apparatus, method and program for estimating nickname | |
JP7031462B2 (en) | Classification program, classification method, and information processing equipment | |
JP2015219582A (en) | Interactive method, interaction device, interactive program, and recording medium | |
JP2007207127A (en) | Question answering system, question answering processing method and question answering program | |
JP2009059300A (en) | Device, method, and program for creating data for learning translation | |
JP6787755B2 (en) | Document search device | |
CN110634480A (en) | Voice dialogue system, model creation device, and method thereof | |
JP2007200252A (en) | Abbreviation generation/validity evaluation method, synonym database generation/update method, abbreviation generation/validity evaluation device, synonym database generation/update device, program, and recording medium | |
JPWO2016151690A1 (en) | Document search apparatus, method and program | |
JP6881077B2 (en) | Discrimination program, discrimination device and discrimination method | |
JP2013069157A (en) | Natural language processing device, natural language processing method and natural language processing program | |
JP6584361B2 (en) | Keyword extraction device, keyword extraction method, and keyword extraction program | |
JP2005190100A (en) | Question answering system and method | |
JP4523312B2 (en) | Apparatus, method, and program for outputting text voice | |
JP6309852B2 (en) | Enhanced position prediction apparatus, enhanced position prediction method, and program | |
WO2023073886A1 (en) | Information processing system, information processing device, information processing method, and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101015 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120730 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120807 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121005 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130319 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130410 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5248121 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160419 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |