JP2012068687A - Information processing device, method and program - Google Patents

Information processing device, method and program Download PDF

Info

Publication number
JP2012068687A
JP2012068687A JP2010210324A JP2010210324A JP2012068687A JP 2012068687 A JP2012068687 A JP 2012068687A JP 2010210324 A JP2010210324 A JP 2010210324A JP 2010210324 A JP2010210324 A JP 2010210324A JP 2012068687 A JP2012068687 A JP 2012068687A
Authority
JP
Japan
Prior art keywords
noun
type
search result
search
web search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010210324A
Other languages
Japanese (ja)
Other versions
JP5307781B2 (en
Inventor
Manabu Satsusano
学 颯々野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2010210324A priority Critical patent/JP5307781B2/en
Publication of JP2012068687A publication Critical patent/JP2012068687A/en
Application granted granted Critical
Publication of JP5307781B2 publication Critical patent/JP5307781B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To determine a type of a noun whose type is unclear from a given context.SOLUTION: On the basis of a context relating to a noun in a search result of a search engine, a type of even a noun whose type is unclear from a given context can be determined. Therefore, the determined type can be utilized for the optimization of an information processing result based on the intention of a user by, for example, presenting a related search word in a related search or reflecting it on the control of a listing order of a Web search result. For the prescribed number of summaries, a quantity determined according to the fact that a noun to be determined is used with a corresponding pattern and so forth is tabulated for the each type. The type with a larger quantity is then preferentially output as a determination result by being transferred for post-processing, for example. As for even nouns which are pertinent to a plurality of types, the most general type or primary types down to several ranks can be used as the determination result, therefore it is possible to optimize the information processing result matching the intention of many users.

Description

本発明は、言語処理技術の改良に関する。   The present invention relates to an improvement in language processing technology.

従来、日本語など言語情報処理の分野において、自動翻訳(例えば、非特許文献1参照)や検索などの情報処理結果をユーザの意図に合わせて最適化する工夫が知られている。例えば、本出願人は、ウェブ検索でユーザが入力した名詞などの検索語(「検索クエリ」とも呼ばれる)を基に、よく組み合わせられる語などを関連検索ワードとして提示するサービス(「関連検索」と呼んでいる)を実施している(例えば、非特許文献2参照)。また、ユーザとの質疑を繰り返すことでユーザの質問の意図を解析し、検索結果の分量や提示形式などを調整する提案も知られている(例えば、特許文献1参照)。   Conventionally, in the field of language information processing such as Japanese, a device for optimizing information processing results such as automatic translation (see, for example, Non-Patent Document 1) and search according to the user's intention is known. For example, the present applicant provides a service (“related search”) that presents words that are often combined as related search words based on search terms such as nouns (also referred to as “search queries”) entered by the user in web search. (See, for example, Non-Patent Document 2). There is also known a proposal of analyzing the intention of a user's question by repeating questions with the user and adjusting the amount of search results, the presentation format, and the like (see, for example, Patent Document 1).

ヤフー株式会社、「Yahoo!翻訳」、[online]、[2010年7月16日検索]、インターネット〈URL: http://honyaku.yahoo.co.jp/>Yahoo Japan Corporation, "Yahoo! Translation", [online], [Search July 16, 2010], Internet <URL: http://honyaku.yahoo.co.jp/> ヤフー株式会社、「Yahoo!検索ヘルプ−「関連検索ワード」とは」、[online]、[2010年7月16日検索]、インターネット〈URL: http://help.yahoo.co.jp/help/jp/search/web/web-17.html>Yahoo Japan Corporation, "Yahoo! Search Help-What is" Related Search Word "", [online], [Search July 16, 2010], Internet <URL: http://help.yahoo.co.jp/help /jp/search/web/web-17.html> 竹村彰通 他、「言語と心理の統計学」、第1刷、株式会社岩波書店、2003年3月、p.74−86Akinori Takemura et al., “Statistics of Language and Psychology”, 1st edition, Iwanami Shoten Co., Ltd., March 2003, p.74-86

特開2002−288201号公報JP 2002-288201 A

しかし、ウェブ検索で入力される検索クエリに含まれる名詞や、形態素解析を用いた自動翻訳の原文に含まれる名詞などについて、与えられる文脈が単語や短文など限られている場合、名詞の類型が不明であるため情報処理結果の最適化が困難な場合が多いという課題があった。   However, if nouns are included in the search query entered by web search or nouns included in the original text of automatic translation using morphological analysis, the type of noun is There is a problem that optimization of information processing results is often difficult because it is unknown.

例えば、「キールナ」という名詞が広く知られておらず、「キールナに行く」という文脈だけが与えられた場合、この文脈だけでは「キールナ」という名詞の類型(例えば、地名か、人名か、組織名かなど)が判定できないが、このような場合も名詞の類型が判定できれば、ユーザの意図に応じた情報処理結果の最適化が可能になる。   For example, if the noun “Kiruna” is not widely known and only the context “Go to Kieluna” is given, then this context alone is the type of the noun “Kiruna” (for example, place name, person name, organization In this case, if the type of the noun can be determined, the information processing result can be optimized according to the user's intention.

この点、非特許文献2の技術は、よく入力される名詞については、多数の入力例を基に関連検索ワードを提示できるが、それ以外の名詞には効果的な対応が困難であった。また、特許文献1の技術は、ユーザとの質疑に基づくもので、ウェブ検索のように入力に即応して検索結果を提供する処理への適用は困難であった。   In this regard, the technique of Non-Patent Document 2 can present related search words for frequently input nouns based on a large number of input examples, but it is difficult to effectively deal with other nouns. Further, the technique of Patent Document 1 is based on questions with the user, and it has been difficult to apply to a process that provides a search result in response to an input like a web search.

上記の課題に対し、本発明の目的は、与えられた文脈からは類型が不明な名詞の類型を判定することである。   In view of the above problems, an object of the present invention is to determine a type of a noun whose type is unknown from a given context.

上記の目的をふまえ、本発明の一態様(1)である情報処理装置は、言語処理の対象として与えられた判定対象の名詞を取得する名詞取得手段と、取得された前記名詞に基づくウェブ検索結果を取得する検索結果取得手段と、取得された前記ウェブ検索結果における前記名詞に関する文脈に基づいて前記名詞の類型を判定する類型判定手段と、を有することを特徴とする。   Based on the above object, an information processing apparatus according to one aspect (1) of the present invention includes a noun acquisition means for acquiring a determination target noun given as a language processing target, and a web search based on the acquired noun It comprises search result acquisition means for acquiring results, and type determination means for determining the type of the noun based on the context relating to the noun in the acquired web search result.

本発明の他の態様(5)は、上記態様を方法のカテゴリで捉えた情報処理方法であって、コンピュータが、言語処理の対象として与えられた判定対象の名詞を取得する名詞取得処理と、コンピュータが、取得された前記名詞に基づくウェブ検索結果を取得する検索結果取得処理と、コンピュータが、取得された前記ウェブ検索結果における前記名詞に関する文脈に基づいて前記名詞の類型を判定する類型判定処理と、を含むことを特徴とする。   Another aspect (5) of the present invention is an information processing method that captures the above aspect in a method category, in which a computer acquires a noun to be determined that is given as a language processing target, A search result acquisition process in which the computer acquires a web search result based on the acquired noun, and a type determination process in which the computer determines a type of the noun based on a context regarding the noun in the acquired web search result It is characterized by including these.

本発明の他の態様(6)は、上記態様をコンピュータ・プログラムのカテゴリで捉えたもので、コンピュータを制御することにより名詞の類型を判定させるコンピュータ・プログラムであって、コンピュータに、言語処理の対象として与えられた判定対象の名詞を取得させ、コンピュータに、取得された前記名詞に基づくウェブ検索結果を取得させ、コンピュータに、取得された前記ウェブ検索結果における前記名詞に関する文脈に基づいて前記名詞の類型を判定させることを特徴とする。   Another aspect (6) of the present invention is a computer program that captures the above aspects in the category of a computer program, and that determines the type of a noun by controlling the computer. A determination target noun given as an object is acquired, a computer is caused to acquire a web search result based on the acquired noun, and the computer is caused to acquire the noun based on a context related to the noun in the acquired web search result It is characterized in that the type of is determined.

このように、検索エンジンの検索結果における名詞に関する文脈に基づくことにより、与えられた文脈からは類型が不明な名詞についても名詞の類型が判定できるので、判定した類型を、例えば関連検索における関連検索ワードの提示や、ウェブ検索結果のリスト順の制御に反映するなど、ユーザの意図に基づく情報処理結果の最適化に活用可能となる。   In this way, the noun type can be determined even for a noun whose type is unknown from the given context, based on the noun context in the search engine search results. It can be used for optimizing information processing results based on the user's intention, such as word presentation and reflection in the control of the list order of web search results.

本発明の他の態様(2)は、上記いずれかの態様において、取得された前記ウェブ検索結果に含まれる所定数の要素に対して前記類型判定手段により判定された前記類型ごとの数量を集計する判定結果集計手段と、集計された前記数量が多い前記類型を優先して判定結果として出力する結果出力手段と、を有することを特徴とする。   According to another aspect (2) of the present invention, in any one of the above aspects, the quantity for each type determined by the type determination unit for a predetermined number of elements included in the acquired web search result is aggregated. And a result output means for preferentially outputting the type having a large number of the collected quantities as a determination result.

このように、URLごとに検索語を含む部分を抜書きした文字列であるスニペットなど要約その他の要素の所定数に対し、類型ごとに、対応するパターンで判定対象の名詞が用いられているなどで判定された数量を集計し、その多いものを優先して判定結果として後処理へ渡すなどの形で出力することにより、複数の類型に該当する名詞についても、最も一般的な類型、又は数番目までの主要な類型を判定結果として利用できるので、多くのユーザの意図に合致する情報処理結果の最適化が可能となる。   In this way, for a predetermined number of summary and other elements such as a snippet that is a character string in which a part including a search word is extracted for each URL, a noun to be determined is used in a corresponding pattern for each type. The most common types or numbers can be obtained for nouns that correspond to multiple types by summing up the quantities determined in (1) and outputting them in the form of giving priority to the post-processing as the determination result. Since the first major types can be used as determination results, it is possible to optimize information processing results that match the intentions of many users.

本発明の他の態様(3)は、上記いずれかの態様において、前記名詞について判定された前記類型に基づいて、その名詞と同時に検索クエリとして指定する語の候補として、前記類型に応じた所定の語を提示する関連提示手段を備えたことを特徴とする。   According to another aspect (3) of the present invention, in any one of the aspects described above, based on the type determined for the noun, as a candidate for a word specified as a search query simultaneously with the noun, a predetermined according to the type The present invention is characterized in that a related presentation means for presenting the words is provided.

このように、判定した名詞の類型に基づいて、いわゆる関連検索における関連検索ワードとして、名詞の類型に予め対応付けた単語などを提示することにより、ユーザの意図により適合した検索クエリの選択を効果的に支援することができる。   In this way, the selection of a search query that is more suitable for the user's intention can be effectively performed by presenting a word or the like previously associated with a noun type as a related search word in a so-called related search based on the determined noun type. Can help.

本発明の他の態様(4)は、上記いずれかの態様において、前記名詞に基づくウェブ検索結果に含まれる情報項目について、その名詞について判定された前記類型と同じ類型に係る表現を含むか否かに基づいて、情報項目のリスト順を制御するリスト順制御手段を備えたことを特徴とする。   In another aspect (4) of the present invention, in any one of the above aspects, the information item included in the web search result based on the noun includes an expression relating to the same type as the type determined for the noun. And a list order control means for controlling the list order of the information items.

このように、判定した名詞の類型に基づいて、ウェブ検索結果に含まれるURLなどの情報項目のリスト順を制御することにより、ユーザの意図に適合したウェブ検索結果を最小限のスクロールやページ遷移で見ることが可能となり、ウェブ検索の使い勝手が改善する。   In this way, by controlling the list order of information items such as URLs included in the web search result based on the determined noun type, the web search result suitable for the user's intention can be scrolled to the minimum. Web browsing is improved, and the usability of web search is improved.

なお、上記の各態様とは異なるカテゴリ(装置に対し方法、方法に対しプログラムなど)や、以下に説明するさらに具体的な各態様も本発明に含まれる。異なるカテゴリについては、「手段」を「処理」又は「ステップ」のように適宜読み替えるものとする。また、処理やステップの実行順序は上記のものに限定されず、適宜変更したりまとめて処理するなど、変更可能である。   It should be noted that a category (method for the apparatus, program for the method, etc.) different from each of the above-described modes and more specific modes described below are also included in the present invention. For different categories, “means” shall be appropriately read as “process” or “step”. Further, the order of execution of processes and steps is not limited to the above, and can be changed as appropriate or can be processed collectively.

本発明によれば、与えられた文脈からは類型が不明な名詞の類型を判定することが可能となる。   According to the present invention, it is possible to determine the type of a noun whose type is unknown from a given context.

本発明の実施形態の構成を示す機能ブロック図。The functional block diagram which shows the structure of embodiment of this invention. 本発明の実施形態で用いる情報(データ)を例示する図。The figure which illustrates the information (data) used by embodiment of this invention. 本発明の実施形態における処理手順を示すフローチャート。The flowchart which shows the process sequence in embodiment of this invention. 本発明の実施形態における画面例を示す図。The figure which shows the example of a screen in embodiment of this invention. 本発明の実施形態における画面例を示す図。The figure which shows the example of a screen in embodiment of this invention.

次に、本発明を実施するための形態(「実施形態」と呼ぶ)について、図に沿って説明する。なお、背景技術や課題などで既に述べた内容と共通の前提事項については適宜省略する。   Next, modes for carrying out the present invention (referred to as “embodiments”) will be described with reference to the drawings. It should be noted that assumptions common to those already described in the background art and problems are omitted as appropriate.

〔1.構成〕
本実施形態は、図1に示す情報処理装置1(以下「本装置1」又は「本装置」と略称する)に関するもので、本装置1は、自動翻訳サーバ2及びウェブ検索サーバ3のバックエンドとして、これら自動翻訳サーバ2及びウェブ検索サーバ3から名詞(名詞を含む文字列でもよい)を受け取って、その類型を回答するものである。自動翻訳サーバ2及びウェブ検索サーバ3は、それぞれ、通信ネットワークN(インターネット、携帯電話網、LANなど)経由でユーザの端末Tからのアクセスを受け付けて、自動翻訳及びウェブ検索のサービスを提供するものである。
[1. Constitution〕
The present embodiment relates to the information processing apparatus 1 shown in FIG. 1 (hereinafter abbreviated as “this apparatus 1” or “this apparatus”), and this apparatus 1 is a back end of an automatic translation server 2 and a web search server 3. Are received from the automatic translation server 2 and the web search server 3 and may be returned as their types. The automatic translation server 2 and the web search server 3 each receive access from a user terminal T via a communication network N (Internet, cellular phone network, LAN, etc.) and provide automatic translation and web search services. It is.

本装置1は(サーバ2及び3も同様)、一般的なコンピュータの構成として少なくとも、CPUなどの演算制御部6と、外部記憶装置(HDD等)や主メモリ等の記憶装置7と、通信ネットワークNとの通信手段8(LANアダプタや通信ゲートウェイ装置など)と、を有する。そして、本装置1では、記憶装置7に予め記憶(インストール)した図示しない所定のコンピュータ・プログラムが演算制御部6を制御することで、図1に示す各手段などの要素(10,20など)を実現する。これら各要素のうち、情報の記憶手段は、記憶装置7において各種のデータベース(「DB」とも表す)やファイル、配列等の変数、各種スタックやレジスタ、システム設定値など任意の形式で実現できる。   The present apparatus 1 (same as the servers 2 and 3) has at least an arithmetic control unit 6 such as a CPU, a storage device 7 such as an external storage device (HDD or the like) or a main memory, and a communication network as a general computer configuration. N communication means 8 (LAN adapter, communication gateway device, etc.). In the apparatus 1, a predetermined computer program (not shown) stored (installed) in advance in the storage device 7 controls the arithmetic control unit 6 so that elements (10, 20, etc.) shown in FIG. Is realized. Among these elements, the information storage means can be realized in the storage device 7 in any format such as various databases (also referred to as “DB”), variables such as files and arrays, various stacks and registers, and system setting values.

このような記憶手段のうち、パターン記憶手段25は、図2(1)に例示するように、名詞の類型ごとに、判定に用いる判定語と、これら判定語と名詞との関連を対応付けたデータ(「パターンデータ」と呼ぶこととする)を記憶している手段である。また、ウェブ検索サーバ3の関連検索語記憶手段35は、名詞について判定された類型ごとに、関連検索ワードとして提示する語を対応付けたデータ(「関連検索用データ」と呼ぶこととする)を記憶している手段である。なお、記憶手段以外の各手段は、以下のような情報処理の機能・作用を実現・実行する処理手段である。   Among such storage means, the pattern storage means 25 associates determination words used for determination and associations between these determination words and nouns for each type of noun, as illustrated in FIG. 2 (1). It is means for storing data (referred to as “pattern data”). In addition, the related search word storage unit 35 of the web search server 3 associates data (referred to as “related search data”) in which words presented as related search words are associated with each type determined for the noun. It is a memorizing means. Each means other than the storage means is a processing means for realizing and executing the following information processing functions and operations.

〔2.類型の判定〕
上記のように構成した本装置1が名詞の類型を判定する作用における処理手順を図3のフローチャートに示す。
〔2−1.名詞の取得〕
すなわち、名詞取得手段10が、言語処理の対象として与えられた判定対象の名詞を取得する(ステップS1)。この判定対象の名詞の取得は、図1の例では自動翻訳サーバ2やウェブ検索サーバ3から送信される判定対象の名詞を受信することで行うが、他に、端末Tのユーザなどから直接入力を受け付けてもよいし、検索ログの検索クエリなど、類型を判定したい名詞群をファイルなどに用意しておき、アップロードを受け付けたりバッチ処理などによりまとめて判定処理を行ってもよい。
[2. (Determination of type)
FIG. 3 is a flowchart showing a processing procedure in the operation of determining the type of noun by the apparatus 1 configured as described above.
[2-1. (Acquiring nouns)
That is, the noun acquisition unit 10 acquires the noun to be determined given as the language processing target (step S1). In the example of FIG. 1, the determination target noun is acquired by receiving the determination target noun transmitted from the automatic translation server 2 or the web search server 3. Or a noun group whose type is to be determined, such as a search query in a search log, may be prepared in a file or the like, and the determination process may be performed collectively by receiving an upload or batch processing.

〔2−2.検索結果の取得〕
続いて、検索結果取得手段20が、取得された名詞に基づくウェブ検索結果を取得する(ステップS2)。具体的には、取得された名詞を検索キーワード入力手段15が、ウェブ検索サーバ3などの実現する所定の検索エンジン(すなわちウェブ検索サービス)などに入力し、検索結果取得手段20が、その名詞に基づく検索エンジンなどによるウェブ検索結果を取得する(ステップS2)。図4は、名詞(例えば「キールナ」)が検索クエリとして入力された場合の検索結果表示画面の一例を示す図である。
[2-2. (Get search results)
Subsequently, the search result acquisition means 20 acquires a web search result based on the acquired noun (step S2). Specifically, the search keyword input unit 15 inputs the acquired noun into a predetermined search engine (that is, a web search service) realized by the web search server 3 or the like, and the search result acquisition unit 20 sets the noun as the noun. A web search result by a search engine or the like is obtained (step S2). FIG. 4 is a diagram illustrating an example of a search result display screen when a noun (for example, “Kiruna”) is input as a search query.

〔2−3.類型の判定〕
そして、類型判定手段30が、取得されたウェブ検索結果における名詞に関する文脈に基づいて、例えば形態素解析による固有表現抽出技術を適用するなどにより、名詞の類型を判定する(ステップS3)。ここで、固有表現抽出技術(NE技術)は、形態素解析により、所定の語について接尾語や接頭語になっているか、また当該名詞との共起性などに応じて名詞の類型の判定などを行うものであり、例えば、非特許文献3に記載のように、隠れマルコフモデルや最大エントロピーモデルによる固有表現抽出などが知られている。なお、ここでは、対象の名詞は既に特定されているので、既存の固有表現抽出技術については、名詞の類型を判定するアルゴリズムの部分のみを利用してもよいし、必ずしも利用しなくてもよい。
[2-3. (Determination of type)
Then, the type determining means 30 determines the type of the noun based on the context relating to the noun in the acquired web search result, for example, by applying a specific expression extraction technique based on morphological analysis (step S3). Here, the proper expression extraction technology (NE technology) is based on morphological analysis to determine whether a given word is a suffix or prefix, and determine the type of a noun according to the co-occurrence with the noun. For example, as described in Non-Patent Document 3, eigen-expression extraction using a hidden Markov model or a maximum entropy model is known. Here, since the target noun has already been specified, only the portion of the algorithm for determining the type of the noun may be used or not necessarily used for the existing proper expression extraction technology. .

また、判定する名詞の類型としては、組織名(ORGANIZATION)、人名(PERSON)、地名(LOCATION)、日付表現(DATE)、時間表現(TIME)、金額表現(MONEY)、割合表現(PERCENT)、固有物名(ARTIFACT)などが固有表現抽出技術でも取り扱われるが、本実施形態では、これら類型の一部又は全部を任意に選択して判定の対象とする。   In addition, types of nouns to be judged include organization name (ORGANIZATION), person name (PERSON), place name (LOCATION), date expression (DATE), time expression (TIME), monetary expression (MONEY), percentage expression (PERCENT), Although the unique object name (ARTIFACT) is also handled by the unique expression extraction technique, in the present embodiment, a part or all of these types are arbitrarily selected and set as a determination target.

具体例としては、図2(1)に例示したようにパターンデータを用いて、例えば、接尾語が「・・県」「・・発」「・・旅行」などの名詞は地名と判定したり、接尾語が「・・さん」「・・家」「・・流」などの名詞は人名と判定したり、「株式会社」「社団法人」などを伴う名詞を組織名と判定したり、などの処理が考えられる。例えば、図4の例では、ウェブ検索結果に含まれるウェブページのURLごとのいわゆるスニペットなどの要約において、キールナ「行き」、キールナ「発」といった判定語Kが接尾語となっていることから、パターンデータ(図2(1))に基づき、名詞の類型は「地名」と判定できる。   As a specific example, using pattern data as illustrated in FIG. 2 (1), for example, nouns with suffixes such as “•• prefecture”, “•• departure”, “•• travel” are determined as place names. , The nouns with suffixes such as "・ ・ さ ん", "・ ・ house", "・ ・ 流" are judged as human names, or nouns with "corporation", "corporate association" etc. are judged as organization names, etc. Can be considered. For example, in the example of FIG. 4, in the summaries of so-called snippets for each URL of the web page included in the web search result, the determination words K such as “Kiruna” “Go” and “Kiruna“ Departure ”are suffixes. Based on the pattern data (FIG. 2 (1)), the type of noun can be determined as “place name”.

また、判定の根拠とするウェブ検索結果やその要素としては、スニペットなどの要約に限らず、検索結果に含まれるリンク先のウェブページの内容を用いてもよい。   Further, the web search result and its elements as the basis for the determination are not limited to the summary such as a snippet, but the contents of the linked web page included in the search result may be used.

〔3.類型の出力と利用〕
上記のように判定された類型を自動翻訳サーバ2へ出力して活用すれば翻訳精度が改善する。例えば、自動翻訳において、翻訳辞書にないような単語が原文にあった場合、もしくは、与えられた原文からでは類型を決めかねる単語が原文中にあった場合に、本装置1での判定に基づいて翻訳処理を行うことで、判定結果の精度が改善する。一例として、例えば、「キールナは美しさで有名です」という文を英語に訳す場合、キールナが地名の場合、“Kiruna is famous for its beauty.”に、人名の場合、“Kiruna is famous for her(/his) beauty.”になる。このように、「キールナ」のタイプが分かることで、訳文がより正確になることが期待できる。
[3. (Type output and use)
If the type determined as described above is output to the automatic translation server 2 and utilized, the translation accuracy is improved. For example, in automatic translation, when there is a word in the original text that is not in the translation dictionary, or when there is a word in the original text that cannot be categorized from the given original text, based on the determination in the apparatus 1 By performing the translation process, the accuracy of the determination result is improved. As an example, for example, when the sentence “Kiruna is famous for beauty” is translated into English, “Kiruna is famous for its beauty.” If Kiruna is a place name, “Kiruna is famous for her ( / his) beauty. ” Thus, it can be expected that the translation becomes more accurate by knowing the type of “Kiruna”.

また、上記のように判定された類型をウェブ検索サーバ3へ出力してウェブ検索に活用する作用を以下に説明するが、判定した類型の用途はこれらに限定されず、各種の日本語処理サービスへの活用など任意であることは言うまでもない。   Moreover, although the effect | action which outputs the type determined as mentioned above to the web search server 3 and utilizes for a web search is demonstrated below, the use of the determined type is not limited to these, Various Japanese processing services Needless to say, it is optional, for example.

〔3−1.集計と出力〕
まず、類型については、単一の類型だけを判定し出力することもできるが、考えられる複数の類型を判定し、それを集計した結果を出力することが望ましい。具体的には、判定結果集計手段40が、検索結果取得手段20により取得されたウェブ検索結果に含まれる所定数の要素(例えば、スニペットなどの要約)に対して、類型判定手段30により判定された類型ごとの数量を集計し(ステップS4)、結果出力手段50が、集計された数量が多い類型を優先して判定結果として出力する(ステップS5)。
[3-1. (Aggregation and output)
First, as for types, it is possible to determine and output only a single type, but it is desirable to determine a plurality of possible types and output the result of aggregation. Specifically, the determination result totaling unit 40 determines the predetermined number of elements (for example, summaries such as snippets) included in the web search result acquired by the search result acquisition unit 20 by the type determination unit 30. The quantity for each type is totaled (step S4), and the result output means 50 gives priority to the type with the large total quantity and outputs it as a determination result (step S5).

例えば、「キールナ」という名詞に基づくウェブ検索結果のうち、仮に、要約が判定語を含む上位100件のURLにおいて、「地名」としての判定語を含む例が83件、「人名」としての判定を含む例が11件、「組織名」としての判定語を含む例が6件の場合、件数が最多の「地名」を名詞の類型として出力する。   For example, among the web search results based on the noun “Kiruna”, tentatively, in the top 100 URLs whose summary includes the determination word, there are 83 examples including the determination word as “place name”, and the determination as “person name” If there are 11 examples including "6" and 6 examples including the determination word "organization name", the "place name" with the largest number of cases is output as a noun type.

〔3−2.関連検索ワードへの利用〕
判定された類型の用途の一つは、関連検索すなわち関連検索ワードの提示である。この場合、関連提示手段60が、名詞について判定された類型に基づいて、その名詞と同時に検索クエリとして指定する語の候補として、類型に応じた所定の語を提示する。例えば、ウェブ検索のキーワード入力欄において入力された検索クエリである名詞の類型が本発明により地名と判定された場合、その類型に予め関連付けられたホテルや旅行などに関する語(例えば、図2(2)に例示した「旅行」「宿泊」「予約」など)を関連検索ワードとして選定して提示できる。
[3-2. (Use for related search words)
One of the uses of the determined type is related search, that is, presentation of related search words. In this case, based on the type determined for the noun, the related presentation unit 60 presents a predetermined word corresponding to the type as a word candidate to be specified as a search query simultaneously with the noun. For example, when the type of a noun, which is a search query entered in the keyword input field of web search, is determined as a place name according to the present invention, a word relating to a hotel or a trip associated with the type in advance (for example, FIG. ), Etc.) can be selected and presented as related search words.

図5の例で言えば、ウェブ検索サーバ3によるウェブ検索ページの入力欄Fに、ユーザが「キールナ」と検索語を入力すると、この「キールナ」を本装置1に渡して判定した類型を用いて、検索語「キールナ」を関連検索ワード(例えば「旅行」「宿泊」「予約」)と組み合わせた検索クエリの候補が候補表示欄Cにいくつか表示され、任意の候補をマウスポインタPで選択することができる。   In the example of FIG. 5, when the user inputs “Kiruna” and a search word in the input field F of the web search page by the web search server 3, the type determined by passing this “Kiruna” to the present apparatus 1 is used. A number of search query candidates combining the search word “Kiruna” with related search words (for example, “travel”, “accommodation”, “reservation”) are displayed in the candidate display field C, and any candidate is selected with the mouse pointer P can do.

〔3−3.ウェブ検索への利用〕
また、判定された類型の用途を活用する他の例として、ウェブ検索結果におけるURLなど情報項目のリスト順(ランキング順などとも呼ばれる)が考えられる。この場合、リスト順制御手段70が、名詞に基づくウェブ検索結果に含まれる情報項目(例えば、検索結果としてヒットした個々のURLと、そのURLのウェブページの要約文や抽出文など)について、その名詞について判定された類型と同じ類型に係る表現を含むか否かに基づいて、情報項目のリスト順を制御する。
[3-3. (Use for web search)
Further, as another example of utilizing the determined type of usage, the order of lists of information items such as URLs in web search results (also called ranking order) can be considered. In this case, the list order control means 70 may determine the information items included in the web search result based on the noun (for example, individual URLs hit as the search result and the summary sentence or extracted sentence of the web page of the URL). The list order of the information items is controlled based on whether or not an expression relating to the same type as the type determined for the noun is included.

具体的には、ユーザがウェブ検索を行う際に入力した検索語の類型を、本装置1で判定しその結果をランキング順に反映させる。例えば、検索クエリである名詞の類型が本発明により地名と判定された場合、その検索クエリに基づくウェブ検索結果を出力するにあたり、地名という類型に合致したパターンの記載を含むウェブページを検索結果の上位に配置してユーザの検索意図を反映させることが可能となる。なお、ウェブ検索サーバ3について、検索インデックスデータの記憶やそれを用いた検索処理などに関する構成は一般的であるため省略する。   Specifically, the type of the search term input when the user performs a web search is determined by the apparatus 1 and the result is reflected in the ranking order. For example, when the type of a noun that is a search query is determined to be a place name according to the present invention, when outputting a web search result based on the search query, a web page including a description of a pattern that matches the type of place name is displayed as a search result. It is possible to reflect the user's search intention by placing it at the upper level. In addition, about the web search server 3, since the structure regarding storage of search index data, a search process using the same, etc. is common, it abbreviate | omits.

〔4.効果〕
以上のように、検索エンジンの検索結果における名詞に関する文脈に基づくことにより(例えば図3、図4)、与えられた文脈からは類型が不明な名詞についても名詞の類型が判定できるので、判定した類型を、例えば関連検索における関連検索ワードの提示(例えば図5)や、ウェブ検索結果のリスト順の制御に反映するなど、ユーザの意図に基づく情報処理結果の最適化に活用可能となる。
[4. effect〕
As described above, based on the context regarding the noun in the search result of the search engine (for example, FIG. 3 and FIG. 4), the type of the noun can be determined even for a noun whose type is unknown from the given context. The type can be utilized for optimizing the information processing result based on the user's intention, for example, by reflecting the related search word in the related search (for example, FIG. 5) or controlling the list order of the web search result.

また、本実施形態では、URLごとに検索語を含む部分を抜書きした文字列であるスニペットなど要約(例えば図4)の所定数に対し、類型ごとに、対応するパターンで判定対象の名詞が用いられているなどで判定された数量を集計し、その多いものを優先して判定結果として後処理へ渡すなどの形で出力することにより、複数の類型に該当する名詞についても、最も一般的な類型、又は数番目までの主要な類型を判定結果として利用できるので、多くのユーザの意図に合致する情報処理結果の最適化が可能となる。   Further, in the present embodiment, the nouns to be determined in the corresponding patterns for each type with respect to a predetermined number of summaries (for example, FIG. 4) such as snippets that are character strings in which a part including a search word is extracted for each URL. The most commonly used nouns that correspond to multiple types are collected by counting the quantities that have been used, etc. Therefore, it is possible to optimize information processing results that match the intentions of many users.

特に、本実施形態では、判定した名詞の類型に基づいて、いわゆる関連検索における関連検索ワードとして、名詞の類型に予め対応付けた単語などを提示することにより(例えば図5)、ユーザの意図により適合した検索クエリの選択を効果的に支援することができる。   In particular, in the present embodiment, by presenting a word or the like previously associated with a noun type as a related search word in a so-called related search based on the determined noun type (for example, FIG. 5), The selection of a suitable search query can be effectively supported.

加えて、本実施形態では、判定した名詞の類型に基づいて、ウェブ検索結果に含まれるURLなどの情報項目のリスト順を制御することにより、ユーザの意図に適合したウェブ検索結果を最小限のスクロールやページ遷移で見ることが可能となり、ウェブ検索の使い勝手が改善する。   In addition, in the present embodiment, by controlling the list order of information items such as URLs included in the web search result based on the determined noun type, the web search result suitable for the user's intention is minimized. It becomes possible to see by scrolling and page transition, improving the usability of web search.

〔5.他の実施形態〕
なお、上記各実施形態は例示に過ぎず、本発明は、以下に例示するものやそれ以外の他の実施態様も含むものである。例えば、本発明は、日本語以外の中国語、韓国語、フランス語その他の任意の外国語にも適用可能である。
[5. Other embodiments]
In addition, said each embodiment is only an illustration, and this invention includes what is illustrated below and other embodiment other than that. For example, the present invention can be applied to Chinese, Korean, French and any other foreign language other than Japanese.

また、本発明に関する手段などの各要素は、コンピュータの演算制御部に限らず物理的な電子回路など他の情報処理機構で実現してもよい。また、各構成図、データの図、フローチャートの図などは例示に過ぎず、各要素の有無、その配置や処理実行などの順序、具体的内容などは適宜変更可能である。例えば、本発明の装置は、サーバなどの装置を複数用いて実現してもよく、個々の記憶手段を別個独立のサーバ装置やシステムで実現する構成も一般的である。また、機能によっては、外部のプラットフォーム等をAPI(アプリケーション・プログラム・インタフェース)やネットワークコンピューティング(いわゆるクラウドなど)で呼び出して実現するなど、構成は柔軟に変更できる。   In addition, each element such as means relating to the present invention may be realized by other information processing mechanisms such as a physical electronic circuit without being limited to the arithmetic control unit of the computer. Further, each configuration diagram, data diagram, flowchart diagram, and the like are merely examples, and the presence / absence of each element, the order of arrangement and processing execution, specific contents, and the like can be changed as appropriate. For example, the apparatus of the present invention may be realized by using a plurality of apparatuses such as servers, and a configuration in which each storage unit is realized by a separate and independent server apparatus or system is also common. Depending on the function, the configuration can be flexibly changed, for example, by calling an external platform or the like with an API (application program interface) or network computing (so-called cloud or the like).

1 情報処理装置(本装置)
2 自動翻訳サーバ
3 ウェブ検索サーバ
6 演算制御部
7 記憶装置
8 通信手段
10 名詞取得手段
15 検索キーワード入力手段
20 検索結果取得手段
25 パターン記憶手段
30 類型判定手段
35 関連検索語記憶手段
40 判定結果集計手段
50 結果出力手段
60 関連提示手段
70 リスト順制御手段
C 候補表示欄
F 入力欄
N 通信ネットワーク
P マウスポインタ
T 端末
1. Information processing device (this device)
2 automatic translation server 3 web search server 6 arithmetic control unit 7 storage device 8 communication means 10 noun acquisition means 15 search keyword input means 20 search result acquisition means 25 pattern storage means 30 type determination means 35 related search word storage means 40 determination result totalization Means 50 Result output means 60 Related presentation means 70 List order control means C Candidate display field F Input field N Communication network P Mouse pointer T Terminal

Claims (6)

言語処理の対象として与えられた判定対象の名詞を取得する名詞取得手段と、
取得された前記名詞に基づくウェブ検索結果を取得する検索結果取得手段と、
取得された前記ウェブ検索結果における前記名詞に関する文脈に基づいて前記名詞の類型を判定する類型判定手段と、
を有することを特徴とする情報処理装置。
A noun acquisition means for acquiring a determination target noun given as an object of language processing;
Search result acquisition means for acquiring a web search result based on the acquired noun;
A type determining means for determining a type of the noun based on a context regarding the noun in the acquired web search result;
An information processing apparatus comprising:
取得された前記ウェブ検索結果に含まれる所定数の要素に対して前記類型判定手段により判定された前記類型ごとの数量を集計する判定結果集計手段と、
集計された前記数量が多い前記類型を優先して判定結果として出力する結果出力手段と、
を有することを特徴とする請求項1記載の情報処理装置。
A determination result aggregating unit for aggregating the quantity for each of the types determined by the type determining unit for a predetermined number of elements included in the acquired web search result;
A result output means for preferentially outputting the type with a large number of the aggregated quantities as a determination result;
The information processing apparatus according to claim 1, further comprising:
前記名詞について判定された前記類型に基づいて、その名詞と同時に検索クエリとして指定する語の候補として、前記類型に応じた所定の語を提示する関連提示手段を備えたことを特徴とする請求項1又は2記載の情報処理装置。   The related presentation means for presenting a predetermined word according to the type as a candidate for a word specified as a search query simultaneously with the noun based on the type determined for the noun. 3. The information processing apparatus according to 1 or 2. 前記名詞に基づくウェブ検索結果に含まれる情報項目について、その名詞について判定された前記類型と同じ類型に係る表現を含むか否かに基づいて、情報項目のリスト順を制御するリスト順制御手段を備えた
ことを特徴とする請求項1から3のいずれか一項に記載の情報処理装置。
List order control means for controlling the list order of information items based on whether or not the information item included in the web search result based on the noun includes an expression related to the same type as the type determined for the noun. The information processing apparatus according to any one of claims 1 to 3, further comprising:
コンピュータが、言語処理の対象として与えられた判定対象の名詞を取得する名詞取得処理と、
コンピュータが、取得された前記名詞に基づくウェブ検索結果を取得する検索結果取得処理と、
コンピュータが、取得された前記ウェブ検索結果における前記名詞に関する文脈に基づいて前記名詞の類型を判定する類型判定処理と、
を含むことを特徴とする情報処理方法。
A noun acquisition process in which a computer acquires a determination target noun given as a language processing target;
A search result acquisition process in which a computer acquires a web search result based on the acquired noun;
A type determining process in which a computer determines a type of the noun based on a context regarding the noun in the acquired web search result;
An information processing method comprising:
コンピュータを制御することにより名詞の類型を判定させるコンピュータ・プログラムであって、
コンピュータに、言語処理の対象として与えられた判定対象の名詞を取得させ、
コンピュータに、取得された前記名詞に基づくウェブ検索結果を取得させ、
コンピュータに、取得された前記ウェブ検索結果における前記名詞に関する文脈に基づいて前記名詞の類型を判定させる
ことを特徴とする情報処理プログラム。
A computer program for determining a type of noun by controlling a computer,
Let the computer get the nouns to be judged given as language processing targets,
Let the computer acquire web search results based on the acquired nouns,
An information processing program for causing a computer to determine a type of the noun based on a context regarding the noun in the acquired web search result.
JP2010210324A 2010-09-21 2010-09-21 Information processing apparatus, method, and program Active JP5307781B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010210324A JP5307781B2 (en) 2010-09-21 2010-09-21 Information processing apparatus, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010210324A JP5307781B2 (en) 2010-09-21 2010-09-21 Information processing apparatus, method, and program

Publications (2)

Publication Number Publication Date
JP2012068687A true JP2012068687A (en) 2012-04-05
JP5307781B2 JP5307781B2 (en) 2013-10-02

Family

ID=46165955

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010210324A Active JP5307781B2 (en) 2010-09-21 2010-09-21 Information processing apparatus, method, and program

Country Status (1)

Country Link
JP (1) JP5307781B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103390004A (en) * 2012-05-11 2013-11-13 北京百度网讯科技有限公司 Determination method and determination device for semantic redundancy and corresponding search method and device

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1115841A (en) * 1997-06-24 1999-01-22 Fuji Xerox Co Ltd Information retrieving device and medium recording information retrieving program
JP2002132812A (en) * 2000-10-19 2002-05-10 Nippon Telegr & Teleph Corp <Ntt> Method and system for answering question and recording medium with recorded question answering program
JP2004178167A (en) * 2002-11-26 2004-06-24 Oki Electric Ind Co Ltd Information retrieval method and device
JP2004334766A (en) * 2003-05-12 2004-11-25 Oki Electric Ind Co Ltd Word classifying device, word classifying method and word classifying program
JP2006119697A (en) * 2004-10-19 2006-05-11 Fuji Xerox Co Ltd Question answering system, question answering method, and question answering program
JP2007529824A (en) * 2004-03-15 2007-10-25 ヤフー! インコーポレイテッド Search system and method integrating user annotations
JP2009110231A (en) * 2007-10-30 2009-05-21 Nippon Telegr & Teleph Corp <Ntt> Text search server computer, text search method, text search program, and recording medium with the program recorded thereon

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1115841A (en) * 1997-06-24 1999-01-22 Fuji Xerox Co Ltd Information retrieving device and medium recording information retrieving program
JP2002132812A (en) * 2000-10-19 2002-05-10 Nippon Telegr & Teleph Corp <Ntt> Method and system for answering question and recording medium with recorded question answering program
JP2004178167A (en) * 2002-11-26 2004-06-24 Oki Electric Ind Co Ltd Information retrieval method and device
JP2004334766A (en) * 2003-05-12 2004-11-25 Oki Electric Ind Co Ltd Word classifying device, word classifying method and word classifying program
JP2007529824A (en) * 2004-03-15 2007-10-25 ヤフー! インコーポレイテッド Search system and method integrating user annotations
JP2006119697A (en) * 2004-10-19 2006-05-11 Fuji Xerox Co Ltd Question answering system, question answering method, and question answering program
JP2009110231A (en) * 2007-10-30 2009-05-21 Nippon Telegr & Teleph Corp <Ntt> Text search server computer, text search method, text search program, and recording medium with the program recorded thereon

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103390004A (en) * 2012-05-11 2013-11-13 北京百度网讯科技有限公司 Determination method and determination device for semantic redundancy and corresponding search method and device
CN103390004B (en) * 2012-05-11 2018-03-02 北京百度网讯科技有限公司 Determination method and apparatus, corresponding searching method and the device of a kind of semantic redundancy

Also Published As

Publication number Publication date
JP5307781B2 (en) 2013-10-02

Similar Documents

Publication Publication Date Title
US8694493B2 (en) Computer-implemented search using result matching
JP4962967B2 (en) Web page search server and query recommendation method
RU2460131C2 (en) Equipping user interface with search query expansion
CN108563750B (en) Identifying matching applications based on browsing activity
US8751466B1 (en) Customizable answer engine implemented by user-defined plug-ins
US20070088690A1 (en) System and method for performing file searches and ranking results
US9344507B2 (en) Method of processing web access information and server implementing same
CN101882149A (en) Reorder and improve relevance of search results
KR20160106527A (en) System and method for online handwriting recognition in web queries
US8793120B1 (en) Behavior-driven multilingual stemming
US20140289236A1 (en) Refining search results for a compound search query
US20150169564A1 (en) Supplementing search results with information of interest
CN102750081A (en) Information processing apparatus, information processing method, and program
TWI417751B (en) Information providing device, information providing method, information application program, and information recording medium
WO2020026366A1 (en) Patent evaluation determination method, patent evaluation determination device, and patent evaluation determination program
JP5480058B2 (en) Advertisement matching apparatus, method and program
CN108280081B (en) Method and device for generating webpage
JP5256273B2 (en) Intention extraction apparatus, method and program
CN106919593B (en) Searching method and device
TWI399657B (en) A provider, a method of providing information, a program, and an information recording medium
JP2011248762A (en) Classification device, content retrieval system, content classification method, content retrieval method, and program
JP5307781B2 (en) Information processing apparatus, method, and program
Vargas et al. Term-by-term query auto-completion for mobile search
JP5072792B2 (en) Retrieval method, program and server for preferentially displaying pages according to amount of information
JP2008204198A (en) Information providing system and information providing program

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121002

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20121101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121130

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130418

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130424

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130604

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130627

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5307781

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250