JP6808851B2 - Topic structuring method, search result provision method, computer program and topic structuring system - Google Patents

Topic structuring method, search result provision method, computer program and topic structuring system Download PDF

Info

Publication number
JP6808851B2
JP6808851B2 JP2019554996A JP2019554996A JP6808851B2 JP 6808851 B2 JP6808851 B2 JP 6808851B2 JP 2019554996 A JP2019554996 A JP 2019554996A JP 2019554996 A JP2019554996 A JP 2019554996A JP 6808851 B2 JP6808851 B2 JP 6808851B2
Authority
JP
Japan
Prior art keywords
topic
query
subject
subtopic
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019554996A
Other languages
Japanese (ja)
Other versions
JP2020513128A (en
Inventor
ミン,ヘジン
キム,ジンホン
パク,チャンフン
キム,クァンヒョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Priority claimed from PCT/KR2018/002834 external-priority patent/WO2018186599A1/en
Publication of JP2020513128A publication Critical patent/JP2020513128A/en
Application granted granted Critical
Publication of JP6808851B2 publication Critical patent/JP6808851B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • G06F16/24535Query rewriting; Transformation of sub-queries or views

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

以下の説明は、クエリに適したサブトピックを自動抽出して構造化する技術に関する。 The following description relates to a technique for automatically extracting and structuring subtopics suitable for queries.

検索システムは、ユーザが入力したクエリに対して検索結果を提供するときに、検索条件にマッチングされた文書の他に、ユーザの追加探索をサポートする多様な機能も提供する。ユーザの追加探索をサポートする代表的なものとしては、関連検索語、関連タグ、検索語自動完成などがある。これらは、単語がペアとしてともに示される程度である共起(Co−occurrence)を基盤とし、クエリとして頻繁に登場する検索語やタグを把握することを基本としている。 When the search system provides search results for a query entered by a user, it provides various functions to support additional search of the user in addition to documents matched with the search conditions. Typical examples that support additional user search include related search terms, related tags, and automatic search term completion. These are based on co-occurrence, in which words are shown together as a pair, and are based on grasping search terms and tags that frequently appear as queries.

例えば、韓国公開特許第10−2012−0096806号公報(公開日2012年08月31日)には、ユーザ端末の位置情報に基づいて推薦検索語を選定してユーザに提供する検索語推薦システムおよび検索語推薦方法が開示されている。 For example, Korean Published Patent No. 10-2012-909608 (publication date: August 31, 2012) provides a search term recommendation system that selects recommended search terms based on the location information of the user terminal and provides them to the user. The search term recommendation method is disclosed.

一方、ショッピング検索システムでは、ショッピングの意図があるクエリの場合、製品のブランド、カラー、値段などのような階層情報を活用して商品の探索をサポートする機能が提供される場合もある。 On the other hand, in the case of a query intended for shopping, the shopping search system may provide a function to support the search for products by utilizing hierarchical information such as product brand, color, and price.

韓国公開特許第10−2012−0096806号公報Korean Published Patent No. 10-2012-090686

主題が明らかなクエリのトピックを提供し、効率的な情報探索のためのトピックの構造化が必要である。 It is necessary to provide query topics with a clear subject and to structure the topics for efficient information retrieval.

特定の主題が与えられたときに、該当の主題に適したサブトピックだけを抽出して特定の主題に対して自動で構築された階層情報を活用することにより、ユーザが所望する程度(細分化)に応じて適切に構造化して提示する方法を提供する。 When a specific subject is given, only the subtopics suitable for the subject are extracted and the hierarchical information automatically constructed for the specific subject is utilized to the extent desired by the user (subdivision). ) Provide a method of appropriately structuring and presenting.

コンピュータが実現するトピック構造化方法であって、主題別に前記主題と関連するサブトピックを抽出する段階、前記サブトピックに対して前記主題の階層情報を利用してトピックツリーを生成する段階、および検索のためのクエリが与えられると、前記クエリが属する主題のトピックツリーに基づき、前記クエリに対する関連検索語として前記サブトピックを階層形で提供する段階を含む、トピック構造化方法を提供する。 A computer-implemented topic structuring method that extracts subtopics related to the subject by subject, generates a topic tree for the subtopic using the hierarchical information of the subject, and searches. Given a query for, provides a topic structuring method that includes the step of providing the subtopic as a related search term for the query in a hierarchical manner, based on the topic tree of the subject to which the query belongs.

一側面によると、前記抽出する段階は、前記主題を決定する核心オブジェクトと関連する単語を分析して前記サブトピックを抽出してよい。 According to one aspect, the extraction step may extract the subtopic by analyzing the words associated with the core object that determines the subject.

他の側面によると、前記サブトピックを文書出現頻度と検索頻度のうちの少なくとも1つによってフィルタリングする段階をさらに含んでよい。 According to another aspect, the subtopic may further include filtering by at least one of document appearance frequency and search frequency.

また他の側面によると、前記サブトピックを類義語またはサブストリング(部分文字列)関係によってクラスタリングして各クラスタの代表を選定する段階をさらに含んでよい。 According to another aspect, the subtopic may be further clustered by synonyms or substring relationships to select a representative for each cluster.

また他の側面によると、前記生成する段階は、前記サブトピックを前記階層情報の各クラス名にラベリング(labeling)して前記トピックツリーを生成してよい。 According to another aspect, in the generation step, the topic tree may be generated by labeling the subtopic with each class name of the hierarchical information.

また他の側面によると、前記生成する段階は、前記サブトピックに対して単語埋め込み(Word Embedding)データから類似単語を抽出する段階、前記類似単語を類義語またはサブストリング(部分文字列)関係によってクラスタリングする段階、および前記クラスタリングされた単語を言語分類学上の各クラスにマッピングすることによってラベリングする段階を含んでよい。 According to another aspect, the generation step is a step of extracting similar words from word embedding data for the subtopic, and the similar words are clustered by synonyms or substrings (substrings). It may include a step of labeling and a step of labeling the clustered words by mapping them to each class in linguistic taxonomy.

また他の側面によると、前記トピックツリーの幅(breadth)と深さ(depth)のうちの少なくとも1つを減らして前記トピックツリーに対するリバランシング(rebalancing)を実行する段階をさらに含んでよい。 Further, according to another aspect, the step of performing rebalancing on the topic tree by reducing at least one of the width and depth of the topic tree may be further included.

さらに他の側面によると、前記提供する段階は、前記クエリと前記サブトピックの関連性を示す主題点数、前記サブトピックに対応する文書数、および前記クエリに対する正解性トピックの有無のうちの少なくとも1つの条件によって前記サブトピックをフィルタリングする段階を含んでよい。 According to yet another aspect, the provided step is at least one of a subject score indicating the relevance of the query to the subtopic, a number of documents corresponding to the subtopic, and the presence or absence of a correctness topic for the query. It may include a step of filtering the subtopic according to one condition.

コンピュータが実現する検索結果提供方法であって、検索のためのクエリが与えられると、前記クエリに対応する検索結果を提供する段階、前記クエリが属する主題の階層情報に基づき、前記クエリに対する関連検索語として前記主題と関連するサブトピックを複数の深さ(depth)を有する階層形で提供する段階、および前記サブトピックのうちの少なくとも1つの検索語が選択される場合、前記選択された検索語を含んだ前記クエリに対応する検索結果を提供する段階を含む、検索結果提供方法を提供する。 It is a search result providing method realized by a computer, and when a query for a search is given, a related search for the query is performed based on the hierarchical information of the subject to which the query belongs at the stage of providing the search result corresponding to the query. The stage of providing subtopics related to the subject as words in a hierarchical form having a plurality of depths, and when at least one search term of the subtopics is selected, the selected search term. Provided is a search result providing method including a step of providing a search result corresponding to the query including.

コンピュータシステムと結合してトピック構造化方法を実行させるためにコンピュータ読み取り可能な記録媒体に記録されたコンピュータプログラムであって、前記トピック構造化方法は、主題別に前記主題と関連するサブトピックを抽出する段階、前記サブトピックに対して前記主題の階層情報を利用してトピックツリーを生成する段階、および検索のためのクエリが与えられると、前記クエリが属する主題のトピックツリーに基づき、前記クエリに対する関連検索語として前記サブトピックを階層形で提供する段階を含む、コンピュータプログラムを提供する。 A computer program recorded on a computer-readable recording medium to be combined with a computer system to perform a topic structuring method, wherein the topic structuring method extracts subtopics associated with the subject by subject. Given a stage, a stage to generate a topic tree for the subtopic using the hierarchical information of the subject, and a query for searching, the association to the query is based on the topic tree of the subject to which the query belongs. Provided is a computer program including a step of providing the subtopic as a search term in a hierarchical manner.

コンピュータが実現するトピック構造化システムであって、コンピュータ読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、主題別に前記主題と関連するサブトピックを抽出する抽出部、前記サブトピックに対して前記主題の階層情報に基づいてトピックツリーを生成する生成部、および検索のためのクエリが与えられると、前記クエリが属する主題のトピックツリーに基づき、前記クエリに対する関連検索語として前記サブトピックを階層形で提供する提供部を備える、トピック構造化システムを提供する。 A computer-implemented topic-structured system that includes at least one processor implemented to execute computer-readable instructions, the at least one processor extracting subtopics associated with the subject by subject. When a query is given to the subtopic, a generator that generates a topic tree based on the hierarchical information of the subject, and a query for searching, the query is based on the topic tree of the subject to which the query belongs. Provided is a topic structuring system including a providing unit that provides the subtopics in a hierarchical manner as a related search term for.

本発明の実施形態によると、特定の主題が与えられたときに、該当の主題に適したサブトピックだけを抽出して特定の主題に適した階層情報を自動で構築した後、ユーザが所望する程度(細分化)に応じて適切に構造化して提示することにより、主題に適しながらも該当のクエリと関連する詳細な属性/小主題をユーザが効率的に把握することができ、実質的な追加探索をサポートすることに寄与することができる。 According to the embodiment of the present invention, when a specific subject is given, only the subtopics suitable for the subject are extracted and the hierarchical information suitable for the specific subject is automatically constructed, and then the user desires the subject. By appropriately structuring and presenting according to the degree (subdivision), the user can efficiently grasp the detailed attributes / sub-subjects that are suitable for the subject but related to the relevant query, which is practical. It can contribute to supporting additional searches.

本発明の一実施形態における、ネットワーク環境の例を示した図である。It is a figure which showed the example of the network environment in one Embodiment of this invention. 本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。It is a block diagram for demonstrating the internal structure of an electronic device and a server in one Embodiment of this invention. 本発明の一実施形態における、パターン化されたクエリを階層化する過程の例を示した図である。It is a figure which showed the example of the process of hierarchizing a patterned query in one Embodiment of this invention. 本発明の一実施形態における、サーバのプロセッサが含むことのできる構成要素の例を示した図である。It is a figure which showed the example of the component which the processor of the server can include in one Embodiment of this invention. 本発明の一実施形態における、サーバが実行することのできる方法の例を示したフローチャートである。It is a flowchart which showed the example of the method which a server can execute in one Embodiment of this invention. 本発明の一実施形態における、「グアム」および「じゃがいも」というクエリに対し、サブトピック候補をフィルタリングおよびグルーピングする過程の一例を示した図である。It is a figure which showed an example of the process of filtering and grouping subtopic candidates with respect to the query of "Guam" and "potato" in one Embodiment of this invention. 本発明の一実施形態における、階層情報を構築する過程の一例を説明するためのフローチャートである。It is a flowchart for demonstrating an example of the process of constructing hierarchical information in one Embodiment of this invention. 旅行の主題に対し、クラスタリングおよび言語分類学を利用して構築した階層情報の一例を示した図である。It is a figure which showed an example of the hierarchical information constructed by using clustering and linguistic taxonomy for the subject of travel. 本発明の一実施形態における、構築されたトピックネットワークを深さが2であるツリー(2−デプスツリー)に変換する過程の例を示した図である。It is a figure which showed the example of the process of converting the constructed topic network into a tree (2-depth tree) having a depth of 2 in one Embodiment of this invention. 本発明の一実施形態における、ツリーリバランシング過程の一例を説明するためのフローチャートである。It is a flowchart for demonstrating an example of the tree rebalancing process in one Embodiment of this invention. 本発明の一実施形態における、ツリーリバランシング過程の例を示した図である。It is a figure which showed the example of the tree rebalancing process in one Embodiment of this invention. 本発明の一実施形態における、ツリーリバランシング過程の例を示した図である。It is a figure which showed the example of the tree rebalancing process in one Embodiment of this invention. 本発明の一実施形態における、2−デプストピック構造が反映された検索結果画面の例を示した図である。It is a figure which showed the example of the search result screen which reflected the 2-depth topic structure in one Embodiment of this invention. 本発明の一実施形態における、2−デプストピック構造が反映された検索結果画面の例を示した図である。It is a figure which showed the example of the search result screen which reflected the 2-depth topic structure in one Embodiment of this invention.

以下、本発明の実施形態について、添付の図面を参照しながら詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

本発明の実施形態は、クエリに適したサブトピックを自動抽出して構造化する技術に関する。 An embodiment of the present invention relates to a technique for automatically extracting and structuring subtopics suitable for a query.

本明細書で具体的に開示される事項などを含む実施形態は、主題が明らかなクエリのトピックを提供し、効率的な情報探索のためのトピックを構造化することができ、これによって正確性、効率性、拡張性、費用節減などの側面において相当な長所を達成する。 Embodiments, including those specifically disclosed herein, can provide a well-defined query topic and structure the topic for efficient information retrieval, thereby accuracy. Achieve considerable advantages in terms of efficiency, scalability, cost savings, etc.

図1は、本発明の一実施形態における、ネットワーク環境の例を示した図である。図1のネットワーク環境は、複数の電子機器110、120、130、140、複数のサーバ150、160、およびネットワーク170を含む例を示している。このような図1は、発明の説明のための一例に過ぎず、電子機器の数やサーバの数が図1のように限定されることはない。 FIG. 1 is a diagram showing an example of a network environment according to an embodiment of the present invention. The network environment of FIG. 1 shows an example including a plurality of electronic devices 110, 120, 130, 140, a plurality of servers 150, 160, and a network 170. Such FIG. 1 is merely an example for explaining the invention, and the number of electronic devices and the number of servers are not limited as in FIG.

複数の電子機器110、120、130、140は、コンピュータ装置によって実現される固定端末や移動端末であってよい。複数の電子機器110、120、130、140の例としては、スマートフォン、携帯電話、タブレット、ナビゲーション、PC(personal computer)、ノート型パンコン、デジタル放送用端末、PDA(Personal Digital Assistant)、PMP(Portable Multimedia Player)などがある。一例として、第1電子機器110は、無線または有線通信方式を利用し、ネットワーク170を介して他の電子機器120、130、140および/またはサーバ150、160と通信してよい。 The plurality of electronic devices 110, 120, 130, 140 may be fixed terminals or mobile terminals realized by a computer device. Examples of a plurality of electronic devices 110, 120, 130, 140 include smartphones, mobile phones, tablets, navigation systems, PCs (personal computers), notebook pancons, digital broadcasting terminals, PDAs (Personal Digital Assistants), and PMPs (Portables). Multimedia Player) and the like. As an example, the first electronic device 110 may use a wireless or wired communication method to communicate with other electronic devices 120, 130, 140 and / or servers 150, 160 via a network 170.

通信方式が限定されることはなく、ネットワーク170が含むことのできる通信網(一例として、移動通信網、有線インターネット、無線インターネット、放送網)を活用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク170は、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークのうちの1つ以上の任意のネットワークを含んでよい。さらに、ネットワーク170は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター−バスネットワーク、ツリーまたは階層的(hierarchical)ネットワークなどを含むネットワークトポロジのうちの任意の1つ以上を含んでもよいが、これらに限定されることはない。 The communication method is not limited, and not only the communication method utilizing the communication network (for example, mobile communication network, wired Internet, wireless Internet, broadcasting network) that can be included in the network 170, but also the short distance between devices. Wireless communication may be included. For example, the network 170 includes a PAN (personal area network), a LAN (local area network), a CAN (campus area network), a MAN (metropolitan area network), a WAN (wide area network), etc. It may include any one or more of the networks. Further, network 170 may include any one or more of network topologies, including bus networks, star networks, ring networks, mesh networks, star-bus networks, tree or hierarchical networks, and the like. It is not limited to these.

サーバ150、160それぞれは、電子機器110、120、130、140とネットワーク170を介して通信して命令、コード、ファイル、コンテンツ、サービスなどを提供する1つ以上のコンピュータ装置によって実現されてよい。 Each of the servers 150, 160 may be implemented by one or more computer devices that communicate with electronic devices 110, 120, 130, 140 via a network 170 to provide instructions, codes, files, contents, services, and the like.

一例として、サーバ160は、ネットワーク170を介して接続した第1電子機器110にアプリケーションのインストールのためのファイルを提供してよい。この場合、第1電子機器110は、サーバ160から提供されたファイルを利用してアプリケーションをインストールしてよい。また、第1電子機器110が含むオペレーティングシステム(Operating System:OS)および少なくとも1つのプログラム(一例として、ブラウザや前記インストールされたアプリケーション)の制御にしたがってサーバ150に接続し、サーバ150が提供するサービスやコンテンツの提供を受けてよい。例えば、第1電子機器110がアプリケーションの制御にしたがい、ネットワーク170を介してサービス要求メッセージをサーバ150に送信すると、サーバ150はサービス要求メッセージに対応するコードを第1電子機器110に送信してよく、第1電子機器110はアプリケーションの制御にしたがってコードに基づいた画面を構成して表示することにより、ユーザにコンテンツを提供してよい。 As an example, the server 160 may provide a file for installing an application to a first electronic device 110 connected via a network 170. In this case, the first electronic device 110 may install the application by using the file provided by the server 160. Further, a service provided by the server 150 by connecting to the server 150 under the control of the operating system (OS) included in the first electronic device 110 and at least one program (for example, a browser or the installed application). And content may be provided. For example, when the first electronic device 110 sends a service request message to the server 150 via the network 170 according to the control of the application, the server 150 may send a code corresponding to the service request message to the first electronic device 110. , The first electronic device 110 may provide the content to the user by forming and displaying a screen based on the code according to the control of the application.

図2は、本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。図2では、1つの電子機器に対する例として第1電子機器110の内部構成を、1つのサーバに対する例としてサーバ150の内部構成を説明する。他の電子機器120、130、140やサーバ160も、同一または類似の内部構成を有してよい。 FIG. 2 is a block diagram for explaining the internal configurations of the electronic device and the server according to the embodiment of the present invention. In FIG. 2, the internal configuration of the first electronic device 110 will be described as an example for one electronic device, and the internal configuration of the server 150 will be described as an example for one server. Other electronic devices 120, 130, 140 and server 160 may also have the same or similar internal configuration.

第1電子機器110とサーバ150は、メモリ211、221、プロセッサ212、222、通信モジュール213、223、および入力/出力インタフェース214、224を含んでよい。メモリ211、221は、コンピュータ読み取り可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)、およびディスクドライブのような永久大容量記憶装置(permanent mass storage device)を含んでよい。また、メモリ211、221には、オペレーティングシステムと、少なくとも1つのプログラムコード(一例として、第1電気機器110にインストールされて駆動するアプリケーションなどのためのコード)が記録されてよい。このようなソフトウェア構成要素は、メモリ211、221とは別のコンピュータ読み取り可能な記録媒体からロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD−ROMドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信モジュール213、223を通じてメモリ211、221にロードされてもよい。例えば、少なくとも1つのプログラムは、開発者またはアプリケーションのインストールファイルを配布するファイル配布システム(一例として、上述したサーバ160)がネットワーク170を介して提供するファイルによってインストールされるプログラム(一例として、上述したアプリケーション)に基づいてメモリ211、221にロードされてよい。 The first electronic device 110 and the server 150 may include memories 211 and 221, processors 212 and 222, communication modules 213 and 223, and input / output interfaces 214 and 224. The memories 211 and 221 are computer-readable recording media and include a RAM (random access memory), a ROM (read only memory), and a permanent mass storage device such as a disk drive. Good. Further, the memory 211 and 221 may record an operating system and at least one program code (for example, a code for an application installed and driven in the first electric device 110). Such software components may be loaded from a computer-readable recording medium separate from the memories 211 and 221. Such other computer-readable recording media may include computer-readable recording media such as floppy® drives, disks, tapes, DVD / CD-ROM drives, memory cards, and the like. In other embodiments, software components may be loaded into memory 211 and 221 through communication modules 213 and 223 that are not computer readable recording media. For example, at least one program is a program installed by a file provided by a file distribution system (as an example, the server 160 described above) that distributes a developer or application installation file via a network 170 (as an example, described above). It may be loaded into memory 211,221 based on the application).

プロセッサ212、222は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ211、221または通信モジュール213、223によって、プロセッサ212、222に提供されてよい。例えば、プロセッサ212、222は、メモリ211、221のような記録装置に格納されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。 Processors 212 and 222 may be configured to process instructions in a computer program by performing basic arithmetic, logic, and input / output operations. Instructions may be provided to processors 212 and 222 by memory 211, 221 or communication modules 213 and 223. For example, processors 212 and 222 may be configured to execute instructions received according to program code stored in a recording device such as memory 211 and 221.

通信モジュール213、223は、ネットワーク170を介して第1電子機器110とサーバ150とが互いに通信するための機能を提供してもよいし、他の電子機器(一例として、第2電子機器120)または他のサーバ(一例として、サーバ160)と通信するための機能を提供してもよい。一例として、第1電子機器110のプロセッサ212がメモリ211のような記録装置に格納されたプログラムコードにしたがって生成した要求(一例として、検索要求)が、通信モジュール213の制御にしたがってネットワーク170を介してサーバ150に伝達されてよい。これとは逆に、サーバ150のプロセッサ222の制御にしたがって提供される制御信号や命令、コンテンツ、ファイルなどが、通信モジュール223とネットワーク170を経て第1電子機器110の通信モジュール213を通じて第1電子機器110に受信されてもよい。例えば、通信モジュール213を通じて受信したサーバ150の制御信号や命令などは、プロセッサ212やメモリ211に伝達されてよく、コンテンツやファイルなどは、第1電子機器110がさらに含むことのできる格納媒体に格納されてよい。 The communication modules 213 and 223 may provide a function for the first electronic device 110 and the server 150 to communicate with each other via the network 170, or another electronic device (for example, the second electronic device 120). Alternatively, it may provide a function for communicating with another server (for example, server 160). As an example, a request (as an example, a search request) generated by the processor 212 of the first electronic device 110 according to a program code stored in a recording device such as a memory 211 is passed through the network 170 under the control of the communication module 213. May be transmitted to the server 150. On the contrary, the control signals, instructions, contents, files, etc. provided under the control of the processor 222 of the server 150 pass through the communication module 223 and the network 170, and pass through the communication module 213 of the first electronic device 110 to the first electronic device. It may be received by the device 110. For example, the control signals and instructions of the server 150 received through the communication module 213 may be transmitted to the processor 212 and the memory 211, and the contents and files are stored in a storage medium that can be further included in the first electronic device 110. May be done.

入力/出力インタフェース214は、入力/出力装置215とのインタフェースのための手段であってよい。例えば、入力装置は、キーボードまたはマウスなどの装置を含んでよいし、出力装置は、アプリケーションの通信セッションを表示するためのディスプレイのような装置を含んでよい。他の例として、入力/出力インタフェース214は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。より具体的な例として、第1電子機器110のプロセッサ212は、メモリ211にロードされたコンピュータプログラムの命令を処理するにあたってサーバ150や第2電子機器120が提供するデータを利用して構成されるサービス画面やコンテンツが、入力/出力インタフェース214を通じてディスプレイに表示されるようにしてよい。入力/出力インタフェース224も同様に、サーバ150のプロセッサ222がメモリ221にロードされたコンピュータプログラムの命令を処理するにあたってサーバ150が提供するデータを利用して構成される情報を出力してよい。 The input / output interface 214 may be a means for an interface with the input / output device 215. For example, an input device may include a device such as a keyboard or mouse, and an output device may include a device such as a display for displaying a communication session of an application. As another example, the input / output interface 214 may be a means for an interface with a device such as a touch screen in which functions for input and output are integrated into one. As a more specific example, the processor 212 of the first electronic device 110 is configured by using the data provided by the server 150 and the second electronic device 120 in processing the instructions of the computer program loaded in the memory 211. The service screen or content may be displayed on the display through the input / output interface 214. Similarly, the input / output interface 224 may output information configured by using the data provided by the server 150 when the processor 222 of the server 150 processes the instruction of the computer program loaded in the memory 221.

また、他の実施形態において、第1電子機器110およびサーバ150は、図2の構成要素よりも多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、第1電子機器110は、上述した入力/出力装置215のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、GPS(Global Positioning System)モジュール、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。より具体的な例として、第1電子機器110がスマートフォンである場合、一般的にスマートフォンが含んでいる加速度センサやジャイロセンサ、カメラ、物理的な各種ボタン、タッチパネルを利用したボタン、入力/出力ポート、振動のための振動器などのような多様な構成要素が第1電子機器110にさらに含まれるように実現されてよい。 Also, in other embodiments, the first electronic device 110 and the server 150 may include more components than the components of FIG. However, most prior art components need not be clearly illustrated. For example, the first electronic device 110 may be realized to include at least a part of the above-mentioned input / output device 215, a transceiver, a GPS (Global Positioning System) module, a camera, various sensors, a database, and the like. It may further include other components such as. As a more specific example, when the first electronic device 110 is a smartphone, an acceleration sensor, a gyro sensor, a camera, various physical buttons, a button using a touch panel, and an input / output port generally included in the smartphone are included. Various components such as a vibrating device for vibration may be further included in the first electronic device 110.

以下では、主題別クエリのサブトピック自動抽出および構造化のためのトピック構造化方法、およびトピック構造化システムの具体的な実施形態について説明する。 The following describes a topic structuring method for automatic subtopic extraction and structuring of thematic queries, and a specific embodiment of the topic structuring system.

一度のクエリに対して最大限多様な検索結果を提供することで効率的な情報探索ができるようにするためには、トピックの構造化(グループ化および階層化)が必要となる。 Topic structuring (grouping and hierarchization) is required to enable efficient information retrieval by providing the maximum variety of search results for a single query.

検索システムがユーザによって入力されたクエリに対して検索結果を提供するときに、検索条件にマッチングされた文書の他に、ユーザの追加探索をサポートする多様な機能も提供する。代表的なものとして、関連検索語、連関タグ、検索語自動完成などが存在する。このような機能は、次のような点で有用性があると考えられる。 When the search system provides search results for queries entered by the user, it provides a variety of features that support additional user searches, as well as documents that match the search criteria. Typical examples include related search terms, association tags, and automatic search term completion. Such a function is considered to be useful in the following points.

第1に、ユーザが知りたい情報に関連する明確なクエリ名が分からない場合、クエリを推薦する機能をする。 First, it has the function of recommending a query when the user does not know the clear query name related to the information he / she wants to know.

第2に、該当のクエリと関連する詳細な属性/小主題をユーザが間接的に把握できるようにする。 Second, it allows the user to indirectly understand the detailed attributes / sub-subjects associated with the query in question.

しかしながら、「関連」という関係には、次のような問題がある。 However, the relationship of "relationship" has the following problems.

第1に、「関連」という関係が曖昧であり、該当のクエリとの具体的な関係(例:上/下位概念、類義語、または兄弟概念)が分からない。したがって、提供される検索語やタグの数が多くなれば構造的に整理することが困難となり、ユーザの利用性の観点から、ユーザに提供する検索語やタグの数を減らさざるを得なくなってしまう。 First, the relationship "association" is ambiguous, and the specific relationship with the query in question (eg, upper / lower concept, synonym, or sibling concept) is unknown. Therefore, if the number of search terms and tags provided increases, it becomes difficult to organize them structurally, and from the viewpoint of user usability, the number of search terms and tags provided to users must be reduced. It ends up.

第2に、クエリが多意性を有する場合、各意味によって関連する検索語やタグが整理されない状態で提供され、追加探索のサポートに繋がりにくくなってしまう。 Secondly, when the query has ambiguity, the related search terms and tags are provided in an unorganized state according to each meaning, which makes it difficult to support additional search.

一方、ショッピングを意図したクエリの場合、ユーザが所望する商品の探索をサポートするために提供される階層情報が存在する。製品のブランド、カラー、値段などのように階層が極めて体系的であるため、迅速かつ効率的な探索のサポートにはなるが、このような情報は各販売会社などが手動で入力した情報であるため拡張性に限界があり、さらにショッピングクエリだけに対して適用される傾向にあるという問題がある。 On the other hand, in the case of a query intended for shopping, there is hierarchical information provided to support the search for the product desired by the user. Since the hierarchy such as product brand, color, price, etc. is extremely systematic, it supports quick and efficient search, but such information is manually entered by each sales company etc. Therefore, there is a problem that the extensibility is limited and it tends to be applied only to shopping queries.

本発明では、ユーザの追加探索をサポートするとともに、該当のクエリと関連する詳細な属性/小主題をユーザが効率的に把握できるようにする機能を果たしながら、上述したような限界を解決することのできるサブトピック自動抽出および構造化技術を提案する。 The present invention solves the above-mentioned limitations while supporting the additional search of the user and performing the function of enabling the user to efficiently grasp the detailed attributes / sub-subjects related to the query. We propose automatic subtopic extraction and structuring technology that can be used.

本発明の実施形態に係るトピック構造化システムの核心内容は、次のとおりとなる。 The core contents of the topic structuring system according to the embodiment of the present invention are as follows.

(1)トピック構造化システムは、主題別の主要クエリを「メインオブジェクト+サブトピック」にパターン化する。このとき、メインオブジェクトとは、主題を決定する核心オブジェクトを意味し、サブトピックとは、サブオブジェクトと属性のうちの少なくとも1つを含む。サブオブジェクトとは、主題を具体化するオブジェクトを意味し、属性とは、suffixまたはprefixなどとして主題の属性を示す単語を意味する。 (1) The topic structuring system patterns the main query by subject into "main object + subtopic". At this time, the main object means the core object that determines the subject, and the subtopic includes at least one of the sub-object and the attribute. The sub-object means an object that embodies the subject, and the attribute means a word that indicates the attribute of the subject such as suffix or prefix.

(2)トピック構造化システムは、サブオブジェクトと属性の意味関係に基づいてパターン化されたクエリを階層化する。図3は、本発明の一実施形態における、パターン化されたクエリを階層化する過程の例を示した図である。図3に示すように、特定の主題のクエリ、すなわち、メインオブジェクト(MainObj)を基準にメインオブジェクト(MainObj)とサブトピック(SubObj、Suffix)を階層化してよい。 (2) The topic structuring system hierarchies patterned queries based on the semantic relationships between sub-objects and attributes. FIG. 3 is a diagram showing an example of a process of layering a patterned query in one embodiment of the present invention. As shown in FIG. 3, a query of a specific subject, that is, a main object (MainObj) and a subtopic (Subtopj, Suffix) may be hierarchized based on the main object (MainObj).

(3)トピック構造化システムは、階層化されたクエリとサブトピックを検索結果(文書)とともにユーザに提供してよい。このとき、トピック構造化システムは、ユーザが所望する程度(細分化)に応じてサブトピックを適切に構造化して提示することにより、主題に適しながらも該当のクエリと関連する詳細なサブトピックをユーザが効率的に把握することができ、実質的な追加探索のサポートに寄与することができる。 (3) The topic structuring system may provide a layered query and subtopics to the user together with the search result (document). At this time, the topic structuring system appropriately structures and presents the subtopics according to the degree (subdivision) desired by the user, thereby displaying detailed subtopics that are suitable for the subject but related to the query. It can be grasped efficiently by the user and can contribute to the support of substantial additional search.

図4は、本発明の一実施形態における、サーバのプロセッサが含むことのできる構成要素の例を示した図であり、図5は、本発明の一実施形態における、サーバが実行することのできる方法の例を示したフローチャートである。 FIG. 4 is a diagram showing an example of components that can be included in the processor of the server in one embodiment of the present invention, and FIG. 5 is a diagram that can be executed by the server in one embodiment of the present invention. It is a flowchart which showed the example of the method.

図4に示すように、サーバ150のプロセッサ222は、構成要素として、抽出部410、精製部420、生成部430、調整部440、および提供部450を含んでよい。このようなプロセッサ222およびプロセッサ222の構成要素は、図5の方法が含む段階510〜550を実行するようにサーバ150を制御してよい。このとき、プロセッサ222およびプロセッサ222の構成要素は、メモリ221が含むオペレーティングシステムのコードと、少なくとも1つのプログラムのコードによる命令(instruction)を実行するように実現されてよい。また、プロセッサ222の構成要素は、オペレーティングシステムや少なくとも1つのプログラムが提供する制御命令にしたがってプロセッサ222によって実行される互いに異なる機能(different functions)の表現であってよい。例えば、プロセッサ222が上述した制御命令にしたがってメインオブジェクトとサブトピックを抽出する機能的表現として抽出部410が使用されてよい。 As shown in FIG. 4, the processor 222 of the server 150 may include an extraction unit 410, a purification unit 420, a generation unit 430, an adjustment unit 440, and a provision unit 450 as components. Such processor 222 and the components of processor 222 may control the server 150 to perform steps 510 to 550 included in the method of FIG. At this time, the processor 222 and the components of the processor 222 may be realized to execute an instruction (instruction) by the code of the operating system included in the memory 221 and the code of at least one program. Further, the components of the processor 222 may be representations of different functions executed by the processor 222 according to control instructions provided by the operating system or at least one program. For example, the extraction unit 410 may be used as a functional expression in which the processor 222 extracts the main object and the subtopic according to the control instructions described above.

プロセッサ222の構成要素を詳察すれば、次のとおりとなる。 A closer look at the components of processor 222 is as follows.

抽出部410のMainObj+Suffix Extractor(抽出モジュール)は、主題別にメインオブジェクトおよび属性を抽出する。メインオブジェクトと属性を抽出するためには、自然言語理解(Natural Language Understanding)技術が用いられてよい。 The MainObj + SoftwareExtractor (extraction module) of the extraction unit 410 extracts the main objects and attributes by subject. Natural Language Understanding techniques may be used to extract the main objects and attributes.

抽出部410のSubObj Extractor(抽出モジュール)は、各主題に対してメインオブジェクト+(属性)があるときにサブオブジェクトを抽出する。サブオブジェクトを抽出するためには、多様な統計情報(例えば、クリック数、いいね数、コメント数、作成者数など)や辞書(dictionary)情報などが利用されてよい。 The SubObj Extractor (extraction module) of the extraction unit 410 extracts sub-objects when there is a main object + (attribute) for each subject. In order to extract the sub-object, various statistical information (for example, the number of clicks, the number of likes, the number of comments, the number of creators, etc.), dictionary information, and the like may be used.

精製部420のRanker(Suffix Ranker、SubObj Ranker)モジュールは、メインオブジェクトに対してサブオブジェクトおよび/または属性のランキングを重要度順に決定する。このとき、重要度を決定するために、ユーザからのクリック数、いいね数、コメント数、作成者数などのような多様な情報が活用されてよい。 The Ranker (Suffix Ranker, SubObj Ranker) module of the purification unit 420 determines the ranking of sub-objects and / or attributes with respect to the main object in order of importance. At this time, various information such as the number of clicks from the user, the number of likes, the number of comments, and the number of creators may be utilized to determine the importance.

精製部420のPost−Processor(Post−Processor Ranker、Post−Processor Ranker)モジュールは、ランキングが決定されたサブオブジェクトおよび/または属性を受け、類義語やサブストリング(部分文字列)関係に基づいてこれをクラスタリングすることによって各クラスタの代表値を選定する。 The Post-Processor (Post-Processor Ranker, Post-Processor Ranker) module of the purification unit 420 receives the sub-object and / or attribute whose ranking is determined, and uses this based on synonyms and substring (substring) relationships. Select the representative value of each cluster by clustering.

生成部430のTopicGraphToTreeモジュールは、クラスタリングされたサブオブジェクトおよび/または属性を集め、クエリや文書でどのくらいともに示されるか関係強度を検索した後、これをネットワーク(グラフ)構造で生成した後、ツリー(検索/クラスタ基盤ツリー)に変換するようになる。具体的な検索/クラスタ基盤ツリーについては、以下で説明する。 The TopicGraphToTree module of the generator 430 collects clustered sub-objects and / or attributes, searches for the relationship strength of how much they are shown together in a query or document, generates this in a network (graph) structure, and then a tree ( Search / Cluster infrastructure tree) will be converted. The specific search / cluster infrastructure tree will be described below.

生成部430のTree Constructorモジュールは、辞書基盤ツリーと検索/クラスタ基盤ツリー構造を統合して最終トピックツリー(例えば、2−デプスツリー構造)を構成する。 The Tree Constructor module of the generation unit 430 integrates the dictionary infrastructure tree and the search / cluster infrastructure tree structure to form a final topic tree (for example, a 2-depth tree structure).

調整部440のTopic rerankerモジュールは、トピックツリーに対してフィルタリング条件(一例として、文書数、主題適合度、正解性など)によって追加でフィルタリングする。 The Topic learner module of the adjustment unit 440 additionally filters the topic tree according to the filtering conditions (for example, the number of documents, the goodness of fit of the subject, the correctness, etc.).

調整部440のNew Object Assignerモジュールは、メインオブジェクトと関連する新たなアイテムを抽出してツリー構造に割り当てる。ツリー構造に割り当たらないほどアイテムが新たに増えた場合は、最初からプロセスを行って新たなツリーを構成する。 The New Object Assigner module of the coordinator 440 extracts new items related to the main object and assigns them to the tree structure. If there are more items than can be allocated to the tree structure, the process is started from the beginning to construct a new tree.

提供部450のDocument Finding APIモジュールは、最終トピックツリーに基づいてクエリを構成して適合文書を抽出する。このとき、フィルタリング機能が含まれてもよい。 The Document Finding API module of the provider 450 constructs a query based on the final topic tree and extracts conforming documents. At this time, a filtering function may be included.

提供部450のAuto−Taggerモジュールは、最終トピックツリーに基づいてトピックタグを構成して適合文書にタギングする。 The Auto-Tagger module of the provider 450 configures topic tags based on the final topic tree and tags to conforming documents.

上述した構成要素を含むプロセッサ222により、図5の方法が含む段階510〜550が実行されてよい。 The processor 222 including the components described above may perform steps 510 to 550 as included in the method of FIG.

図5において、段階510で、抽出部410は、各主題別に該当の主題を決定する核心オブジェクトであるメインオブジェクトと、該当の主題を具体化するサブトピックを抽出してよい。このとき、抽出部410は、文書上にメインオブジェクトとともに頻繁に登場する単語を分析したり、検索システムでメインオブジェクトとともに検索に頻繁に利用される単語を分析したりすることにより、サブオブジェクトおよび/または属性候補を抽出してよい。 In FIG. 5, at step 510, the extraction unit 410 may extract a main object, which is a core object for determining the subject for each subject, and a subtopic that embodies the subject. At this time, the extraction unit 410 analyzes the words that frequently appear together with the main object in the document, or analyzes the words that are frequently used for the search together with the main object in the search system, thereby performing the sub-object and /. Alternatively, attribute candidates may be extracted.

段階520で、精製部420は、サブトピックを文書内の出現頻度や検索頻度によってフィルタリングした後、単語同士の関係に基づいてグルーピングを実行してよい。候補フィルタリング過程では、サブオブジェクトおよび/または属性候補のうちの少なくとも一部をフィルタリングして使用してよい。具体的な一例として、精製部420は、文書内の出現頻度およびユーザの検索頻度のうちの少なくとも1つによってサブオブジェクトおよび/または属性をフィルタリングしてよい。また、出現頻度を特定の期間のデータに限定してフィルタリングしてよい。このとき、フィルタリング方法は、主題の特性に応じて異なってよく、例えば、示意性(時宜性)の高い主題であればここ最近の一定期間(例えば、現在から1週間前までの期間)のデータをフィルタリングしてよい。また、精製部420は、候補フィルタリング過程によって選定されたサブオブジェクトおよび/または属性候補を類義語やサブストリング関係などを考慮してグルーピングしてよく、グルーピング後には各グループから代表を選定してよい。代表を選定する方法は多様であってよく、一実施形態としては、検索頻度が最も高いものを代表として選定してよい。言い換えれば、精製部420は、サブトピックを重要度(例えば、文書内の出現頻度や検索頻度など)順にランキングした後、ランキングされたサブトピックを類義語やサブストリング関係によってクラスタリングすることで各クラスタの代表を選定してよい。上述したサブトピックの抽出および精製過程は、候補選定、グルーピング/代表選定過程でなされる。図6は、本発明の一実施形態における、「グアム」および「じゃがいも」というクエリに対し、候補をフィルタリングおよびグルーピングし、代表トピックを選定する過程の一例を示した図である。図6において、WTRIPおよびFOODとは、クエリの主題を示す分類コード(カテゴリ分類コード)であり、単語の横に記載されている数字は、クエリとともに関連して検索された頻度数を示すものである。 At step 520, purification unit 420 may perform grouping based on the relationships between words after filtering subtopics by frequency of occurrence or search frequency in the document. In the candidate filtering process, at least a part of sub-objects and / or attribute candidates may be filtered and used. As a specific example, Purification Unit 420 may filter sub-objects and / or attributes by at least one of the frequency of occurrence in the document and the frequency of user searches. In addition, the frequency of appearance may be limited to data in a specific period and filtered. At this time, the filtering method may differ depending on the characteristics of the subject. For example, in the case of a subject with high demonstrability (timeliness), data for a certain period of recent years (for example, a period from the present to one week ago) May be filtered. Further, the purification unit 420 may group sub-objects and / or attribute candidates selected by the candidate filtering process in consideration of synonyms, sub-string relationships, and the like, and may select representatives from each group after grouping. There may be various methods for selecting a representative, and as one embodiment, the one with the highest search frequency may be selected as the representative. In other words, the purification unit 420 ranks the subtopics in order of importance (for example, frequency of appearance in the document, frequency of search, etc.), and then clusters the ranked subtopics by synonyms or substring relationships, so that each cluster A representative may be selected. The above-mentioned subtopic extraction and purification processes are performed in the candidate selection, grouping / representative selection process. FIG. 6 is a diagram showing an example of a process of filtering and grouping candidates and selecting a representative topic for the queries “Guam” and “potato” in one embodiment of the present invention. In FIG. 6, WTRIP and FOOD are classification codes (category classification codes) indicating the subject of the query, and the numbers next to the words indicate the frequency of searches related to the query. is there.

再び図5において、段階530で、生成部430は、グルーピングされたサブトピックに対し、該当の主題の階層情報を利用してトピックツリーを生成してよい。生成部430は、各グルーピングされたサブトピックを、階層情報を活用して階層の各クラス名に合うようにラベリング(labeling)することによってトピックツリーを生成してよい。主題によっては、階層情報が存在する場合と階層情報が存在しない場合がある。例えば、多様な種類のコンテンツを含んでいるデータベースで構築された辞書情報は、階層情報に有効に活用することのできる情報の1つである。このとき、生成部430は、辞書情報のように予め存在する階層情報がある場合には、これに基づいてトピックツリーを生成してよい。例えば、料理やレシピの主題は、料理百科辞書に基づいて豊富な階層情報が存在する。この反面、旅行やショッピングの主題は、階層情報が存在せず、時期に応じて多様なサブトピックが生成されたり変更されたりする。生成部430は、階層情報が存在しない場合に、単語埋め込み(word embedding)基盤のクラスタリング技法と言語分類学(taxonomy)に基づいて階層情報を構築してトピックツリーの生成に活用してよい。本発明は、階層情報が存在しない場合でも自動的にトピックを階層化することができるという点に長所がある。 Again, in FIG. 5, at step 530, the generation unit 430 may generate a topic tree for the grouped subtopics using the hierarchical information of the subject. The generation unit 430 may generate a topic tree by labeling each grouped subtopic so as to match each class name in the hierarchy by utilizing the hierarchy information. Depending on the subject, there are cases where hierarchical information exists and cases where hierarchical information does not exist. For example, dictionary information constructed in a database containing various types of contents is one of the information that can be effectively used for hierarchical information. At this time, the generation unit 430 may generate a topic tree based on the hierarchical information that exists in advance, such as dictionary information. For example, the subject of a dish or recipe has a wealth of hierarchical information based on a culinary encyclopedia. On the other hand, the subject of travel and shopping does not have hierarchical information, and various subtopics are generated or changed depending on the time. When the hierarchical information does not exist, the generation unit 430 may construct the hierarchical information based on the word embedding-based clustering technique and the language taxonomy (taxonomy) and utilize it for generating the topic tree. The present invention has an advantage that topics can be automatically hierarchized even when hierarchical information does not exist.

図7は、本発明の一実施形態における、単語埋め込み基盤のクラスタリング技法と言語分類学を利用して階層情報を構築する過程の一例を説明するためのフローチャートである。図7を参照すると、生成部430は、サブトピックに対して単語埋め込みデータから類似単語を抽出し(S701)、抽出された単語を類義語やサブストリング関係に基づいてクラスタリングした後(S702)、クラスタリングされた単語を言語分類学に基づいてラベリングしてよい(S703)。図8は、旅行の主題に対し、クラスタリングおよび言語分類学を利用して構築した階層情報の一例を示した図である。単語埋め込み基盤のクラスタリング過程S702では、主題別文書(例えば、ブログ掲示文など)として単語埋め込みデータを学習し、このような学習データからクラスタリングが必要なサブトピックのワードベクトル値を把握した後、ワードベクトル値に基づいてクラスタリングを行う。このとき、クラスタリングは、階層的クラスタリング(hierarchical clustering)、K−平均アルゴリズム(K−means algorithm)、密度クラスタリング(density clustering)などのような多様な方法が活用されてよい。また、言語分類学活用過程S703では、クラスタリングされた結果を言語分類学上の各クラスにマッピングすることによってラベリングしてよい。このとき、言語分類学は汎用的であるため、主題に特化された階層情報と比較するときに不必要なクラスが多く存在する。したがって、不必要なクラスを削除する作業が必要となるが、これについては、後述する調整部440のリバランシング(rebalancing)過程で説明する。 FIG. 7 is a flowchart for explaining an example of a process of constructing hierarchical information using a word embedding-based clustering technique and language taxonomy in one embodiment of the present invention. Referring to FIG. 7, the generation unit 430 extracts similar words from the word embedding data for the subtopic (S701), clusters the extracted words based on synonyms and substring relationships (S702), and then clusters. The words given may be labeled based on linguistic taxonomy (S703). FIG. 8 is a diagram showing an example of hierarchical information constructed by using clustering and linguistic taxonomy for a travel subject. In the word embedding-based clustering process S702, word embedding data is learned as a thematic document (for example, a blog bulletin board), and after grasping the word vector value of a subtopic that requires clustering from such learning data, the word Clustering is performed based on the vector value. At this time, various methods such as hierarchical clustering, K-means algorithm, density clustering, and the like may be utilized for clustering. Further, in the language taxonomy utilization process S703, the clustered results may be labeled by mapping each class on the language taxonomy. At this time, since linguistic taxonomy is general-purpose, there are many unnecessary classes when comparing with hierarchical information specialized in a subject. Therefore, it is necessary to delete unnecessary classes, which will be described in the rebalancing process of the adjustment unit 440 described later.

トピック階層化段階では、クラスタリングされたサブトピックを集め、クエリや文書でどのくらい共に示されるか関係強度を検索してネットワーク(グラフ)構造で生成した後、トピックツリーに変換し(クラスタ基盤ツリー)、辞書基盤で構築されたトピックツリーとクラスタリング基盤で構築されたトピックツリーとを統合して最終ツリー構造を構成してよい。 In the topic hierarchy stage, clustered subtopics are collected, the relationship strength is searched for how much they are shown together in a query or document, generated in a network (graph) structure, and then converted into a topic tree (cluster infrastructure tree). The topic tree built on the dictionary base and the topic tree built on the clustering base may be integrated to form the final tree structure.

再び図5において、段階540で、調整部440は、生成部430のトピック階層化段階で構築されたトピックツリー対し、ユーザやシステムの目的に応じてリバランシングを実行してよい。また、調整部440は、トピックツリーに対して主題適合度、検索意図、検索結果の量などを考慮して適切にプルーニング(Pruning)を実行してよい。 Again, in step 540, in step 540, the coordinating section 440 may perform rebalancing on the topic tree constructed in the topic hierarchy step of the generating section 430 according to the purpose of the user or the system. Further, the coordinating unit 440 may appropriately perform pruning on the topic tree in consideration of the subject goodness of fit, the search intention, the amount of search results, and the like.

表1は、本発明の一実施形態に係るトピックネットワークの定義を示したものである。 Table 1 shows the definition of the topic network according to the embodiment of the present invention.

(表1) (Table 1)

Figure 0006808851
生成部430は、検索頻度とクラスタリングを利用して構築した情報を利用してトピックツリーを生成する。先ず、各単語をノード(node)とし、各単語同士の関連関係をエッジ(edge)で示してトピックネットワーク(G)を構築する。本発明の一実施形態に係るトピックネットワーク(G)におけるノード(V)およびエッジ(E)は、表1のように定義されてよい。このとき、生成部430は、検索頻度を考慮してトピックネットワークをトピックツリーに変更する。図9は、本発明の一実施形態によって構築されたトピックネットワークを深さが2であるツリー(2−デプスツリー)に変換する過程の例を示した図である。ネットワークをツリーに変更する方法としては多様なアルゴリズムが存在してよく、例えば、加重値グラフにおける最小全域木(minimum spanning tree)構築アルゴリズムなどが応用されてよい。この後、調整部440は、言語分類学を基盤としたツリーと検索頻度/クラスタリングを基盤としたツリーとを合わせ、ユーザやシステムの目的に応じてリバランシングを実行してよい。図10は、本発明の一実施形態における、ツリーリバランシング過程の一例を説明するためのフローチャートである。図10を参照すると、調整部440は、クラスタリング基盤ツリーでリーフノードに該当するクラスタを辞書基盤ツリーの該当のクラスに挿入してよい(S1001)。トピックツリーの幅(breadth)と深さ(depth)はクエリ別にそれぞれ異なり、ユーザが活用するものとしては概して深さおよび幅の両方の値が大きい傾向にあるため、これを減らす作業が必要となる(S1002〜S1003)。幅と深さを減らす方法は、言語分類学を基盤としたツリーと検索頻度/クラスタリングを基盤としたツリーとを結合する過程からなる。トピックツリーの幅値と深さ値は、システムの必要事項に応じて異なるように設定してよく、本発明の実施形態では深さが2であると仮定する(2 depth tree化)。この後、調整部440は、主題適合度、検索意図、検索結果の量などを考慮してトピックツリーのプルーニングを実行してよい(S1004)。図11は、ツリーリバランシング過程中に幅を減らすためのいくつかの方法を示すものであって、ボトムアップ(bottom−up)ノード移動、および/またはトップダウン(top−down)ノード移動によってトピックツリーの幅を減らしてよい。また、図12は、ツリーリバランシング過程中に深さを減らすためのいくつかの方法を示すものであって、一部のノードを子ノードに交換する方式によってトピックツリーの深さを減らしてよい。
Figure 0006808851
The generation unit 430 generates a topic tree by using the information constructed by utilizing the search frequency and clustering. First, each word is set as a node, and the relationship between each word is indicated by an edge to construct a topic network (G). Nodes (V) and edges (E) in the topic network (G) according to one embodiment of the present invention may be defined as shown in Table 1. At this time, the generation unit 430 changes the topic network to the topic tree in consideration of the search frequency. FIG. 9 is a diagram showing an example of a process of converting a topic network constructed by one embodiment of the present invention into a tree having a depth of 2 (2-depth tree). Various algorithms may exist as a method of changing the network into a tree, and for example, a minimum spanning tree construction algorithm in a weighted graph may be applied. After that, the coordinating unit 440 may combine the tree based on language taxonomy and the tree based on search frequency / clustering and execute rebalancing according to the purpose of the user or the system. FIG. 10 is a flowchart for explaining an example of the tree rebalancing process in one embodiment of the present invention. Referring to FIG. 10, the coordinating unit 440 may insert the cluster corresponding to the leaf node in the clustering infrastructure tree into the corresponding class in the dictionary infrastructure tree (S1001). The width and depth of the topic tree are different for each query, and users generally tend to have large values for both depth and width, so it is necessary to reduce this. (S1002 to S1003). The method of reducing width and depth consists of combining a tree based on linguistic taxonomy with a tree based on search frequency / clustering. The width value and the depth value of the topic tree may be set differently according to the requirements of the system, and it is assumed that the depth is 2 in the embodiment of the present invention (2 depth tree). After that, the adjustment unit 440 may execute the pruning of the topic tree in consideration of the subject goodness of fit, the search intention, the amount of search results, and the like (S1004). FIG. 11 shows some ways to reduce the width during the tree rebalancing process, by topic by bottom-up node movement and / or top-down node movement. You may reduce the width of the tree. In addition, FIG. 12 shows some methods for reducing the depth during the tree rebalancing process, and the depth of the topic tree may be reduced by exchanging some nodes for child nodes. ..

再び図5において、段階550で、提供部450は、クエリが属する主題のトピックツリーを利用し、サブトピックを該当のクエリに対応する検索結果とともに提供してよい。このとき、提供部450は、クエリに対する関連検索語としてサブトピックを多様な条件によってフィルタリングした後、検索結果とともに提供してよい。一例として、提供部450は、クエリの主題適合度によってサブトピックをフィルタリングしてよい。検索のためのクエリが与えられると、該当のクエリが属する主題を確認するようになるが、このとき、クエリが複数の主題に属する場合には、与えられた主題に適合しないトピックをフィルタリングする場合がある。このために、クエリとサブトピックの関連性を示す点数である「クエリ+サブトピック」の主題点数を活用してよい。主題点数把握方法としては、テキスト分類(Text categorization)アルゴリズム(例えば、SVM(support vector machine)、kNN(k−Nearest Neighbor)、CNN(Convolutional Neural Networks)など)が利用されてよい。他の例として、提供部450は、サブトピックに対応する文書数を利用してサブトピックをフィルタリングしてよい。検索結果に含まれる文書数が一定の件数以下と少なければ、有用性が低下するため、該当のサブトピックは除外してよい。また他の例として、提供部450は、クエリに対する正解性トピックの有無に応じてサブトピックをフィルタリングしてよい。検索結果として多くの文書を提供するよりも正解性のある情報を提供する方が適切なサブトピックとなる場合(例えば、グアムの天気のように正解性のある情報が求められる場合)、クエリに対する関連検索語として含ませてよい。 Again in FIG. 5, at step 550, the provider 450 may utilize the topic tree of the subject to which the query belongs and provide subtopics with search results corresponding to the query. At this time, the providing unit 450 may provide the subtopic as a related search term for the query together with the search result after filtering it according to various conditions. As an example, the provider 450 may filter subtopics by the goodness of fit of the query. When a query for searching is given, it will check the subject to which the query belongs, but at this time, if the query belongs to multiple subjects, if you want to filter topics that do not match the given subject There is. For this purpose, the subject score of "query + subtopic", which is a score indicating the relationship between the query and the subtopic, may be utilized. As a method for grasping the subject score, a text classification algorithm (for example, SVM (support vector machine), kNN (k-Nearest Neighbor), CNN (Convolutional Neural Network), etc. may be used). As another example, the provider 450 may filter the subtopics by using the number of documents corresponding to the subtopics. If the number of documents included in the search results is as small as a certain number or less, the usefulness decreases, so the relevant subtopic may be excluded. As another example, the provider 450 may filter the subtopics according to the presence or absence of correctness topics for the query. If providing correct information is a more appropriate subtopic than providing more documents as a search result (for example, when correct information is required, such as the weather in Guam), then for the query It may be included as a related search term.

提供部450は、ユーザが検索のために入力したクエリに対し、関連検索語として該当のクエリと関連する詳細なサブトピック(サブオブジェクトおよび/または属性)を階層形で表示してよい。主題別のトピックツリーは、一定の周期を単位としてアップデートされてよく、主題に応じて該当の主題の特性などを考慮してトピックツリーのアップデート周期が決定されてよい。 The provider 450 may display detailed subtopics (sub-objects and / or attributes) related to the query as related search terms in a hierarchical manner for the query entered by the user for the search. The topic tree for each subject may be updated in units of a fixed cycle, and the update cycle of the topic tree may be determined in consideration of the characteristics of the subject according to the subject.

図13および図14は、本発明の一実施形態における、2デプスのトピック構造が反映された検索結果画面の例を示した図である。例えば、ユーザが入力したクエリに対し、入力クエリに対応する検索結果を提供する過程において、入力クエリに該当する主題の階層情報に基づいて入力クエリの関連検索語としてdepth1のクエリとdepth2のクエリを提供してよい。図13を参照すると、ユーザが検索ウィンドウ1301にクエリ「グアム」を入力した場合、入力クエリに対応する検索結果とともに、該当の主題「グアム」の階層情報に基づき、入力クエリ「グアム」の関連検索語としてdepth1のクエリ1310とdepth2のクエリ1320を提供してよい。このとき、関連検索語として提供されるクエリそれぞれは、ユーザによって選択可能な形態で構成され、ユーザが選択したクエリが検索ウィンドウ1301に自動で追加入力される。図13に示すように、ユーザが初期クエリ「グアム」の関連検索語として提供されるdepth1のクエリ1310のうちから「グルメ店」を選択した場合、検索ウィンドウ1301には「グルメ店」が追加で入力され、「グアム グルメ店」をクエリとしたdepth1の検索結果1302が表示されてよい。次に、図14に示すように、ユーザがdepth2のクエリ1320のうちからクエリ「手作りハンバーガー」を選択した場合、検索ウィンドウ1301には「手作りハンバーガー」が追加で入力され、「グアム グルメ店 手作りハンバーガー」をクエリとしたdepth2の検索結果1402が表示されてよい。 13 and 14 are diagrams showing an example of a search result screen in which a topic structure of 2 depths is reflected in one embodiment of the present invention. For example, in the process of providing the search result corresponding to the input query for the query input by the user, the query of depth1 and the query of depth2 are used as the related search terms of the input query based on the hierarchical information of the subject corresponding to the input query. May be provided. Referring to FIG. 13, when the user inputs the query "Guam" in the search window 1301, the related search of the input query "Guam" is performed based on the hierarchical information of the corresponding subject "Guam" together with the search result corresponding to the input query. Query 1310 of depth1 and query 1320 of depth2 may be provided as terms. At this time, each of the queries provided as related search terms is configured in a form that can be selected by the user, and the query selected by the user is automatically additionally input to the search window 1301. As shown in FIG. 13, when the user selects "gourmet shop" from the query 1310 of depth1 provided as the related search term of the initial query "Guam", "gourmet shop" is added to the search window 1301. The input and the search result 1302 of depth1 using "Guam gourmet restaurant" as a query may be displayed. Next, as shown in FIG. 14, when the user selects the query "handmade hamburger" from the query 1320 of depth2, "handmade hamburger" is additionally input to the search window 1301 and "Guam gourmet shop handmade hamburger". The search result 1402 of depth2 with the query "" may be displayed.

このように、本発明の実施形態によると、検索結果(文書)を階層構造のトピックとともに提供することによって効率的な追加探索をサポートし、一度のクエリとして最大限多様な検索結果を提供することができる。さらに、階層化されたトピック構造を検索ランキングに活用することもできる。言い換えれば、サブオブジェクトおよび属性が含まれた文書は、相対的に高品質の文書である可能性が高いため、検索ランキング時にこのような文書をブースティングするのに活用することができる。 As described above, according to the embodiment of the present invention, the search results (documents) are provided together with the topic of the hierarchical structure to support efficient additional search, and the maximum variety of search results are provided as one query. Can be done. Furthermore, the hierarchical topic structure can be used for search ranking. In other words, documents containing sub-objects and attributes are likely to be relatively high quality documents and can be used to boost such documents during search rankings.

上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)および前記OS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを格納、操作、処理、および生成してよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでもよい。また、並列プロセッサのような、他の処理構成も可能である。 The devices described above may be implemented by hardware components, software components, and / or combinations of hardware components and software components. For example, the devices and components described in the embodiments include a processor, a controller, an ALU (arithmetic logic unit), a digital signal processor, a microcomputer, an FPGA (field program gate array), a PLU (programmable log unit), a microprocessor, and the like. Alternatively, it may be implemented using one or more general purpose computers or special purpose computers, such as various devices capable of executing and responding to instructions. The processing device may execute an operating system (OS) and one or more software applications running on said OS. The processor may also respond to software execution, access data, and store, manipulate, process, and generate data. For convenience of understanding, one processing device may be described as being used, but one of ordinary skill in the art may indicate that the processing device may include multiple processing elements and / or multiple types of processing elements. You can understand. For example, the processing unit may include multiple processors or one processor and one controller. Other processing configurations, such as parallel processors, are also possible.

ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、所望の動作をするように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ格納媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で格納されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータで読み取り可能な記録媒体に格納されてよい。 The software may include computer programs, codes, instructions, or a combination of one or more of these, configuring the processing equipment to perform the desired operation, or instructing the processing equipment independently or collectively. You may do it. The software and / or data is embodied in any type of machine, component, physical device, computer storage medium or device to be interpreted based on the processing device or to provide instructions or data to the processing device. Good. The software is distributed on a computer system connected by a network and may be stored or executed in a distributed state. The software and data may be stored on a recording medium readable by one or more computers.

実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータで読み取り可能な媒体に記録されてよい。このとき、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合された形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピーディスク、および磁気テープのような磁気媒体、CD−ROMおよびDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体も挙げられる。 The method according to the embodiment may be implemented in the form of program instructions that can be executed by various computer means and recorded on a computer-readable medium. At this time, the medium may be a continuous recording of a computer-executable program, or a temporary recording for execution or download. Further, the medium may be various recording means or storage means in the form of a combination of a single piece of hardware or a plurality of pieces of hardware, and is not limited to a medium directly connected to a certain computer system, and is distributed on a network. It may exist. Examples of media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as CD-ROMs and DVDs, opto-magnetic media such as Floptic disks, and ROMs, RAMs. , Flash memory, etc., and may be configured to record program instructions. In addition, other examples of media include recording media or storage media managed by application stores that distribute applications, sites that supply or distribute various other software, servers, and the like.

以上のように、実施形態を、限定された実施形態と図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。 As described above, the embodiments have been described based on the limited embodiments and drawings, but those skilled in the art will be able to make various modifications and modifications from the above description. For example, the techniques described may be performed in a different order than the methods described, and / or components such as the systems, structures, devices, circuits described may be in a form different from the methods described. Appropriate results can be achieved even if they are combined or combined, or confronted or replaced by other components or equivalents.

したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付の特許請求の範囲に属する。 Therefore, even if the embodiment is different, if it is equivalent to the claims, it belongs to the attached claims.

222:プロセッサ
410:抽出部
420:精製部
430:生成部
440:調整部
222: Processor 410: Extraction unit 420: Purification unit 430: Generation unit 440: Adjustment unit

Claims (11)

コンピュータが実現するトピック構造化方法であって、
主題別に前記主題と関連するサブトピックを抽出する段階、
前記サブトピックに対して前記主題の階層情報を利用してトピックツリーを生成する段階、および
検索のためのクエリが与えられると、前記クエリが属する主題のトピックツリーに基づき、前記クエリに対する関連検索語として前記サブトピックを階層形で提供する段階
を含み、
前記生成する段階は、
前記サブトピックに該当する各単語をノードとし、単語同士の関連関係をエッジとして示すトピックネットワークを構築する段階、および
検索頻度を考慮して前記トピックネットワークをツリー構造に変更することにより、前記トピックツリーを生成する段階
を含む、トピック構造化方法。
It is a topic structuring method realized by a computer.
The stage of extracting subtopics related to the subject by subject,
When a stage for generating a topic tree using the hierarchical information of the subject and a query for searching are given to the subtopic, a related search term for the query is given based on the topic tree of the subject to which the query belongs. the sub-topic viewing including the step of providing a hierarchical form as,
The generation stage is
The stage of constructing a topic network in which each word corresponding to the subtopic is used as a node and the relationship between words is shown as an edge, and
The stage of generating the topic tree by changing the topic network to a tree structure in consideration of the search frequency
How to structure topics , including .
前記抽出する段階は、
前記主題を決定する核心オブジェクトと関連する単語を分析して前記サブトピックを抽出すること
を特徴とする、請求項1に記載のトピック構造化方法。
The extraction step is
The topic structuring method according to claim 1, wherein the subtopic is extracted by analyzing words related to the core object that determines the subject.
前記サブトピックを文書出現頻度と検索頻度のうちの少なくとも1つによってフィルタリングする段階
をさらに含む、請求項1に記載のトピック構造化方法。
The topic structuring method according to claim 1, further comprising filtering the subtopic by at least one of a document appearance frequency and a search frequency.
前記サブトピックを類義語またはサブストリング関係によってクラスタリングして各クラスタの代表を選定する段階
をさらに含む、請求項1に記載のトピック構造化方法。
The topic structuring method according to claim 1, further comprising a step of clustering the subtopics by synonyms or substring relationships to select a representative of each cluster.
前記生成する段階は、
前記サブトピックを前記階層情報の各クラス名にラベリングして前記トピックツリーを生成すること
を特徴とする、請求項1に記載のトピック構造化方法。
The generation stage is
The topic structuring method according to claim 1, wherein the subtopic is labeled with each class name of the hierarchical information to generate the topic tree.
前記生成する段階は、
前記サブトピックに対して単語埋め込みデータから類似単語を抽出する段階、
前記類似単語を類義語またはサブストリング関係によってクラスタリングする段階、および
前記クラスタリングされた単語を言語分類学上の各クラスにマッピングすることによってラベリングする段階
を含む、請求項1に記載のトピック構造化方法。
The generation stage is
The stage of extracting similar words from the word embedding data for the subtopic,
The topic structuring method according to claim 1, comprising a step of clustering the similar words by synonyms or substring relationships, and a step of labeling the clustered words by mapping them to each class in linguistic taxonomy.
前記トピックツリーの幅と深さのうちの少なくとも1つを減らして前記トピックツリーに対するリバランシングを実行する段階
をさらに含む、請求項1に記載のトピック構造化方法。
The topic structuring method of claim 1, further comprising reducing at least one of the width and depth of the topic tree to perform rebalancing against the topic tree.
前記提供する段階は、
前記クエリと前記サブトピックの関連性を示す主題点数と、前記サブトピックに対応する文書数、および前記クエリに対する正解性トピックのうちの少なくとも1つの条件によって前記サブトピックをフィルタリングする段階
を含む、請求項1に記載のトピック構造化方法。
The stage to be provided is
A claim including a step of filtering the subtopic according to at least one condition of the subject score indicating the relevance of the query and the subtopic, the number of documents corresponding to the subtopic, and the correctness topic for the query. The topic structuring method according to Item 1.
コンピュータが実現する検索結果提供方法であって、
検索のためのクエリが与えられると、前記クエリに対応する検索結果を提供する段階、
前記クエリが属する主題の階層情報に基づき、前記クエリに対する関連検索語として前記主題と関連するサブトピックを複数のデプスを有する階層形で提供する段階、および
前記サブトピックのうちの少なくとも1つの検索語が選択される場合、前記選択された検索語を含んだ前記クエリに対応する検索結果を提供する段階
を含み、
前記主題と関連するサブトピックを複数のデプスを有する階層形で提供する段階は、
前記サブトピックに対し、前記主題の階層情報を利用してトピックツリーを生成する段階、および
前記トピックツリーによって前記サブトピックを階層形で提供する段階
を含み、
前記生成する段階は、
前記サブトピックに該当する各単語をノードとし、単語同士の関連関係をエッジとして示すトピックネットワークを構築する段階、および
検索頻度を考慮して前記トピックネットワークをツリー構造に変更することにより、前記トピックツリーを生成する段階
を含む、検索結果提供方法。
It is a search result providing method realized by a computer.
When a query for search is given, the stage of providing search results corresponding to the query,
Based on the hierarchical information of the subject to which the query belongs, a step of providing a subtopic related to the subject in a hierarchical form having a plurality of depths as a related search term for the query, and at least one search term of the subtopic. If There is selected, viewing including the step of providing a search result corresponding to the query that contains the selected search word,
The stage of providing subtopics related to the subject in a hierarchical manner with multiple depths is
For the subtopic, the stage of generating a topic tree using the hierarchical information of the subject, and
The stage where the subtopic is provided hierarchically by the topic tree
Including
The generation stage is
The stage of constructing a topic network in which each word corresponding to the subtopic is used as a node and the relationship between words is shown as an edge, and
The stage of generating the topic tree by changing the topic network to a tree structure in consideration of the search frequency
How to provide search results , including .
コンピュータシステムと結合してトピック構造化方法を実行させるためにコンピュータ読み取り可能な記録媒体に記録されたコンピュータプログラムであって、
前記トピック構造化方法は、
主題別に前記主題と関連するサブトピックを抽出する段階、
前記サブトピックに対して前記主題の階層情報を利用してトピックツリーを生成する段階、および
検索のためのクエリが与えられると、前記クエリが属する主題のトピックツリーに基づき、前記クエリに対する関連検索語として前記サブトピックを階層形で提供する段階
を含み、
前記生成する段階は、
前記サブトピックに該当する各単語をノードとし、単語同士の関連関係をエッジとして示すトピックネットワークを構築する段階、および
検索頻度を考慮して前記トピックネットワークをツリー構造に変更することにより、前記トピックツリーを生成する段階
を含む、コンピュータプログラム。
A computer program recorded on a computer-readable recording medium to combine with a computer system to perform topic structuring methods.
The topic structuring method is
The stage of extracting subtopics related to the subject by subject,
When a stage for generating a topic tree using the hierarchical information of the subject and a query for searching are given to the subtopic, a related search term for the query is given based on the topic tree of the subject to which the query belongs. the sub-topic viewing including the step of providing a hierarchical form as,
The generation stage is
The stage of constructing a topic network in which each word corresponding to the subtopic is used as a node and the relationship between words is shown as an edge, and
The stage of generating the topic tree by changing the topic network to a tree structure in consideration of the search frequency
Including computer programs.
コンピュータが実現するトピック構造化システムであって、
コンピュータ読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサ
を含み、
前記少なくとも1つのプロセッサは、
主題別に前記主題と関連するサブトピックを抽出する抽出部、
前記サブトピックに対して前記主題の階層情報を利用してトピックツリーを生成する生成部、および
検索のためのクエリが与えられると、前記クエリが属する主題のトピックツリーに基づき、前記クエリに対する関連検索語として前記サブトピックを階層形で提供する提供部
を備え
前記生成部は、
前記サブトピックに該当する各単語をノードとし、単語同士の関連関係をエッジとして示すトピックネットワークを構築した後、検索頻度を考慮して前記トピックネットワークをツリー構造に変更することにより、前記トピックツリーを生成する、
トピック構造化システム。
A topic-structured system realized by a computer
Includes at least one processor implemented to execute computer-readable instructions
The at least one processor
Extraction unit that extracts subtopics related to the subject by subject,
When a generation unit that generates a topic tree using the hierarchical information of the subject and a query for searching are given to the subtopic, a related search for the query is performed based on the topic tree of the subject to which the query belongs. It has a provider that provides the subtopic as a word in a hierarchical manner .
The generator
After constructing a topic network in which each word corresponding to the subtopic is used as a node and the relationship between words is shown as an edge, the topic tree is changed to a tree structure in consideration of the search frequency to form the topic tree. Generate,
Topic structuring system.
JP2019554996A 2017-04-06 2018-03-09 Topic structuring method, search result provision method, computer program and topic structuring system Active JP6808851B2 (en)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
KR10-2017-0044683 2017-04-06
KR20170044683 2017-04-06
KR1020170085316A KR101958729B1 (en) 2017-04-06 2017-07-05 Auto-extraction and structuring for sub-topic of subject inquiry
KR10-2017-0085316 2017-07-05
PCT/KR2018/002834 WO2018186599A1 (en) 2017-04-06 2018-03-09 Automatic extraction and structurization, by subject, of sub-topic of query

Publications (2)

Publication Number Publication Date
JP2020513128A JP2020513128A (en) 2020-04-30
JP6808851B2 true JP6808851B2 (en) 2021-01-06

Family

ID=64132647

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019554996A Active JP6808851B2 (en) 2017-04-06 2018-03-09 Topic structuring method, search result provision method, computer program and topic structuring system

Country Status (2)

Country Link
JP (1) JP6808851B2 (en)
KR (1) KR101958729B1 (en)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10789429B2 (en) 2018-11-21 2020-09-29 Intuit, Inc. Visualizing comment sentiment
KR102310963B1 (en) * 2019-10-28 2021-10-12 주식회사 마인즈랩 Apparatus for providing answer
KR102483927B1 (en) * 2019-11-28 2023-01-04 한국과학기술원 Method and apparatus for encoding sentence using hierarchical word information
KR102471063B1 (en) * 2020-11-19 2022-11-25 주식회사 마인즈랩 Apparatus for providing answer
KR102640369B1 (en) * 2021-05-06 2024-02-27 네이버 주식회사 Method, computer device, and computer program to search for products based on embedding similarity
KR102615815B1 (en) * 2021-06-04 2023-12-20 네이버 주식회사 Method and system for providing special sales events based on user's intent of search queries
KR20230154711A (en) 2022-05-02 2023-11-09 네이버 주식회사 Method, computer device, and computer program to create blocks of search intent unit

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4342575B2 (en) * 2007-06-25 2009-10-14 株式会社東芝 Device, method, and program for keyword presentation
KR101059557B1 (en) * 2008-12-31 2011-08-26 주식회사 솔트룩스 Computer-readable recording media containing information retrieval methods and programs capable of performing the information
JP5289573B2 (en) * 2009-07-27 2013-09-11 株式会社東芝 Relevance presentation device, method and program
KR101101641B1 (en) * 2010-03-02 2012-01-02 연세대학교 산학협력단 Keyword recommender method and device using mobile communication
KR101485940B1 (en) * 2013-08-23 2015-01-27 네이버 주식회사 Presenting System of Keyword Using depth of semantic Method Thereof

Also Published As

Publication number Publication date
KR101958729B1 (en) 2019-03-18
JP2020513128A (en) 2020-04-30
KR20180113438A (en) 2018-10-16

Similar Documents

Publication Publication Date Title
JP6808851B2 (en) Topic structuring method, search result provision method, computer program and topic structuring system
JP7411651B2 (en) Techniques for ranking content item recommendations
US11645317B2 (en) Recommending topic clusters for unstructured text documents
Carpineto et al. A survey of web clustering engines
Wei et al. A survey of faceted search
Chen et al. Collabseer: a search engine for collaboration discovery
Martella et al. Practical graph analytics with apache giraph
US9317567B1 (en) System and method of computational social network development environment for human intelligence
JP2019530075A (en) Query recommendation method and system using search context
Dat et al. STING algorithm used English sentiment classification in a parallel environment
EP3491542A1 (en) Platform support clusters from computer application metadata
Wang et al. A classification approach for less popular webpages based on latent semantic analysis and rough set model
WO2018186599A1 (en) Automatic extraction and structurization, by subject, of sub-topic of query
Sekhar et al. Optimized focused web crawler with natural language processing based relevance measure in bioinformatics web sources
JP2023545945A (en) System and method for smart categorization of content in content management systems
US9996535B1 (en) Efficient hierarchical user interface
Consoli et al. A quartet method based on variable neighborhood search for biomedical literature extraction and clustering
Prasanth et al. Effective big data retrieval using deep learning modified neural networks
US10339148B2 (en) Cross-platform computer application query categories
Li et al. A novel approach for protein-named entity recognition and protein-protein interaction extraction
CN116569164A (en) System and method for intelligent categorization of content in a content management system
JP2011018152A (en) Information presentation device, information presentation method, and program
Hung et al. OGIR: an ontology‐based grid information retrieval framework
Thangaraj et al. A context-based technique using tag-tree for an effective retrieval from a digital literature collection
Mohajeri et al. BubbleNet: An innovative exploratory search and summarization interface with applicability in health social media

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191004

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191004

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201026

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201209

R150 Certificate of patent or registration of utility model

Ref document number: 6808851

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250