WO2018186599A1 - Automatic extraction and structurization, by subject, of sub-topic of query - Google Patents

Automatic extraction and structurization, by subject, of sub-topic of query Download PDF

Info

Publication number
WO2018186599A1
WO2018186599A1 PCT/KR2018/002834 KR2018002834W WO2018186599A1 WO 2018186599 A1 WO2018186599 A1 WO 2018186599A1 KR 2018002834 W KR2018002834 W KR 2018002834W WO 2018186599 A1 WO2018186599 A1 WO 2018186599A1
Authority
WO
WIPO (PCT)
Prior art keywords
topic
query
search
tree
subtopic
Prior art date
Application number
PCT/KR2018/002834
Other languages
French (fr)
Korean (ko)
Inventor
민혜진
김진홍
박찬훈
김광현
Original Assignee
네이버 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020170085316A external-priority patent/KR101958729B1/en
Application filed by 네이버 주식회사 filed Critical 네이버 주식회사
Priority to JP2019554996A priority Critical patent/JP6808851B2/en
Publication of WO2018186599A1 publication Critical patent/WO2018186599A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Definitions

  • the description below relates to a technique for automatically extracting and structuring subtopics suitable for queries.
  • the search system When providing a search result of a query input by a user, the search system provides various functions to help the user further search in addition to documents matching the search condition. Representatives that help users navigate further include related search terms, related tags, and search term autocompletion. They are based on identifying queries and frequently appearing search terms or tags based on the co-occurrence of word pairs.
  • Korean Patent Application Publication No. 10-2012-0096806 discloses a search term recommendation system and a search term recommendation method that select a search term based on location information of a user terminal and provide the search term to a user. Is disclosed.
  • the shopping search system may provide a function to help the product search by using hierarchical information such as the brand, color, and price of the product in case of a shopping intention.
  • a computer-implemented topic structuring method comprising: extracting a subtopic associated with the topic for each topic; Generating a topic tree for the subtopic using hierarchical information of the subject; And providing a sub-topic hierarchically as an associated search word for the query according to a topic tree of a topic to which the query belongs, when a query for searching is given.
  • the extracting may include extracting the subtopic by analyzing words related to the core object that determines the subject.
  • the method may further include filtering the subtopic according to at least one of a document appearance frequency and a retrieval frequency.
  • the method may further include clustering the subtopics according to a synonym or substring (substring) relationship to select a representative of each cluster.
  • the generating may include generating the topic tree by labeling the subtopic with each class name of the hierarchical information.
  • the generating may include: extracting a similar word from word embedding data for the subtopic; Clustering the similar words according to a synonym or substring (substring) relationship; And labeling the clustered words by mapping them to respective classes in linguistic taxonomy.
  • the method may further include rebalancing the topic tree by reducing at least one of breadth and depth of the topic tree.
  • the providing may include at least one condition of a subject score indicating a correlation between the query and the subtopic, the number of documents corresponding to the subtopic, and whether or not the topic is correct for the query. And filtering the subtopics accordingly.
  • a computer-implemented search result providing method comprising: providing a search result corresponding to a query given a query for searching; Providing a subtopic associated with the topic in a hierarchical form with a plurality of depths as an associated search word for the query according to the hierarchical information of the subject to which the query belongs; And providing a search result corresponding to the query including the selected search word when at least one search word is selected from the subtopics.
  • a topic structured system implemented in a computer comprising: at least one processor configured to execute a computer readable instruction, the at least one processor comprising: an extracting unit configured to extract subtopics related to the topic for each topic; A generator configured to generate a topic tree for the subtopic using hierarchical information of the subject; And a providing unit providing the subtopics hierarchically as a related search word for the query according to a topic tree of a topic to which the query belongs, when a query for searching is given.
  • a specific topic when a specific topic is given, only the subtopics suitable for the topic are extracted, and hierarchical information is automatically constructed based on the specific topic, and then the subject is appropriately structured and presented according to the degree (segmentation) desired by the user. And attributes specific to the query that are relevant to the query and contribute to helping the user to efficiently identify and actually perform further navigation.
  • FIG. 1 is a diagram illustrating an example of a network environment according to an embodiment of the present invention.
  • FIG. 2 is a block diagram illustrating an internal configuration of an electronic device and a server according to an embodiment of the present invention.
  • FIG. 3 illustrates an example of a process of layering a patterned query according to an embodiment of the present invention.
  • FIG. 4 is a diagram illustrating an example of components that may be included in a processor of a server according to an embodiment of the present invention.
  • FIG. 5 is a flowchart illustrating an example of a method that a server may perform according to an embodiment of the present invention.
  • FIG. 6 shows an example of a process of filtering and grouping subtopic candidates for queries 'Guam' and 'potato' according to an embodiment of the present invention.
  • FIG. 7 is a flowchart illustrating an example of a process of constructing hierarchical information according to an embodiment of the present invention.
  • FIG. 8 shows an example of hierarchical information constructed by using clustering and language taxonomy for a travel subject.
  • FIG 9 illustrates an example of a process of converting a topic network constructed according to an embodiment of the present invention into a tree having a depth of 2 (2-depth tree).
  • FIG. 10 is a flowchart illustrating an example of a tree rebalancing process according to an embodiment of the present invention.
  • 11 to 12 are diagrams illustrating examples of a tree rebalancing process according to an embodiment of the present invention.
  • FIG. 13 to 14 illustrate examples of a search result screen in which a 2-depth topic structure is reflected according to an embodiment of the present invention.
  • Embodiments of the present invention relate to techniques for automatically extracting and structuring subtopics suitable for queries.
  • Embodiments including those specifically disclosed herein, provide topical query topics and allow for the organization of topics for efficient information retrieval, thereby providing significant improvements in terms of accuracy, efficiency, scalability, cost savings, and the like. Achieve the advantages.
  • FIG. 1 is a diagram illustrating an example of a network environment according to an embodiment of the present invention.
  • the network environment of FIG. 1 illustrates an example including a plurality of electronic devices 110, 120, 130, and 140, a plurality of servers 150 and 160, and a network 170.
  • 1 is an example for describing the present invention, and the number of electronic devices or the number of servers is not limited as shown in FIG. 1.
  • the plurality of electronic devices 110, 120, 130, and 140 may be fixed terminals or mobile terminals implemented as computer devices. Examples of the plurality of electronic devices 110, 120, 130, and 140 include smart phones, mobile phones, tablet PCs, navigation systems, computers, notebook computers, digital broadcasting terminals, personal digital assistants (PDAs), and PMPs ( Portable Multimedia Player).
  • PDAs personal digital assistants
  • PMPs Portable Multimedia Player
  • the first electronic device 110 may communicate with other electronic devices 120, 130, 140 and / or the server 150, 160 through the network 170 using a wireless or wired communication scheme.
  • the communication method is not limited, and may include not only a communication method using a communication network (for example, a mobile communication network, a wired internet, a wireless internet, a broadcasting network) that the network 170 may include, but also a short range wireless communication between devices.
  • the network 170 may include a personal area network (PAN), a local area network (LAN), a campus area network (CAN), a metropolitan area network (MAN), a wide area network (WAN), and a broadband network (BBN). And one or more of networks such as the Internet.
  • the network 170 may also include any one or more of network topologies, including bus networks, star networks, ring networks, mesh networks, star-bus networks, trees, or hierarchical networks, but It is not limited.
  • Each of the servers 150 and 160 communicates with the plurality of electronic devices 110, 120, 130, and 140 through the network 170 to provide a command, code, file, content, service, or the like. It may be implemented in devices.
  • the server 160 may provide a file for installing an application to the first electronic device 110 connected through the network 170.
  • the first electronic device 110 may install an application using a file provided from the server 160.
  • the server 150 is provided by accessing the server 150 under the control of an operating system (OS) included in the first electronic device 110 or at least one program (for example, a browser or the installed application). Can be provided with services or content.
  • OS operating system
  • the server 150 sends a code corresponding to the service request message to the first.
  • the electronic device 110 may transmit the content to the electronic device 110, and the first electronic device 110 may provide content to the user by configuring and displaying a screen according to a code according to the control of the application.
  • 2 is a block diagram illustrating an internal configuration of an electronic device and a server according to an embodiment of the present invention. 2 illustrates an internal configuration of the first electronic device 110 as an example of one electronic device and the server 150 as an example of one server. Other electronic devices 120, 130, 140 or server 160 may also have the same or similar internal configuration.
  • the first electronic device 110 and the server 150 may include memories 211 and 221, processors 212 and 222, communication modules 213 and 223, and input / output interfaces 214 and 224.
  • the memories 211 and 221 are computer-readable recording media, and may include non-volatile permanent storage devices such as random access memory (RAM), read only memory (ROM), and disk drives.
  • the memory 211 and 221 may store an operating system or at least one program code (for example, a code for an application installed in the first electronic device 110 and driven). These software components may be loaded from a computer readable recording medium separate from the memories 211 and 221.
  • Such a separate computer-readable recording medium may include a computer-readable recording medium such as a floppy drive, a disk, a tape, a DVD / CD-ROM drive, a memory card, and the like.
  • software components may be loaded into the memory 211, 221 through the communication module 213, 223 rather than a computer readable recording medium.
  • the at least one program is a program installed by files provided by the file distribution system (for example, the server 160 described above) through the network 170 for distributing installation files of developers or applications (for example, It can be loaded into the memory (211, 221) based on the above-described application).
  • Processors 212 and 222 may be configured to process instructions of a computer program by performing basic arithmetic, logic, and input / output operations. Instructions may be provided to the processors 212, 222 by the memory 211, 221 or the communication modules 213, 223. For example, the processors 212 and 222 may be configured to execute a command received according to a program code stored in a recording device such as the memory 211 and 221.
  • the communication modules 213 and 223 may provide a function for the first electronic device 110 and the server 150 to communicate with each other through the network 170.
  • the other electronic device eg, the second electronic device 120
  • other server eg, server 160
  • a request eg, a search request
  • a request generated by the processor 212 of the first electronic device 110 according to a program code stored in a recording device such as the memory 211 may be controlled according to the control of the communication module 213. It may be delivered to the server 150 through 170.
  • control signals, commands, contents, files, and the like provided according to the control of the processor 222 of the server 150 are transmitted to the communication module of the first electronic device 110 via the communication module 223 and the network 170.
  • a control signal or command of the server 150 received through the communication module 213 may be transmitted to the processor 212 or the memory 211, and the content or file may be transmitted to the first electronic device 110. May be stored as a storage medium that may further include.
  • the input / output interface 214 may be a means for interfacing with the input / output device 215.
  • the input device may include a device such as a keyboard or mouse
  • the output device may include a device such as a display for displaying a communication session of an application.
  • the input / output interface 214 may be a means for interfacing with a device in which functions for input and output are integrated into one, such as a touch screen.
  • the processor 212 of the first electronic device 110 uses data provided by the server 150 or the second electronic device 120 in processing a command of a computer program loaded in the memory 211.
  • the service screen or contents configured to be displayed on the display may be displayed through the input / output interface 214.
  • the input / output interface 224 may output information configured using data provided by the server 150 when the processor 222 of the server 150 processes a command of a computer program loaded in the memory 221. have.
  • the first electronic device 110 and the server 150 may include more components than those of FIG. 2. However, it is not necessary to clearly show most of the prior art components.
  • the first electronic device 110 may be implemented to include at least a part of the above-described input / output device 215 or may be other such as a transceiver, a Global Positioning System (GPS) module, a camera, various sensors, a database, or the like. It may further include components.
  • GPS Global Positioning System
  • an acceleration sensor when the first electronic device 110 is a smartphone, an acceleration sensor, a gyro sensor, a camera, various physical buttons, a button using a touch panel, an input / output port, and vibration for a smartphone generally include It can be appreciated that various components such as a vibrator may be implemented to be further included in the first electronic device 110.
  • Topic structuring (grouping and hierarchical) is required to provide as many search results as possible in one query and to enable efficient information retrieval.
  • search system When a search system provides a search result of a query input by a user, the search system provides various functions to help the user further search in addition to the documents matching the search condition. Typical examples include related search terms, related tags, and automatic completion of search terms. These features are useful in the following ways.
  • the user can indirectly grasp the detailed attributes / subtopics related to the query.
  • association is ambiguous, so the specific relationship with the query (eg, parent / child concept, synonym or sibling concept) cannot be known. Therefore, when the number of search terms or tags provided increases, it is difficult to arrange the structure structurally, and thus, the number provided to the user can be reduced from the viewpoint of user use.
  • the associated search terms or tags are provided unorganized according to each meaning, so that it is not very helpful for further searching.
  • the present invention has a function to enable the user to efficiently grasp the detailed attributes / subtopics related to the query while helping the user further search, and propose an automatic subtopic extraction and structured technique that can solve the above-mentioned limitations. do.
  • the key contents of the topic structuring system according to the present invention are as follows.
  • Topic structuring system patterns main queries by topic into "main object + subtopic".
  • the main object refers to a core object that determines a subject
  • the subtopic includes at least one of a sub object and an attribute.
  • the sub object refers to an object that embodies the subject
  • the attribute refers to a word representing an attribute of the subject such as suffix or prefix.
  • the topic structuring system hierarchies the patterned queries according to the semantic relationship of sub-objects and attributes.
  • 3 illustrates an example of a process of layering a patterned query according to an embodiment of the present invention.
  • the main object MainObj and the subtopics SubObj and Suffix may be layered based on a query of a specific subject, that is, the main object MainObj.
  • the topic structuring system can provide hierarchical queries and subtopics with the search results (documents) to the user. At this time, the topic structuring system can contribute to help the user to efficiently identify detailed subtopics that are suitable for the topic and related to the query and to assist the actual additional search by structuring and presenting the subtopic according to the degree (segmentation) desired by the user. have.
  • FIG. 4 is a diagram illustrating an example of components that may be included in a processor of a server according to an embodiment of the present invention
  • FIG. 5 is an example of a method that may be performed by a server according to an embodiment of the present invention. It is a flowchart shown.
  • the processor 222 of the server 150 may include the extractor 410, the refiner 420, the generator 430, the adjuster 440, and the provider 450 as components. It may include.
  • the processor 222 and the components of the processor 222 may control the server 150 to perform the steps S510 to S550 included in the method of FIG. 5.
  • the processor 222 and the components of the processor 222 may be implemented to execute instructions according to code of an operating system included in the memory 221 and code of at least one program.
  • the components of the processor 222 may be representations of different functions performed by the processor 222 according to a control command provided by an operating system or at least one program.
  • the extractor 410 may be used as a functional expression for the processor 222 to extract the main object and the subtopic according to the above-described control command.
  • the components of the processor 222 will be described first as follows.
  • the MainObj + Suffix extraction module of the extractor 410 extracts main objects and attributes by subject. Natural language understanding technology can be used to extract main objects and attributes.
  • the SubObj extraction module of the extraction unit 410 extracts a sub object when there is a main object + (property) for each subject.
  • various statistical information eg, clicks, likes, comments, authors, etc.
  • dictionary information may be used.
  • the ranker (Suffix Ranker, SubObj Ranker) module of the refiner 420 determines the ranking of sub-objects and / or attributes in order of importance with respect to the main object. In this case, various information such as the number of clicks, the number of likes, the number of comments, and the number of authors may be utilized to determine the importance.
  • the Post-Processor (Post-Processor Ranker, Post-Processor Ranker) module of the refiner 420 receives the ranked sub-objects and / or attributes and clusters them according to synonyms or substring (substring) relationships and Select a representative value.
  • the TopicGraphToTree module of the generator 430 collects clustered sub-objects and / or attributes, finds the relationship strength of how often they appear in a query or document, creates a network (graph) structure, and then creates a tree (search / cluster-based tree). Will be converted. A detailed search / cluster-based tree will be described below.
  • the TreeConstructor module of the generator 430 integrates a dictionary-based tree and a search / cluster-based tree structure to form a final topic tree (eg, a 2-depth tree structure).
  • the Topic Reranker module of the adjuster 440 further filters the topic tree according to filtering conditions (eg, the number of documents, subject suitability, correctness, etc.).
  • the New Object Assigner module of the adjusting unit 440 extracts and assigns a new item related to the main object to the original tree structure. If there are a lot of new items that do not fit in the tree structure, the process is restarted from the beginning to reconstruct the tree.
  • the Document Finding API module of the providing unit 450 constructs a query based on the final topic tree to extract a suitable document.
  • a filtering function may also be included.
  • the Auto-Tagger module of the providing unit 450 constructs a topic tag based on the final topic tree and tags it in a suitable document.
  • Steps S510 to S550 included in the method of FIG. 5 may be performed through the processor 222 including the above components.
  • the extractor 410 may extract a main object, which is a core object for determining a corresponding subject, and a subtopic that embodies the corresponding subject for each subject.
  • the extractor 410 may extract sub-objects and / or attribute candidates by analyzing words frequently appearing with the main object on the document or by analyzing words frequently used in the search system with the main object. .
  • the refiner 420 may filter the subtopics according to the appearance frequency or the search frequency in the document and then perform grouping based on the relationship between words.
  • the candidate filtering process at least some of the sub object and / or attribute candidates may be filtered.
  • the refiner 420 may filter the sub-object and / or the attribute according to at least one of the frequency of appearance in the document and the search frequency of the user.
  • the frequency of appearance can be filtered by limiting data of a specific period.
  • the filtering method may vary according to the characteristics of the subject. For example, if the subject has high timeliness, the data may be filtered recently for a certain period (for example, one week before the present).
  • the refiner 420 may group the selected sub-objects and / or attribute candidates through the candidate filtering process in consideration of a substring relation and the like, and may select a representative for each group after grouping.
  • the method of selecting a representative may be various.
  • the representative may be selected to have the highest search frequency.
  • the refiner 420 ranks subtopics in order of importance (eg, frequency of appearance in documents, search frequency, etc.), clusters the ranked subtopics according to a synonym or substring relationship, and selects a representative of each cluster. can do. Extraction and purification of the subtopics consists of candidate selection and grouping / representation.
  • WTRIP and FOOD are classification codes (category classification codes) indicating the subject of the query, and the number next to the words indicates the frequencies retrieved associated with the query.
  • the generation unit 430 may generate a topic tree for the grouped subtopics using hierarchical information on the corresponding subject.
  • the generation unit 430 may generate a topic tree by labeling each grouped subtopic to match each class name of the hierarchy by using hierarchy information.
  • hierarchy information For example, dictionary information constructed from a database containing various kinds of contents is one of information that can be usefully used for hierarchical information.
  • the generation unit 430 may generate a topic tree based on the existing hierarchical information such as dictionary information. For example, cooking or recipe topics have a rich hierarchy of information based on a cooking encyclopedia.
  • the generation unit 430 may be used to generate a topic tree by constructing the layer information based on a word embedding-based clustering technique and a taxonomy.
  • the present invention has an advantage in that a topic can be automatically layered even when there is no layer information.
  • FIG. 7 is a flowchart illustrating an example of a process of constructing hierarchical information using a word embedding-based clustering technique and language taxonomy according to an embodiment of the present invention.
  • the generation unit 430 extracts a similar word from word embedding data for a subtopic (S701), clusters the extracted word according to a synonym or substring relation (S702), and then clusters the word. Can be labeled based on linguistic taxonomy (S703).
  • 8 shows an example of hierarchical information constructed by using clustering and language taxonomy for a travel subject.
  • the word embedding-based clustering process (S702), the word embedding data is learned by subject-specific documents (eg, blog posts, etc.), the word vector values of subtopics requiring clustering are learned from the learning data, and clustering is performed based on the word vector values. do.
  • clustering may use various methods such as hierarchical clustering, K-means algorithm, density clustering, and the like.
  • the clustered result may be labeled by mapping the clustered result to each class on the linguistic taxonomy. At this time, language taxonomy is general, and there are many unnecessary classes when compared with hierarchical information specialized for a subject. Therefore, it is necessary to delete unnecessary classes, which will be described later in the rebalancing process of the adjusting unit 440.
  • clustered subtopics are gathered to find out how often they appear together in a query or document, create a network (graph) structure, convert them into topic trees (cluster-based trees), and cluster them with dictionary-based topic trees.
  • the topic tree built on the basis can be integrated to form the final tree structure.
  • the adjustment unit 440 may perform rebalancing on the topic tree constructed in the topic layering step of the generation unit 430 according to the purpose of the user or the system.
  • the adjuster 440 may perform pruning on the topic tree in consideration of subject fitness, search intention, search result amount, and the like.
  • Table 1 shows the definition of the topic network according to an embodiment of the present invention.
  • the generation unit 430 generates a topic tree using information constructed by using a search frequency and clustering.
  • a topic network G is constructed by representing each word as a node and the relationship between the words as edges.
  • the node V and the trunk line E in the topic network G may be defined as shown in Table 1.
  • the generation unit 430 changes the topic network to the topic tree in consideration of the search frequency.
  • 9 illustrates an example of a process of converting a topic network constructed according to an embodiment of the present invention into a tree having a depth of 2 (2-depth tree).
  • Various algorithms may be used to convert the network into a tree, and for example, a minimum spanning tree construction algorithm in a weight graph may be applied.
  • the controller 440 may then be based on linguistic taxonomy. You can combine one tree with a tree based on search frequency / clustering to perform rebalancing based on user or system purpose.
  • 10 is a flowchart illustrating an example of a tree rebalancing process according to an embodiment of the present invention. Referring to FIG. 10, the coordinator 440 may insert a cluster corresponding to a leaf node in a clustering-based tree into a corresponding class of a dictionary-based tree (S1001). The breadth and depth of the topic tree are different for each query, and the depth and width of the topic tree are generally large, so it is necessary to reduce them (S1002 ⁇ S1003).
  • FIG. 11 illustrates some methods for reducing the width of a tree rebalancing process.
  • the width of the topic tree may be reduced by bottom-up node movement and / or top-down node movement.
  • FIG. 12 illustrates some methods for reducing the depth during the tree rebalancing process.
  • the depth of the topic tree may be reduced by replacing some nodes with child nodes.
  • the provider 450 may provide a subtopic along with a search result corresponding to the query by using a topic tree of a topic to which the query belongs.
  • the provider 450 may filter the subtopic according to various conditions as the related search word for the query and provide the search result with the search result.
  • the provider 450 may filter the subtopic according to the subject fitness of the query. Given a query for searching, you can check the subject to which the query belongs, and if the query belongs to several topics, you can filter the topics that do not fit the given subject. To this end, the subject score of 'Query + Subtopic', which is a score indicating the correlation between the query and the subtopic, may be used.
  • Text categorization eg, support vector machine (SVM), k-Nearest Neighbor (kNN), Convolutional Neural Networks (CNN), etc.
  • SVM support vector machine
  • kNN k-Nearest Neighbor
  • CNN Convolutional Neural Networks
  • the provider 450 may filter the subtopic using the number of documents corresponding to the subtopic. If the number of documents included in the search result is less than a certain number, the usefulness may be reduced, so the corresponding subtopic may be excluded. As another example, the provider 450 may filter the subtopic based on whether the topic is correct. For subtopics where it is more appropriate to provide correctness information than providing multiple documents as a result of a search (for example, when correctness information is required, such as Guam weather), you can include it as a related search term for the query. .
  • the provider 450 may hierarchically expose detailed subtopics (sub objects and / or attributes) related to the query as a related search word for the query input by the user.
  • the topic tree for each topic may be updated in units of a certain period, and the update cycle of the topic tree may be determined in consideration of the characteristics of the corresponding topic according to the topic.
  • FIG. 13 to 14 illustrate examples of a search result screen reflecting a topic structure of two depths according to an exemplary embodiment of the present invention.
  • queries of depth1 and queries of depth2 are provided as related search terms of the input query according to hierarchical information of a subject corresponding to the input query. can do.
  • a related search term of the input query “Guam” according to hierarchical information of the corresponding subject “Guam” along with a search result corresponding to the input query.
  • the queries 1310 of depth1 and the queries 1320 of depth2 may be provided.
  • each of the queries provided as the related search word is configured in a form selectable by the user, and the query selected by the user is automatically added to the search box 1301.
  • the query selected by the user is automatically added to the search box 1301.
  • FIG. 13 when the user selects 'delicious' from the queries 1310 of depth1 provided as the related query of the initial query 'Guam', 'delicious' is additionally input to the search box 1301.
  • a search result 1302 of depth1 may be exposed using the query “Guam restaurant”.
  • the user selects the query 'handmade burger' among the queries 1320 of depth2, as shown in FIG. 14, 'handmade burger' is additionally input into the search box 1301, and the 'guam restaurant homemade burger' is selected.
  • the query may expose a search result 1402 of depth2.
  • a search result may be provided along with hierarchical topics to help efficient additional search and provide a variety of search results with a single query.
  • hierarchical topic structures for search ranking.
  • documents containing sub-objects and attributes are likely to be relatively high quality documents, which can be used to boost these documents in search ranking.
  • the apparatus described above may be implemented as a hardware component, a software component, and / or a combination of hardware components and software components.
  • the devices and components described in the embodiments may include a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate array (FPGA), a programmable PLU (programmable). It can be implemented using one or more general purpose or special purpose computers, such as logic units, microprocessors, or any other device capable of executing and responding to instructions.
  • the processing device may execute an operating system (OS) and one or more software applications running on the operating system.
  • the processing device may also access, store, manipulate, process, and generate data in response to the execution of the software.
  • OS operating system
  • the processing device may also access, store, manipulate, process, and generate data in response to the execution of the software.
  • processing device includes a plurality of processing elements and / or a plurality of types of processing elements. It can be seen that it may include.
  • the processing device may include a plurality of processors or one processor and one controller.
  • other processing configurations are possible, such as parallel processors.
  • the software may include a computer program, code, instructions, or a combination of one or more of the above, and configure the processing device to operate as desired, or process it independently or collectively. You can command the device.
  • the software and / or data may be embodied in any type of machine, component, physical device, computer storage medium or device in order to be interpreted by or provided to the processing device or to provide instructions or data. have.
  • the software may be distributed over networked computer systems so that they may be stored or executed in a distributed manner. Software and data may be stored on one or more computer readable recording media.
  • the method according to the embodiment may be embodied in the form of program instructions that can be executed by various computer means and recorded in a computer readable medium.
  • the medium may be to continuously store a program executable by the computer, or to temporarily store for execution or download.
  • the medium may be a variety of recording means or storage means in the form of a single or several hardware combined, not limited to a medium directly connected to any computer system, it may be distributed on the network. Examples of the medium include magnetic media such as hard disks, floppy disks and magnetic tape, optical recording media such as CD-ROMs and DVDs, magneto-optical media such as floptical disks, And ROM, RAM, flash memory, and the like, configured to store program instructions.
  • examples of another medium may include a recording medium or a storage medium managed by an app store that distributes an application, a site that supplies or distributes various software, a server, or the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

A technique for automatically extracting and structuring a sub-topic suitable for a query is disclosed. A topic structuring method can comprise the steps of: extracting, by subject, a sub-topic related to a subject; generating a topic tree for the sub-topic by using hierarchical information of the subject; and hierarchically providing the sub-topic as a search word related to a query according to a topic tree of a subject to which the query belongs, when the query for a search is provided.

Description

주제별 질의의 서브토픽 자동 추출 및 구조화Subtopic Automatic Extraction and Structure of Query by Subject
아래의 설명은 질의에 적합한 서브토픽을 자동 추출하고 구조화 하는 기술에 관한 것이다.The description below relates to a technique for automatically extracting and structuring subtopics suitable for queries.
검색 시스템은 사용자가 입력한 질의의 검색 결과를 제공할 때 검색 조건에 매칭된 문서들 외에 사용자의 추가 탐색을 도와주는 여러 가지 기능을 함께 제공한다. 사용자의 추가 탐색을 도와주는 대표적인 것들로 연관 검색어, 연관 태그, 검색어 자동 완성 등이 있다. 이들은 단어쌍이 함께 나타나는 정도(Co-occurrence)를 기반으로 질의와 자주 등장하는 검색어나 태그를 파악하는 것을 기본으로 한다.When providing a search result of a query input by a user, the search system provides various functions to help the user further search in addition to documents matching the search condition. Representatives that help users navigate further include related search terms, related tags, and search term autocompletion. They are based on identifying queries and frequently appearing search terms or tags based on the co-occurrence of word pairs.
예를 들어, 공개특허공보 제10-2012-0096806호(공개일 2012년 08월 31일)에는 사용자 단말의 위치 정보에 근거하여 추천 검색어를 선정하여 사용자에게 제공하는 검색어 추천 시스템 및 검색어 추천 방법이 개시되어 있다.For example, Korean Patent Application Publication No. 10-2012-0096806 (published August 31, 2012) discloses a search term recommendation system and a search term recommendation method that select a search term based on location information of a user terminal and provide the search term to a user. Is disclosed.
한편, 쇼핑 검색 시스템에서는 쇼핑 의도가 있는 질의의 경우, 제품의 브랜드, 색상, 가격 등과 같은 계층 정보를 활용하여 상품의 탐색을 도와주는 기능을 제공하기도 한다.On the other hand, the shopping search system may provide a function to help the product search by using hierarchical information such as the brand, color, and price of the product in case of a shopping intention.
주제가 분명한 질의의 토픽을 제공하고 효율적인 정보 탐색을 위한 토픽의 구조화가 필요하다.It is necessary to provide a topic with a clear topic and structure the topic for efficient information retrieval.
특정 주제가 주어졌을 때 해당 주제에 적합한 서브토픽만을 추출하고 특정 주제에 대해 자동으로 구축된 계층 정보를 활용하여 사용자가 원하는 정도(세분화)에 따라 적절히 구조화하여 제시하는 방법을 제공한다.When a specific topic is given, only subtopics suitable for the topic are extracted, and the hierarchical information automatically constructed for the specific topic is used to provide a structured method according to the degree (segmentation) desired by the user.
컴퓨터로 구현되는 토픽 구조화 방법에 있어서, 주제 별로 상기 주제와 관련된 서브토픽을 추출하는 단계; 상기 서브토픽에 대해 상기 주제의 계층 정보를 이용하여 토픽 트리를 생성하는 단계; 및 검색을 위한 질의가 주어지면 상기 질의가 속한 주제의 토픽 트리에 따라 상기 질의에 대한 연관 검색어로서 상기 서브토픽을 계층형으로 제공하는 단계를 포함하는 토픽 구조화 방법을 제공한다.A computer-implemented topic structuring method, comprising: extracting a subtopic associated with the topic for each topic; Generating a topic tree for the subtopic using hierarchical information of the subject; And providing a sub-topic hierarchically as an associated search word for the query according to a topic tree of a topic to which the query belongs, when a query for searching is given.
일 측면에 따르면, 상기 추출하는 단계는, 상기 주제를 결정하는 핵심 오브젝트와 관련된 단어들을 분석하여 상기 서브토픽을 추출할 수 있다.According to an aspect, the extracting may include extracting the subtopic by analyzing words related to the core object that determines the subject.
다른 측면에 따르면, 상기 서브토픽을 문서 출현 빈도와 검색 빈도 중 적어도 하나에 따라 필터링 하는 단계를 더 포함할 수 있다.According to another aspect, the method may further include filtering the subtopic according to at least one of a document appearance frequency and a retrieval frequency.
또 다른 측면에 따르면, 상기 서브토픽을 유의어 또는 서브스트링(부분문자열) 관계에 따라 클러스터링 하여 각 클러스터의 대표를 선정하는 단계를 더 포함할 수 있다.According to another aspect, the method may further include clustering the subtopics according to a synonym or substring (substring) relationship to select a representative of each cluster.
또 다른 측면에 따르면, 상기 생성하는 단계는, 상기 서브토픽을 상기 계층 정보의 각 클래스 이름으로 레이블링(labeling) 하여 상기 토픽 트리를 생성할 수 있다.According to another aspect, the generating may include generating the topic tree by labeling the subtopic with each class name of the hierarchical information.
또 다른 측면에 따르면, 상기 생성하는 단계는, 상기 서브토픽에 대해 워드임베딩 데이터에서 유사 단어를 추출하는 단계; 상기 유사 단어를 유의어 또는 서브스트링(부분문자열) 관계에 따라 클러스터링 하는 단계; 및 상기 클러스터링 된 단어를 언어 분류학 상의 각 클래스에 매핑함으로써 레이블링 하는 단계를 포함할 수 있다.According to another aspect, the generating may include: extracting a similar word from word embedding data for the subtopic; Clustering the similar words according to a synonym or substring (substring) relationship; And labeling the clustered words by mapping them to respective classes in linguistic taxonomy.
또 다른 측면에 따르면, 상기 토픽 트리의 너비(breadth)와 깊이(depth) 중 적어도 하나를 줄여 상기 토픽 트리에 대한 리밸런싱(rebalancing)을 수행하는 단계를 더 포함할 수 있다.According to another aspect, the method may further include rebalancing the topic tree by reducing at least one of breadth and depth of the topic tree.
또 다른 측면에 따르면, 상기 제공하는 단계는, 상기 질의와 상기 서브토픽의 연관성을 나타내는 주제 점수와, 상기 서브토픽에 대응되는 문서 수, 및 상기 질의에 대한 정답성 토픽 여부 중 적어도 하나의 조건에 따라 상기 서브토픽을 필터링 하는 단계를 포함할 수 있다.According to another aspect, the providing may include at least one condition of a subject score indicating a correlation between the query and the subtopic, the number of documents corresponding to the subtopic, and whether or not the topic is correct for the query. And filtering the subtopics accordingly.
컴퓨터로 구현되는 검색 결과 제공 방법에 있어서, 검색을 위한 질의가 주어지면 상기 질의에 대응되는 검색 결과를 제공하는 단계; 상기 질의가 속한 주제의 계층 정보에 따라 상기 질의에 대한 연관 검색어로서 상기 주제와 관련된 서브토픽을 복수의 뎁스(depth)를 가진 계층형으로 제공하는 단계; 및 상기 서브토픽 중 적어도 하나의 검색어가 선택되는 경우 상기 선택된 검색어를 포함한 상기 질의에 대응되는 검색 결과를 제공하는 단계를 포함하는 검색 결과 제공 방법을 제공한다.A computer-implemented search result providing method comprising: providing a search result corresponding to a query given a query for searching; Providing a subtopic associated with the topic in a hierarchical form with a plurality of depths as an associated search word for the query according to the hierarchical information of the subject to which the query belongs; And providing a search result corresponding to the query including the selected search word when at least one search word is selected from the subtopics.
컴퓨터 시스템과 결합되어 토픽 구조화 방법을 실행시키기 위해 컴퓨터 판독 가능한 기록 매체에 기록된 컴퓨터 프로그램에 있어서, 상기 토픽 구조화 방법은, 주제 별로 상기 주제와 관련된 서브토픽을 추출하는 단계; 상기 서브토픽에 대해 상기 주제의 계층 정보를 이용하여 토픽 트리를 생성하는 단계; 및 검색을 위한 질의가 주어지면 상기 질의가 속한 주제의 토픽 트리에 따라 상기 질의에 대한 연관 검색어로서 상기 서브토픽을 계층형으로 제공하는 단계를 포함하는, 컴퓨터 프로그램을 제공한다.A computer program recorded on a computer readable recording medium in combination with a computer system to execute a topic structuring method, the topic structuring method comprising: extracting subtopics associated with the topic on a topic-by-topic basis; Generating a topic tree for the subtopic using hierarchical information of the subject; And if the query for search is given, providing the subtopics hierarchically as an associated search word for the query according to the topic tree of the topic to which the query belongs.
컴퓨터로 구현되는 토픽 구조화 시스템에 있어서, 컴퓨터가 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 주제 별로 상기 주제와 관련된 서브토픽을 추출하는 추출부; 상기 서브토픽에 대해 상기 주제의 계층 정보를 이용하여 토픽 트리를 생성하는 생성부; 및 검색을 위한 질의가 주어지면 상기 질의가 속한 주제의 토픽 트리에 따라 상기 질의에 대한 연관 검색어로서 상기 서브토픽을 계층형으로 제공하는 제공부를 포함하는 토픽 구조화 시스템을 제공한다.A topic structured system implemented in a computer, comprising: at least one processor configured to execute a computer readable instruction, the at least one processor comprising: an extracting unit configured to extract subtopics related to the topic for each topic; A generator configured to generate a topic tree for the subtopic using hierarchical information of the subject; And a providing unit providing the subtopics hierarchically as a related search word for the query according to a topic tree of a topic to which the query belongs, when a query for searching is given.
본 발명의 실시예들에 따르면, 특정 주제가 주어졌을 때 해당 주제에 적합한 서브토픽만을 추출하고 특정 주제에 적절한 계층 정보를 자동으로 구축한 후 사용자가 원하는 정도(세분화)에 따라 적절히 구조화하여 제시함으로써 주제에 적합하고 해당 질의와 관련된 세부적인 속성/소주제들을 사용자가 효율적으로 파악하고 실질적인 추가 탐색을 할 수 있도록 도와주는데 기여할 수 있다.According to embodiments of the present invention, when a specific topic is given, only the subtopics suitable for the topic are extracted, and hierarchical information is automatically constructed based on the specific topic, and then the subject is appropriately structured and presented according to the degree (segmentation) desired by the user. And attributes specific to the query that are relevant to the query and contribute to helping the user to efficiently identify and actually perform further navigation.
도 1은 본 발명의 일 실시예에 따른 네트워크 환경의 예를 도시한 도면이다.1 is a diagram illustrating an example of a network environment according to an embodiment of the present invention.
도 2는 본 발명의 일 실시예에 있어서, 전자 기기 및 서버의 내부 구성을 설명하기 위한 블록도이다.2 is a block diagram illustrating an internal configuration of an electronic device and a server according to an embodiment of the present invention.
도 3은 본 발명의 일 실시예에 있어서 패턴화 된 질의를 계층화 하는 과정의 예시를 도시한 도면이다.3 illustrates an example of a process of layering a patterned query according to an embodiment of the present invention.
도 4는 본 발명의 일 실시예에 따른 서버의 프로세서가 포함할 수 있는 구성요소의 예를 도시한 도면이다.4 is a diagram illustrating an example of components that may be included in a processor of a server according to an embodiment of the present invention.
도 5는 본 발명의 일 실시예에 따른 서버가 수행할 수 있는 방법의 예를 도시한 흐름도이다.5 is a flowchart illustrating an example of a method that a server may perform according to an embodiment of the present invention.
도 6은 본 발명의 일 실시예에 따라 '괌' 및 '감자'이라는 질의에 대하여 서브토픽 후보를 필터링 및 그룹핑하는 과정의 일 예를 나타낸 것이다.FIG. 6 shows an example of a process of filtering and grouping subtopic candidates for queries 'Guam' and 'potato' according to an embodiment of the present invention.
도 7은 본 발명의 일 실시예에 있어서 계층 정보를 구축하는 과정의 일례를 설명하기 위한 순서도이다.7 is a flowchart illustrating an example of a process of constructing hierarchical information according to an embodiment of the present invention.
도 8은 여행 주제에 대해서 클러스터링 및 언어 분류학을 이용하여 구축한 계층 정보의 일 예를 보여준다.8 shows an example of hierarchical information constructed by using clustering and language taxonomy for a travel subject.
도 9는 본 발명의 일 실시예에 따라 구축된 토픽 네트워크를 깊이가 2인 트리(2-depth 트리)로 변환하는 과정의 예시를 도시한 것이다.9 illustrates an example of a process of converting a topic network constructed according to an embodiment of the present invention into a tree having a depth of 2 (2-depth tree).
도 10은 본 발명의 일 실시예에 있어서 트리 리밸런싱 과정의 일례를 설명하기 위한 순서도이다.10 is a flowchart illustrating an example of a tree rebalancing process according to an embodiment of the present invention.
도 11 내지 도 12는 본 발명의 일 실시예에 따른 트리 리밸런싱 과정의 예시들을 나타내는 도면이다.11 to 12 are diagrams illustrating examples of a tree rebalancing process according to an embodiment of the present invention.
도 13 내지 도 14는 본 발명의 일 실시예에 있어서 2 뎁스 토픽 구조가 반영된 검색 결과 화면의 예시를 도시한 도면이다.13 to 14 illustrate examples of a search result screen in which a 2-depth topic structure is reflected according to an embodiment of the present invention.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.
본 발명의 실시예들은 질의에 적합한 서브토픽을 자동 추출하고 구조화 하는 기술에 관한 것이다.Embodiments of the present invention relate to techniques for automatically extracting and structuring subtopics suitable for queries.
본 명세서에서 구체적으로 개시되는 것들을 포함하는 실시예들은 주제가 분명한 질의의 토픽을 제공하고 효율적인 정보 탐색을 위한 토픽의 구조화가 가능하고, 이를 통해 정확성, 효율성, 확장성, 비용 절감 등의 측면에 있어서 상당한 장점들을 달성한다.Embodiments, including those specifically disclosed herein, provide topical query topics and allow for the organization of topics for efficient information retrieval, thereby providing significant improvements in terms of accuracy, efficiency, scalability, cost savings, and the like. Achieve the advantages.
도 1은 본 발명의 일 실시예에 따른 네트워크 환경의 예를 도시한 도면이다. 도 1의 네트워크 환경은 복수의 전자 기기들(110, 120, 130, 140), 복수의 서버들(150, 160) 및 네트워크(170)를 포함하는 예를 나타내고 있다. 이러한 도 1은 발명의 설명을 위한 일례로 전자 기기의 수나 서버의 수가 도 1과 같이 한정되는 것은 아니다.1 is a diagram illustrating an example of a network environment according to an embodiment of the present invention. The network environment of FIG. 1 illustrates an example including a plurality of electronic devices 110, 120, 130, and 140, a plurality of servers 150 and 160, and a network 170. 1 is an example for describing the present invention, and the number of electronic devices or the number of servers is not limited as shown in FIG. 1.
복수의 전자 기기들(110, 120, 130, 140)은 컴퓨터 장치로 구현되는 고정형 단말이거나 이동형 단말일 수 있다. 복수의 전자 기기들(110, 120, 130, 140)의 예를 들면, 스마트폰(smart phone), 휴대폰, 태블릿 PC, 내비게이션, 컴퓨터, 노트북, 디지털방송용 단말, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player) 등이 있다. 일례로 제1 전자 기기(110)는 무선 또는 유선 통신 방식을 이용하여 네트워크(170)를 통해 다른 전자 기기들(120, 130, 140) 및/또는 서버(150, 160)와 통신할 수 있다.The plurality of electronic devices 110, 120, 130, and 140 may be fixed terminals or mobile terminals implemented as computer devices. Examples of the plurality of electronic devices 110, 120, 130, and 140 include smart phones, mobile phones, tablet PCs, navigation systems, computers, notebook computers, digital broadcasting terminals, personal digital assistants (PDAs), and PMPs ( Portable Multimedia Player). For example, the first electronic device 110 may communicate with other electronic devices 120, 130, 140 and / or the server 150, 160 through the network 170 using a wireless or wired communication scheme.
통신 방식은 제한되지 않으며, 네트워크(170)가 포함할 수 있는 통신망(일례로, 이동통신망, 유선 인터넷, 무선 인터넷, 방송망)을 활용하는 통신 방식뿐만 아니라 기기들간의 근거리 무선 통신 역시 포함될 수 있다. 예를 들어, 네트워크(170)는, PAN(personal area network), LAN(local area network), CAN(campus area network), MAN(metropolitan area network), WAN(wide area network), BBN(broadband network), 인터넷 등의 네트워크 중 하나 이상의 임의의 네트워크를 포함할 수 있다. 또한, 네트워크(170)는 버스 네트워크, 스타 네트워크, 링 네트워크, 메쉬 네트워크, 스타-버스 네트워크, 트리 또는 계층적(hierarchical) 네트워크 등을 포함하는 네트워크 토폴로지 중 임의의 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다.The communication method is not limited, and may include not only a communication method using a communication network (for example, a mobile communication network, a wired internet, a wireless internet, a broadcasting network) that the network 170 may include, but also a short range wireless communication between devices. For example, the network 170 may include a personal area network (PAN), a local area network (LAN), a campus area network (CAN), a metropolitan area network (MAN), a wide area network (WAN), and a broadband network (BBN). And one or more of networks such as the Internet. The network 170 may also include any one or more of network topologies, including bus networks, star networks, ring networks, mesh networks, star-bus networks, trees, or hierarchical networks, but It is not limited.
서버(150, 160) 각각은 복수의 전자 기기들(110, 120, 130, 140)과 네트워크(170)를 통해 통신하여 명령, 코드, 파일, 컨텐츠, 서비스 등을 제공하는 컴퓨터 장치 또는 복수의 컴퓨터 장치들로 구현될 수 있다.Each of the servers 150 and 160 communicates with the plurality of electronic devices 110, 120, 130, and 140 through the network 170 to provide a command, code, file, content, service, or the like. It may be implemented in devices.
일례로, 서버(160)는 네트워크(170)를 통해 접속한 제1 전자 기기(110)로 어플리케이션의 설치를 위한 파일을 제공할 수 있다. 이 경우 제1 전자 기기(110)는 서버(160)로부터 제공된 파일을 이용하여 어플리케이션을 설치할 수 있다. 또한, 제1 전자 기기(110)가 포함하는 운영체제(Operating System, OS)나 적어도 하나의 프로그램(일례로 브라우저나 상기 설치된 어플리케이션)의 제어에 따라 서버(150)에 접속하여 서버(150)가 제공하는 서비스나 컨텐츠를 제공받을 수 있다. 예를 들어, 제1 전자 기기(110)가 어플리케이션의 제어에 따라 네트워크(170)를 통해 서비스 요청 메시지를 서버(150)로 전송하면, 서버(150)는 서비스 요청 메시지에 대응하는 코드를 제1 전자 기기(110)로 전송할 수 있고, 제1 전자 기기(110)는 어플리케이션의 제어에 따라 코드에 따른 화면을 구성하여 표시함으로써 사용자에게 컨텐츠를 제공할 수 있다.For example, the server 160 may provide a file for installing an application to the first electronic device 110 connected through the network 170. In this case, the first electronic device 110 may install an application using a file provided from the server 160. In addition, the server 150 is provided by accessing the server 150 under the control of an operating system (OS) included in the first electronic device 110 or at least one program (for example, a browser or the installed application). Can be provided with services or content. For example, when the first electronic device 110 transmits a service request message to the server 150 through the network 170 under the control of the application, the server 150 sends a code corresponding to the service request message to the first. The electronic device 110 may transmit the content to the electronic device 110, and the first electronic device 110 may provide content to the user by configuring and displaying a screen according to a code according to the control of the application.
도 2는 본 발명의 일 실시예에 있어서, 전자 기기 및 서버의 내부 구성을 설명하기 위한 블록도이다. 도 2에서는 하나의 전자 기기에 대한 예로서 제1 전자 기기(110), 그리고 하나의 서버에 대한 예로서 서버(150)의 내부 구성을 설명한다. 다른 전자 기기들(120, 130, 140)이나 서버(160) 역시 동일한 또는 유사한 내부 구성을 가질 수 있다.2 is a block diagram illustrating an internal configuration of an electronic device and a server according to an embodiment of the present invention. 2 illustrates an internal configuration of the first electronic device 110 as an example of one electronic device and the server 150 as an example of one server. Other electronic devices 120, 130, 140 or server 160 may also have the same or similar internal configuration.
제1 전자 기기(110)와 서버(150)는 메모리(211, 221), 프로세서(212, 222), 통신 모듈(213, 223) 그리고 입출력 인터페이스(214, 224)를 포함할 수 있다. 메모리(211, 221)는 컴퓨터에서 판독 가능한 기록 매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 또한, 메모리(211, 221)에는 운영체제나 적어도 하나의 프로그램 코드(일례로 제1 전자 기기(110)에 설치되어 구동되는 어플리케이션 등을 위한 코드)가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 메모리(211, 221)와는 별도의 컴퓨터에서 판독 가능한 기록 매체로부터 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록 매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록 매체를 포함할 수 있다. 다른 실시예에서 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록 매체가 아닌 통신 모듈(213, 223)을 통해 메모리(211, 221)에 로딩될 수도 있다. 예를 들어, 적어도 하나의 프로그램은 개발자들 또는 어플리케이션의 설치 파일을 배포하는 파일 배포 시스템(일례로 상술한 서버(160))이 네트워크(170)를 통해 제공하는 파일들에 의해 설치되는 프로그램(일례로 상술한 어플리케이션)에 기반하여 메모리(211, 221)에 로딩될 수 있다.The first electronic device 110 and the server 150 may include memories 211 and 221, processors 212 and 222, communication modules 213 and 223, and input / output interfaces 214 and 224. The memories 211 and 221 are computer-readable recording media, and may include non-volatile permanent storage devices such as random access memory (RAM), read only memory (ROM), and disk drives. In addition, the memory 211 and 221 may store an operating system or at least one program code (for example, a code for an application installed in the first electronic device 110 and driven). These software components may be loaded from a computer readable recording medium separate from the memories 211 and 221. Such a separate computer-readable recording medium may include a computer-readable recording medium such as a floppy drive, a disk, a tape, a DVD / CD-ROM drive, a memory card, and the like. In other embodiments, software components may be loaded into the memory 211, 221 through the communication module 213, 223 rather than a computer readable recording medium. For example, the at least one program is a program installed by files provided by the file distribution system (for example, the server 160 described above) through the network 170 for distributing installation files of developers or applications (for example, It can be loaded into the memory (211, 221) based on the above-described application).
프로세서(212, 222)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(211, 221) 또는 통신 모듈(213, 223)에 의해 프로세서(212, 222)로 제공될 수 있다. 예를 들어 프로세서(212, 222)는 메모리(211, 221)와 같은 기록 장치에 저장된 프로그램 코드에 따라 수신되는 명령을 실행하도록 구성될 수 있다. Processors 212 and 222 may be configured to process instructions of a computer program by performing basic arithmetic, logic, and input / output operations. Instructions may be provided to the processors 212, 222 by the memory 211, 221 or the communication modules 213, 223. For example, the processors 212 and 222 may be configured to execute a command received according to a program code stored in a recording device such as the memory 211 and 221.
통신 모듈(213, 223)은 네트워크(170)를 통해 제1 전자 기기(110)와 서버(150)가 서로 통신하기 위한 기능을 제공할 수 있으며, 다른 전자 기기(일례로 제2 전자 기기(120)) 또는 다른 서버(일례로 서버(160))와 통신하기 위한 기능을 제공할 수 있다. 일례로, 제1 전자 기기(110)의 프로세서(212)가 메모리(211)와 같은 기록 장치에 저장된 프로그램 코드에 따라 생성한 요청(일례로 검색 요청)이 통신 모듈(213)의 제어에 따라 네트워크(170)를 통해 서버(150)로 전달될 수 있다. 역으로, 서버(150)의 프로세서(222)의 제어에 따라 제공되는 제어 신호나 명령, 컨텐츠, 파일 등이 통신 모듈(223)과 네트워크(170)를 거쳐 제1 전자 기기(110)의 통신 모듈(213)을 통해 제1 전자 기기(110)로 수신될 수 있다. 예를 들어 통신 모듈(213)을 통해 수신된 서버(150)의 제어 신호나 명령 등은 프로세서(212)나 메모리(211)로 전달될 수 있고, 컨텐츠나 파일 등은 제1 전자 기기(110)가 더 포함할 수 있는 저장 매체로 저장될 수 있다.The communication modules 213 and 223 may provide a function for the first electronic device 110 and the server 150 to communicate with each other through the network 170. The other electronic device (eg, the second electronic device 120) may be provided. ) Or other server (eg, server 160). For example, a request (eg, a search request) generated by the processor 212 of the first electronic device 110 according to a program code stored in a recording device such as the memory 211 may be controlled according to the control of the communication module 213. It may be delivered to the server 150 through 170. Conversely, control signals, commands, contents, files, and the like provided according to the control of the processor 222 of the server 150 are transmitted to the communication module of the first electronic device 110 via the communication module 223 and the network 170. It may be received by the first electronic device 110 through 213. For example, a control signal or command of the server 150 received through the communication module 213 may be transmitted to the processor 212 or the memory 211, and the content or file may be transmitted to the first electronic device 110. May be stored as a storage medium that may further include.
입출력 인터페이스(214)는 입출력 장치(215)와의 인터페이스를 위한 수단일 수 있다. 예를 들어, 입력 장치는 키보드 또는 마우스 등의 장치를, 그리고 출력 장치는 어플리케이션의 통신 세션을 표시하기 위한 디스플레이와 같은 장치를 포함할 수 있다. 다른 예로 입출력 인터페이스(214)는 터치스크린과 같이 입력과 출력을 위한 기능이 하나로 통합된 장치와의 인터페이스를 위한 수단일 수도 있다. 보다 구체적인 예로, 제1 전자 기기(110)의 프로세서(212)는 메모리(211)에 로딩된 컴퓨터 프로그램의 명령을 처리함에 있어서 서버(150)나 제2 전자 기기(120)가 제공하는 데이터를 이용하여 구성되는 서비스 화면이나 컨텐츠가 입출력 인터페이스(214)를 통해 디스플레이에 표시될 수 있다. 입출력 인터페이스(224) 또한 마찬가지로 서버(150)의 프로세서(222)가 메모리(221)에 로딩된 컴퓨터 프로그램의 명령을 처리함에 있어 서버(150)가 제공하는 데이터를 이용하여 구성되는 정보를 출력할 수 있다.The input / output interface 214 may be a means for interfacing with the input / output device 215. For example, the input device may include a device such as a keyboard or mouse, and the output device may include a device such as a display for displaying a communication session of an application. As another example, the input / output interface 214 may be a means for interfacing with a device in which functions for input and output are integrated into one, such as a touch screen. More specifically, the processor 212 of the first electronic device 110 uses data provided by the server 150 or the second electronic device 120 in processing a command of a computer program loaded in the memory 211. The service screen or contents configured to be displayed on the display may be displayed through the input / output interface 214. Similarly, the input / output interface 224 may output information configured using data provided by the server 150 when the processor 222 of the server 150 processes a command of a computer program loaded in the memory 221. have.
또한, 다른 실시예들에서 제1 전자 기기(110) 및 서버(150)는 도 2의 구성요소들보다 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 제1 전자 기기(110)는 상술한 입출력 장치(215) 중 적어도 일부를 포함하도록 구현되거나 또는 트랜시버(transceiver), GPS(Global Positioning System) 모듈, 카메라, 각종 센서, 데이터베이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다. 보다 구체적인 예로, 제1 전자 기기(110)가 스마트폰인 경우, 일반적으로 스마트폰이 포함하고 있는 가속도 센서나 자이로 센서, 카메라, 각종 물리적인 버튼, 터치패널을 이용한 버튼, 입출력 포트, 진동을 위한 진동기 등의 다양한 구성요소들이 제1 전자 기기(110)에 더 포함되도록 구현될 수 있음을 알 수 있다.In addition, in other embodiments, the first electronic device 110 and the server 150 may include more components than those of FIG. 2. However, it is not necessary to clearly show most of the prior art components. For example, the first electronic device 110 may be implemented to include at least a part of the above-described input / output device 215 or may be other such as a transceiver, a Global Positioning System (GPS) module, a camera, various sensors, a database, or the like. It may further include components. More specifically, when the first electronic device 110 is a smartphone, an acceleration sensor, a gyro sensor, a camera, various physical buttons, a button using a touch panel, an input / output port, and vibration for a smartphone generally include It can be appreciated that various components such as a vibrator may be implemented to be further included in the first electronic device 110.
이하에서는 주제별 질의의 서브토픽 자동 추출 및 구조화를 위한 토픽 구조화 방법 및 토픽 구조화 시스템의 구체적인 실시예를 설명하기로 한다.Hereinafter, a specific embodiment of a topic structuring method and a topic structuring system for automatically extracting and structuring subtopics of a topic-specific query will be described.
한번의 질의에 대해 최대한 다양한 검색 결과를 제공하고 효율적인 정보 탐색을 가능하게 하기 위해서는 토픽의 구조화(그룹화 및 계층화)가 필요하다.Topic structuring (grouping and hierarchical) is required to provide as many search results as possible in one query and to enable efficient information retrieval.
검색 시스템이 사용자가 입력한 질의의 검색 결과를 제공할 때 검색 조건에 매칭된 문서들 외에 사용자의 추가 탐색을 도와주는 여러 가지 기능을 함께 제공한다. 대표적인 것으로 연관 검색어, 연관 태그, 검색어 자동 완성 등이 존재한다. 이러한 기능들은 다음과 같은 점에서 유용하다고 볼 수 있다.When a search system provides a search result of a query input by a user, the search system provides various functions to help the user further search in addition to the documents matching the search condition. Typical examples include related search terms, related tags, and automatic completion of search terms. These features are useful in the following ways.
첫째, 사용자가 알고자 하는 정보와 관련된 질의명을 명확히 알지 못할 경우 질의를 추천해주는 기능을 한다.First, it recommends a query if the user does not know the name of the query related to the information he wants to know.
둘째, 해당 질의와 관련된 세부적인 속성/소주제들을 사용자가 간접적으로 파악할 수 있게 한다.Second, the user can indirectly grasp the detailed attributes / subtopics related to the query.
그러나, "연관"이라는 관계는 다음과 같은 한계점을 가진다.However, the relationship "association" has the following limitations.
첫째, "연관"이라는 관계가 모호하여 해당 질의와의 구체적인 관계(예: 상/하위개념, 유의어 또는 형제개념)를 알 수 가 없다. 따라서, 제공되는 검색어나 태그의 수가 많아지면 구조적으로 정렬하기 어렵고, 이러한 점 때문에 사용자 이용 관점에서 사용자에게 제공하는 수를 줄일 수 밖에 없다.First, the relationship "association" is ambiguous, so the specific relationship with the query (eg, parent / child concept, synonym or sibling concept) cannot be known. Therefore, when the number of search terms or tags provided increases, it is difficult to arrange the structure structurally, and thus, the number provided to the user can be reduced from the viewpoint of user use.
둘째, 질의가 중의성을 가지는 경우 각 의미에 따라 연관된 검색어나 태그가 정리되지 않은 상태로 제공되어 추가 탐색에 그다지 도움이 되지 않는다.Second, if the query has significance, the associated search terms or tags are provided unorganized according to each meaning, so that it is not very helpful for further searching.
한편, 쇼핑 의도가 있는 질의의 경우 사용자가 원하는 상품의 탐색을 도와주기 위해 제공되는 계층 정보가 존재한다. 제품의 브랜드, 색상, 가격 등 그 계층이 매우 체계적이라 빠르고 효율적인 탐색에 도움이 되긴 하지만, 이러한 정보는 각 판매 업체들이 수동으로 입력한 정보들이라 확장성에 한계를 가지며, 또한 쇼핑 질의에 대해서만 잘 적용되는 한계점이 있다.Meanwhile, in the case of a query intended to be shopping, hierarchical information provided to help a user search for a desired product exists. Although the product's brand, color, price, etc. are very systematic, it helps to search quickly and efficiently. However, this information is manually entered by each seller, which limits its scalability and also applies only to shopping queries. There are limitations.
본 발명에서는 사용자의 추가 탐색을 도와주면서 해당 질의와 관련된 세부적인 속성/소주제들을 사용자가 효율적으로 파악할 수 있도록 하는 기능은 가지되, 위에서 서술한 한계점을 해결할 수 있는 서브토픽 자동 추출 및 구조화 기술을 제안한다.The present invention has a function to enable the user to efficiently grasp the detailed attributes / subtopics related to the query while helping the user further search, and propose an automatic subtopic extraction and structured technique that can solve the above-mentioned limitations. do.
본 발명에 따른 토픽 구조화 시스템의 핵심 내용은 다음과 같다.The key contents of the topic structuring system according to the present invention are as follows.
(1) 토픽 구조화 시스템은 주제 별 주요 질의를 "메인 오브젝트+서브토픽"으로 패턴화 한다. 이때, 메인 오브젝트는 주제를 결정하는 핵심 오브젝트를 의미하고, 서브토픽은 서브 오브젝트와 속성 중 적어도 하나를 포함한다. 서브 오브젝트는 주제를 구체화 하는 오브젝트를 의미하고, 속성은 suffix 또는 prefix 등으로 주제의 속성을 나타내는 단어를 의미한다.(1) Topic structuring system patterns main queries by topic into "main object + subtopic". In this case, the main object refers to a core object that determines a subject, and the subtopic includes at least one of a sub object and an attribute. The sub object refers to an object that embodies the subject, and the attribute refers to a word representing an attribute of the subject such as suffix or prefix.
(2) 토픽 구조화 시스템은 서브 오브젝트와 속성들의 의미 관계에 따라 패턴화 된 질의들을 계층화 한다. 도 3은 본 발명의 일 실시예에 있어서 패턴화 된 질의를 계층화 하는 과정의 예시를 도시한 도면이다. 도 3에 도시한 바와 같이, 특정 주제의 질의, 즉 메인 오브젝트(MainObj)를 기준으로 메인 오브젝트(MainObj)와 서브토픽들(SubObj, Suffix)을 계층화 할 수 있다.(2) The topic structuring system hierarchies the patterned queries according to the semantic relationship of sub-objects and attributes. 3 illustrates an example of a process of layering a patterned query according to an embodiment of the present invention. As shown in FIG. 3, the main object MainObj and the subtopics SubObj and Suffix may be layered based on a query of a specific subject, that is, the main object MainObj.
(3) 토픽 구조화 시스템은 계층화 된 질의와 서브토픽을 검색 결과(문서)와 함께 사용자에게 제공할 수 있다. 이때, 토픽 구조화 시스템은 사용자가 원하는 정도(세분화)에 따라 서브토픽을 적절히 구조화 하여 제시함으로써 주제에 적합하고 해당 질의와 관련된 세부적인 서브토픽들을 사용자가 효율적으로 파악하고 실질적인 추가 탐색을 도와주는데 기여할 수 있다.(3) The topic structuring system can provide hierarchical queries and subtopics with the search results (documents) to the user. At this time, the topic structuring system can contribute to help the user to efficiently identify detailed subtopics that are suitable for the topic and related to the query and to assist the actual additional search by structuring and presenting the subtopic according to the degree (segmentation) desired by the user. have.
도 4는 본 발명의 일 실시예에 따른 서버의 프로세서가 포함할 수 있는 구성요소의 예를 도시한 도면이고, 도 5는 본 발명의 일 실시예에 따른 서버가 수행할 수 있는 방법의 예를 도시한 흐름도이다.4 is a diagram illustrating an example of components that may be included in a processor of a server according to an embodiment of the present invention, and FIG. 5 is an example of a method that may be performed by a server according to an embodiment of the present invention. It is a flowchart shown.
도 4에 도시된 바와 같이 서버(150)의 프로세서(222)는 구성요소들로서 추출부(410), 정제부(420), 생성부(430), 조정부(440), 및 제공부(450)를 포함할 수 있다. 이러한 프로세서(222) 및 프로세서(222)의 구성요소들은 도 5의 방법이 포함하는 단계들(S510 내지 S550)을 수행하도록 서버(150)를 제어할 수 있다. 이때, 프로세서(222) 및 프로세서(222)의 구성요소들은 메모리(221)가 포함하는 운영체제의 코드와 적어도 하나의 프로그램의 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다. 또한, 프로세서(222)의 구성요소들은 운영체제나 적어도 하나의 프로그램이 제공하는 제어 명령에 따라 프로세서(222)에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 예를 들어, 프로세서(222)가 상술한 제어 명령에 따라 메인 오브젝트와 서브토픽을 추출하는 기능적 표현으로서 추출부(410)가 사용될 수 있다.As shown in FIG. 4, the processor 222 of the server 150 may include the extractor 410, the refiner 420, the generator 430, the adjuster 440, and the provider 450 as components. It may include. The processor 222 and the components of the processor 222 may control the server 150 to perform the steps S510 to S550 included in the method of FIG. 5. In this case, the processor 222 and the components of the processor 222 may be implemented to execute instructions according to code of an operating system included in the memory 221 and code of at least one program. In addition, the components of the processor 222 may be representations of different functions performed by the processor 222 according to a control command provided by an operating system or at least one program. For example, the extractor 410 may be used as a functional expression for the processor 222 to extract the main object and the subtopic according to the above-described control command.
프로세서(222)의 구성요소들을 먼저 살펴보면 다음과 같다.The components of the processor 222 will be described first as follows.
추출부(410)의 MainObj+Suffix 추출 모듈은 주제 별로 메인 오브젝트 및 속성을 추출한다. 메인 오브젝트와 속성을 추출하기 위해서는 자연어 이해(Natural Language Understanding) 기술이 사용될 수 있다.The MainObj + Suffix extraction module of the extractor 410 extracts main objects and attributes by subject. Natural language understanding technology can be used to extract main objects and attributes.
추출부(410)의 SubObj 추출 모듈은 각 주제에 대해 메인 오브젝트+(속성)이 있을 때 서브 오브젝트를 추출한다. 서브 오브젝트를 추출하기 위해서는 여러 가지 통계 정보(예컨대, 클릭 수, 좋아요 수, 댓글 수, 작성자 수 등)나 사전(dictionary) 정보 등을 이용할 수 있다.The SubObj extraction module of the extraction unit 410 extracts a sub object when there is a main object + (property) for each subject. In order to extract the sub object, various statistical information (eg, clicks, likes, comments, authors, etc.) or dictionary information may be used.
정제부(420)의 Ranker (Suffix Ranker, SubObj Ranker) 모듈은 메인 오브젝트에 대하여 서브 오브젝트 및/또는 속성을 중요도 순으로 랭킹을 결정한다. 이때, 중요도를 결정하기 위해서 사용자로부터 클릭된 수, 좋아요 수, 댓글 수, 작성자 수 등 여러 가지 정보가 활용될 수 있다.The ranker (Suffix Ranker, SubObj Ranker) module of the refiner 420 determines the ranking of sub-objects and / or attributes in order of importance with respect to the main object. In this case, various information such as the number of clicks, the number of likes, the number of comments, and the number of authors may be utilized to determine the importance.
정제부(420)의 Post-Processor (Post-Processor Ranker, Post-Processor Ranker) 모듈은 랭킹이 결정된 서브 오브젝트 및/또는 속성을 받아 유의어나 서브스트링(부분문자열) 관계에 따라 이를 클러스터링하고 각 클러스터의 대표 값을 선정한다.The Post-Processor (Post-Processor Ranker, Post-Processor Ranker) module of the refiner 420 receives the ranked sub-objects and / or attributes and clusters them according to synonyms or substring (substring) relationships and Select a representative value.
생성부(430)의 TopicGraphToTree 모듈은 클러스터링 된 서브 오브젝트 및/또는 속성을 모아 질의나 문서에서 얼마나 같이 자주 나타나는지 관계 강도를 찾은 후 이를 네트워크(그래프) 구조로 만든 다음 트리(검색/클러스터 기반 트리)로 변환하게 된다. 구체적인 검색/클러스터 기반 트리에 대한 설명은 아래에서 기술하기로 한다.The TopicGraphToTree module of the generator 430 collects clustered sub-objects and / or attributes, finds the relationship strength of how often they appear in a query or document, creates a network (graph) structure, and then creates a tree (search / cluster-based tree). Will be converted. A detailed search / cluster-based tree will be described below.
생성부(430)의 TreeConstructor 모듈은 사전 기반 트리와 검색/클러스터 기반 트리 구조를 통합하여 최종 토픽 트리(예를 들면, 2-depth 트리 구조)를 구성한다.The TreeConstructor module of the generator 430 integrates a dictionary-based tree and a search / cluster-based tree structure to form a final topic tree (eg, a 2-depth tree structure).
조정부(440)의 Topic reranker 모듈은 토픽 트리에 대해 필터링 조건(일례로, 문서 수, 주제 적합도, 정답성 여부 등)에 따라 추가 필터링 한다.The Topic Reranker module of the adjuster 440 further filters the topic tree according to filtering conditions (eg, the number of documents, subject suitability, correctness, etc.).
조정부(440)의 New Object Assigner 모듈은 메인 오브젝트와 관련된 새로운 아이템을 추출하여 원 트리 구조에 할당한다. 만일 트리 구조에 맞지 않을 정도로 새로운 아이템이 많아지는 경우 처음부터 프로세스를 다시 진행하여 트리를 새로 구성한다.The New Object Assigner module of the adjusting unit 440 extracts and assigns a new item related to the main object to the original tree structure. If there are a lot of new items that do not fit in the tree structure, the process is restarted from the beginning to reconstruct the tree.
제공부(450)의 Document Finding API 모듈은 최종 토픽 트리를 바탕으로 질의를 구성하여 적합 문서를 추출한다. 이때, 필터링 기능도 포함될 수 있다.The Document Finding API module of the providing unit 450 constructs a query based on the final topic tree to extract a suitable document. In this case, a filtering function may also be included.
제공부(450)의 Auto-Tagger 모듈은 최종 토픽 트리를 바탕으로 토픽 태그를 구성하여 적합 문서에 태깅한다.The Auto-Tagger module of the providing unit 450 constructs a topic tag based on the final topic tree and tags it in a suitable document.
상기한 구성요소를 포함하는 프로세서(222)를 통해 도 5의 방법이 포함하는 단계들(S510 내지 S550)을 수행할 수 있다.Steps S510 to S550 included in the method of FIG. 5 may be performed through the processor 222 including the above components.
도 5에서, 단계(S510)에서 추출부(410)는 각 주제 별로 해당 주제를 결정하는 핵심 오브젝트인 메인 오브젝트와 해당 주제를 구체화 하는 서브토픽을 추출할 수 있다. 이때, 추출부(410)는 문서 상에 메인 오브젝트와 함께 자주 등장하는 단어들을 분석하거나 검색 시스템에서 메인 오브젝트와 함께 검색에 자주 이용되는 단어들을 분석하여 서브 오브젝트 및/또는 속성 후보들을 추출할 수 있다.In FIG. 5, in operation S510, the extractor 410 may extract a main object, which is a core object for determining a corresponding subject, and a subtopic that embodies the corresponding subject for each subject. In this case, the extractor 410 may extract sub-objects and / or attribute candidates by analyzing words frequently appearing with the main object on the document or by analyzing words frequently used in the search system with the main object. .
단계(S520)에서 정제부(420)는 서브토픽을 문서 내 출현 빈도나 검색 빈도에 따라 필터링 한 후 단어 간 관계에 의한 그룹핑을 수행할 수 있다. 후보 필터링 과정에서는 서브 오브젝트 및/또는 속성 후보들 중 적어도 일부를 필터링 하여 사용할 수 있다. 구체적인 일례로, 정제부(420)는 문서 내 출현 빈도 및 사용자의 검색 빈도 중 적어도 하나에 따라 서브 오브젝트 및/또는 속성을 필터링할 수 있다. 또한, 출현 빈도를 특정 기간의 데이터 한정하여 필터링 할 수 있다. 이때, 필터링 방법은 주제의 특성에 따라 달라질 수 있는데, 예를 들어 시의성이 높은 주제라면 최근 일정 기간(예를 들어, 현재로부터 1주일 전까지의 기간) 데이터를 필터링 할 수 있다. 그리고, 정제부(420)는 후보 필터링 과정을 통해 선정된 서브 오브젝트 및/또는 속성 후보들을 유의어, 서브스트링 관계 등을 고려하여 그룹핑 할 수 있으며, 그룹핑 후 각 그룹마다 대표를 선정할 수 있다. 대표를 선정하는 방법은 다양할 수 있는데, 일 실시예로서는 검색 빈도가 제일 높은 것을 대표로 선정할 수 있다. 다시 말해, 정제부(420)는 서브토픽을 중요도(예컨대, 문서 내 출현 빈도, 검색 빈도 등) 순으로 랭킹한 후 랭킹된 서브토픽을 유의어나 서브스트링 관계에 따라 클러스터링 하고 각 클러스터의 대표를 선정할 수 있다. 상기한 서브토픽의 추출 및 정제 과정은 후보 선정, 그룹핑/대표선정 과정으로 이루어진다. 도 6은 본 발명의 일 실시예에 따라 '괌' 및 '감자'이라는 질의에 대하여 후보를 필터링, 그룹핑 및 대표 토픽을 선정하는 과정의 일 예를 나타낸 것이다. 도 6에서 WTRIP 및 FOOD는 질의의 주제를 나타내는 분류 코드(카테고리 분류 코드)이고, 단어 옆의 숫자는 질의와 함께 연관되어 검색된 빈도수를 나타내는 것이다.In operation S520, the refiner 420 may filter the subtopics according to the appearance frequency or the search frequency in the document and then perform grouping based on the relationship between words. In the candidate filtering process, at least some of the sub object and / or attribute candidates may be filtered. As a specific example, the refiner 420 may filter the sub-object and / or the attribute according to at least one of the frequency of appearance in the document and the search frequency of the user. In addition, the frequency of appearance can be filtered by limiting data of a specific period. In this case, the filtering method may vary according to the characteristics of the subject. For example, if the subject has high timeliness, the data may be filtered recently for a certain period (for example, one week before the present). In addition, the refiner 420 may group the selected sub-objects and / or attribute candidates through the candidate filtering process in consideration of a substring relation and the like, and may select a representative for each group after grouping. The method of selecting a representative may be various. In one embodiment, the representative may be selected to have the highest search frequency. In other words, the refiner 420 ranks subtopics in order of importance (eg, frequency of appearance in documents, search frequency, etc.), clusters the ranked subtopics according to a synonym or substring relationship, and selects a representative of each cluster. can do. Extraction and purification of the subtopics consists of candidate selection and grouping / representation. FIG. 6 illustrates an example of a process of filtering, grouping, and selecting a representative topic for candidates for queries 'Guam' and 'potato' according to an embodiment of the present invention. In FIG. 6, WTRIP and FOOD are classification codes (category classification codes) indicating the subject of the query, and the number next to the words indicates the frequencies retrieved associated with the query.
다시 도 5에서, 단계(S530)에서 생성부(430)는 그룹핑 된 서브토픽에 대해 해당 주제의 계층 정보를 이용하여 토픽 트리를 생성할 수 있다. 생성부(430)는 각 그룹핑된 서브토픽을 계층 정보를 활용하여 계층의 각 클래스 이름에 맞도록 레이블링(labeling) 함으로써 토픽 트리를 생성할 수 있다. 주제에 따라 계층 정보가 아마 존재하는 경우와 계층 정보가 존재하지 않는 경우가 있다. 예를 들어, 다양한 종류의 컨텐츠를 포함하고 있는 데이터베이스로부터 구축된 사전 정보는 계층 정보에 유용하게 활용할 수 있는 정보의 하나이다. 이때, 생성부(430)는 사전 정보와 같이 기 존재하는 계층 정보가 있는 경우 이를 기반으로 토픽 트리를 생성할 수 있다. 예를 들어, 요리나 레시피 주제는 요리백과사전을 기반으로 한 풍부한 계층 정보가 존재한다. 반면에, 여행이나 쇼핑 주제는 계층 정보가 존재하지 않고, 시기에 따라서 다양한 서브토픽이 생성되거나 변경될 수 있다. 생성부(430)는 계층 정보가 존재하지 않는 경우 워드임베딩(word embedding) 기반의 클러스터링 기법과 언어 분류학(taxonomy)을 기초로 계층 정보를 구축하여 토픽 트리를 생성하는데 활용할 수 있다. 본 발명은 계층 정보가 존재하지 않는 경우에도 자동적으로 토픽을 계층화 할 수 있다는 점에 장점이 있다.Referring back to FIG. 5, in operation S530, the generation unit 430 may generate a topic tree for the grouped subtopics using hierarchical information on the corresponding subject. The generation unit 430 may generate a topic tree by labeling each grouped subtopic to match each class name of the hierarchy by using hierarchy information. Depending on the subject, there is a case where hierarchical information probably exists and there is no hierarchical information. For example, dictionary information constructed from a database containing various kinds of contents is one of information that can be usefully used for hierarchical information. In this case, the generation unit 430 may generate a topic tree based on the existing hierarchical information such as dictionary information. For example, cooking or recipe topics have a rich hierarchy of information based on a cooking encyclopedia. On the other hand, travel or shopping topics do not have hierarchical information, and various subtopics may be created or changed depending on time. If the layer information does not exist, the generation unit 430 may be used to generate a topic tree by constructing the layer information based on a word embedding-based clustering technique and a taxonomy. The present invention has an advantage in that a topic can be automatically layered even when there is no layer information.
도 7은 본 발명의 일 실시예에 있어서 워드임베딩 기반의 클러스터링 기법과 언어 분류학을 이용하여 계층 정보를 구축하는 과정의 일례를 설명하기 위한 순서도이다. 도 7을 참조하면, 생성부(430)는 서브토픽에 대해 워드임베딩 데이터에서 유사 단어를 추출하고(S701), 추출된 단어를 유의어나 서브스트링 관계에 따라 클러스터링 한 후(S702), 클러스터링 된 단어를 언어 분류학에 기초하여 레이블링 할 수 있다(S703). 도 8은 여행 주제에 대해서 클러스터링 및 언어 분류학을 이용하여 구축한 계층 정보의 일 예를 보여준다. 워드임베딩 기반의 클러스터링 과정(S702)에서는 주제별 문서(예컨대, 블로그 게시글 등)로 워드임베딩 데이터를 학습하고 이러한 학습 데이터로부터 클러스터링이 필요한 서브토픽의 워드벡터 값을 파악한 후 워드벡터 값을 기반으로 클러스터링을 한다. 이때, 클러스터링은 계층적 클러스터링(hierarchical clustering), K-평균 알고리즘(K-means algorithm), 밀도 클러스터링(density clustering) 등 여러 방법들을 활용 가능하다. 그리고, 언어 분류학 활용 과정(S703)에서는 클러스터링 된 결과를 언어 분류학 상의 각 클래스에 매핑함으로써 레이블링이 가능하다. 이때, 언어 분류학은 범용적이라 주제에 특화된 계층 정보와 비교할 때 불필요한 클래스들이 많이 존재한다. 따라서, 불필요한 클래스를 삭제하는 작업이 필요하며, 이는 이하 조정부(440)의 리밸런싱(rebalancing) 과정에서 설명하기로 한다.7 is a flowchart illustrating an example of a process of constructing hierarchical information using a word embedding-based clustering technique and language taxonomy according to an embodiment of the present invention. Referring to FIG. 7, the generation unit 430 extracts a similar word from word embedding data for a subtopic (S701), clusters the extracted word according to a synonym or substring relation (S702), and then clusters the word. Can be labeled based on linguistic taxonomy (S703). 8 shows an example of hierarchical information constructed by using clustering and language taxonomy for a travel subject. In the word embedding-based clustering process (S702), the word embedding data is learned by subject-specific documents (eg, blog posts, etc.), the word vector values of subtopics requiring clustering are learned from the learning data, and clustering is performed based on the word vector values. do. In this case, clustering may use various methods such as hierarchical clustering, K-means algorithm, density clustering, and the like. In the linguistic taxonomy application process (S703), the clustered result may be labeled by mapping the clustered result to each class on the linguistic taxonomy. At this time, language taxonomy is general, and there are many unnecessary classes when compared with hierarchical information specialized for a subject. Therefore, it is necessary to delete unnecessary classes, which will be described later in the rebalancing process of the adjusting unit 440.
토픽 계층화 단계에서는 클러스터링 된 서브토픽을 모아서 질의나 문서에서 얼마나 같이 자주 나타나는지 관계 강도를 찾고 네트워크(그래프) 구조로 만든 후 토픽 트리로 변환하고(클러스터 기반 트리), 사전 기반으로 구축된 토픽 트리와 클러스터링 기반으로 구축된 토픽 트리를 통합하여 최종 트리 구조를 구성할 수 있다.In the topic layering phase, clustered subtopics are gathered to find out how often they appear together in a query or document, create a network (graph) structure, convert them into topic trees (cluster-based trees), and cluster them with dictionary-based topic trees. The topic tree built on the basis can be integrated to form the final tree structure.
다시 도 5에서, 단계(S540)에서 조정부(440)는 생성부(430)의 토픽 계층화 단계에서 구축된 토픽 트리에 대하여 사용자나 시스템의 목적에 따라 리밸런싱을 수행할 수 있다. 또한, 조정부(440)는 토픽 트리에 대해 주제 적합도, 검색 의도, 검색 결과의 양 등을 고려하여 적당히 가지치기(Pruning)를 수행할 수 있다.Referring back to FIG. 5, in operation S540, the adjustment unit 440 may perform rebalancing on the topic tree constructed in the topic layering step of the generation unit 430 according to the purpose of the user or the system. In addition, the adjuster 440 may perform pruning on the topic tree in consideration of subject fitness, search intention, search result amount, and the like.
표 1은 본 발명의 일 실시예에 따른 토픽 네트워크의 정의를 나타낸 것이다.Table 1 shows the definition of the topic network according to an embodiment of the present invention.
Figure PCTKR2018002834-appb-I000001
Figure PCTKR2018002834-appb-I000001
생성부(430)는 검색 빈도와 클러스터링을 이용하여 구축한 정보들을 이용하여 토픽 트리를 생성한다. 우선, 각 단어들을 노드(node)로, 간 단어들간의 연관 관계를 간선(edge)으로 나타내어 토픽 네트워크(G)를 구축한다. 본 발명의 일 실시예에 따른 토픽 네트워크(G)에서의 노드(V) 및 간선(E)는 표 1과 같이 정의될 수 있다. 이때, 생성부(430)는 토픽 네트워크를 검색 빈도를 고려하여 토픽 트리로 변경한다. 도 9는 본 발명의 일 실시예에 따라 구축된 토픽 네트워크를 깊이가 2인 트리(2-depth 트리)로 변환하는 과정의 예시를 도시한 것이다. 네트워크를 트리로 변경하는 방법은 다양한 알고리즘이 존재할 수 있으며, 예를 들어 가중치 그래프에서의 최소 신장 트리(minimum spanning tree) 구축 알고리즘 등을 응용할 수 있다.이후, 조정부(440)는 언어 분류학을 기반으로 한 트리와 검색빈도/클러스터링을 기반으로 한 트리를 합쳐서 사용자나 시스템의 목적에 따라 리밸런싱을 수행할 수 있다. 도 10은 본 발명의 일 실시예에 있어서 트리 리밸런싱 과정의 일례를 설명하기 위한 순서도이다. 도 10을 참조하면, 조정부(440)는 클러스터링 기반 트리에서 리프 노드에 해당되는 클러스터를 사전 기반 트리의 해당 클래스에 삽입할 수 있다(S1001). 토픽 트리의 너비(breadth)와 깊이(depth)는 질의 별로 각각 다르며, 사용자가 활용하기에는 대체로 깊이 및 너비 모두 값이 큰 편이라 이를 줄이는 작업이 필요하다(S1002~S1003). 너비와 깊이를 줄이는 방법은 언어 분류학을 기반으로 한 트리와 검색빈도/클러스터링을 기반으로 한 트리를 결합하는 과정에서 이루어진다. 토픽 트리의 너비 값과 깊이 값은 시스템의 필요 사항에 따라서 다르게 설정할 수 있으며, 본 발명의 실시예에서는 깊이가 2인 것으로 가정한다(2 depth tree화). 그리고, 조정부(440)는 주제 적합도, 검색 의도, 검색 결과의 양 등을 고려하여 토픽 트리의 가지치기를 수행할 수 있다(S1004). 도 11은 트리 리밸런싱 과정 중 너비를 줄이기 위한 몇 가지 방법을 나타내는 것으로, 상향식(bottom-up) 노드 이동 및/또는 하향식(top-down) 노드 이동을 통해 토픽 트리의 너비를 줄일 수 있다. 또한, 도 12는 트리 리밸런싱 과정 중 깊이를 줄이기 위한 몇 가지 방법을 나타내는 것으로, 일부 노드를 자식 노드와 교체하는 방식을 통해 토픽 트리의 깊이를 줄일 수 있다.The generation unit 430 generates a topic tree using information constructed by using a search frequency and clustering. First, a topic network G is constructed by representing each word as a node and the relationship between the words as edges. The node V and the trunk line E in the topic network G according to an embodiment of the present invention may be defined as shown in Table 1. At this time, the generation unit 430 changes the topic network to the topic tree in consideration of the search frequency. 9 illustrates an example of a process of converting a topic network constructed according to an embodiment of the present invention into a tree having a depth of 2 (2-depth tree). Various algorithms may be used to convert the network into a tree, and for example, a minimum spanning tree construction algorithm in a weight graph may be applied. The controller 440 may then be based on linguistic taxonomy. You can combine one tree with a tree based on search frequency / clustering to perform rebalancing based on user or system purpose. 10 is a flowchart illustrating an example of a tree rebalancing process according to an embodiment of the present invention. Referring to FIG. 10, the coordinator 440 may insert a cluster corresponding to a leaf node in a clustering-based tree into a corresponding class of a dictionary-based tree (S1001). The breadth and depth of the topic tree are different for each query, and the depth and width of the topic tree are generally large, so it is necessary to reduce them (S1002 ~ S1003). Reducing the width and depth is accomplished by combining a tree based on linguistic taxonomy and a tree based on search frequency / clustering. The width value and the depth value of the topic tree may be set differently according to the requirements of the system, and in the embodiment of the present invention, it is assumed that the depth is 2 (2 depth treeization). In addition, the adjustment unit 440 may perform pruning of the topic tree in consideration of topic suitability, search intent, and amount of search results (S1004). FIG. 11 illustrates some methods for reducing the width of a tree rebalancing process. The width of the topic tree may be reduced by bottom-up node movement and / or top-down node movement. In addition, FIG. 12 illustrates some methods for reducing the depth during the tree rebalancing process. The depth of the topic tree may be reduced by replacing some nodes with child nodes.
다시 도 5에서, 단계(S550)에서 제공부(450)는 질의가 속하는 주제의 토픽 트리를 이용하여 서브토픽을 해당 질의에 대응되는 검색 결과와 함께 제공할 수 있다. 이때, 제공부(450)는 질의에 대한 연관 검색어로서 서브토픽을 여러 조건에 따라 필터링 한 후 검색 결과와 함께 제공할 수 있다. 일례로, 제공부(450)는 질의의 주제 적합도에 따라 서브토픽을 필터링 할 수 있다. 검색을 위한 질의가 주어지면 해당 질의가 속하는 주제를 확인할 수 있고, 이때 질의가 여러 주제에 속하는 경우 주어진 주제에 적합하지 않은 토픽을 필터링 할 수 있다. 이를 위해, 질의와 서브토픽의 연관성을 나타내는 점수인 '질의+서브토픽'의 주제 점수를 활용할 수 있다. 주제 점수 파악 방법으로는 텍스트 분류(Text categorization) 알고리즘(예컨대, SVM(support vector machine), kNN(k-Nearest Neighbor), CNN(Convolutional Neural Networks) 등)을 이용할 수 있다. 다른 예로, 제공부(450)는 서브토픽에 대응되는 문서 수를 이용하여 서브토픽을 필터링 할 수 있다. 검색 결과에 포함된 문서 수가 일정 개수 이하로 적다면 유용성이 떨어지므로 해당 서브토픽을 제외시킬 수 있다. 또 다른 예로, 제공부(450)는 질의에 대한 정답성 토픽 여부에 따라 서브토픽을 필터링 할 수 있다. 검색 결과로 여러 문서를 제공하는 것보다 정답성 정보를 제공하는 것이 더 적절한 서브토픽의 경우(예를 들어, 괌 날씨와 같이 정답성 정보가 요구되는 경우) 질의에 대한 연관 검색어로 포함시킬 수 있다.Referring back to FIG. 5, in operation S550, the provider 450 may provide a subtopic along with a search result corresponding to the query by using a topic tree of a topic to which the query belongs. In this case, the provider 450 may filter the subtopic according to various conditions as the related search word for the query and provide the search result with the search result. In one example, the provider 450 may filter the subtopic according to the subject fitness of the query. Given a query for searching, you can check the subject to which the query belongs, and if the query belongs to several topics, you can filter the topics that do not fit the given subject. To this end, the subject score of 'Query + Subtopic', which is a score indicating the correlation between the query and the subtopic, may be used. Text categorization (Text categorization) algorithm (eg, support vector machine (SVM), k-Nearest Neighbor (kNN), Convolutional Neural Networks (CNN), etc.) may be used as a subject score grading method. As another example, the provider 450 may filter the subtopic using the number of documents corresponding to the subtopic. If the number of documents included in the search result is less than a certain number, the usefulness may be reduced, so the corresponding subtopic may be excluded. As another example, the provider 450 may filter the subtopic based on whether the topic is correct. For subtopics where it is more appropriate to provide correctness information than providing multiple documents as a result of a search (for example, when correctness information is required, such as Guam weather), you can include it as a related search term for the query. .
제공부(450)는 사용자가 검색을 위해 입력한 질의에 대해 연관 검색어로서 해당 질의와 관련된 세부적인 서브토픽(서브 오브젝트 및/또는 속성)을 계층형으로 노출할 수 있다. 주제 별 토픽 트리는 일정 주기를 단위로 업데이트 될 수 있으며, 주제에 따라 해당 주제의 특성 등을 고려하여 토픽 트리의 업데이트 주기가 결정될 수 있다.The provider 450 may hierarchically expose detailed subtopics (sub objects and / or attributes) related to the query as a related search word for the query input by the user. The topic tree for each topic may be updated in units of a certain period, and the update cycle of the topic tree may be determined in consideration of the characteristics of the corresponding topic according to the topic.
도 13 내지 도 14는 본 발명의 일 실시예에 있어서 2 뎁스의 토픽 구조가 반영된 검색 결과 화면의 예시를 도시한 도면이다. 예를 들어, 사용자가 입력한 질의에 대해 입력 질의에 대응되는 검색 결과를 제공하는 과정에서 입력 질의에 해당되는 주제의 계층 정보에 따라 입력 질의의 연관 검색어로서 depth1의 쿼리들과 depth2의 쿼리들을 제공할 수 있다. 도 13을 참조하면, 사용자가 검색창(1301)에 질의 '괌'을 입력한 경우 입력 질의와 대응되는 검색 결과와 함께, 해당 주제 '괌'의 계층 정보에 따라 입력 질의 '괌'의 연관 검색어로서 depth1의 쿼리들(1310)과 depth2의 쿼리들(1320)을 제공할 수 있다. 이때, 연관 검색어로 제공되는 쿼리 각각은 사용자에 의해 선택 가능한 형태로 구성되며, 사용자가 선택한 쿼리가 검색창(1301)에 자동으로 추가 입력된다. 도 13에 도시한 바와 같이, 사용자가 초기 질의 '괌'의 연관 검색어로 제공되는 depth1의 쿼리들(1310) 중에서 '맛집'을 선택하는 경우 검색창(1301)에 '맛집'이 추가로 입력되고 '괌 맛집'을 질의로 한 depth1의 검색 결과(1302)가 노출될 수 있다. 다음으로, 사용자가 도 14에 도시한 바와 같이 depth2의 쿼리들(1320) 중에서 쿼리 '수제버거'를 선택한 경우 검색창(1301)에 '수제버거'가 추가로 입력되고 '괌 맛집 수제버거'를 질의로 한 depth2의 검색 결과(1402)가 노출될 수 있다.13 to 14 illustrate examples of a search result screen reflecting a topic structure of two depths according to an exemplary embodiment of the present invention. For example, in the process of providing a search result corresponding to the input query with respect to the query input by the user, queries of depth1 and queries of depth2 are provided as related search terms of the input query according to hierarchical information of a subject corresponding to the input query. can do. Referring to FIG. 13, when a user inputs the query “Guam” into the search box 1301, a related search term of the input query “Guam” according to hierarchical information of the corresponding subject “Guam” along with a search result corresponding to the input query. As a query, the queries 1310 of depth1 and the queries 1320 of depth2 may be provided. In this case, each of the queries provided as the related search word is configured in a form selectable by the user, and the query selected by the user is automatically added to the search box 1301. As shown in FIG. 13, when the user selects 'delicious' from the queries 1310 of depth1 provided as the related query of the initial query 'Guam', 'delicious' is additionally input to the search box 1301. A search result 1302 of depth1 may be exposed using the query “Guam restaurant”. Next, when the user selects the query 'handmade burger' among the queries 1320 of depth2, as shown in FIG. 14, 'handmade burger' is additionally input into the search box 1301, and the 'guam restaurant homemade burger' is selected. The query may expose a search result 1402 of depth2.
이처럼 본 발명의 실시예들에 따르면, 본 발명에서는 검색결과(문서)를 계층 구조의 토픽들과 함께 제공하여 효율적인 추가탐색을 하게 도와주고 한번의 질의로 최대한 다양한 검색결과를 제공할 수 있다. 더 나아가, 계층화 된 토픽 구조를 검색 랭킹에 활용하는 것 또한 가능하다. 다시 말해, 서브오브젝트 및 속성이 포함된 문서는 상대적으로 고품질의 문서일 가능성이 있으므로 검색 랭킹 시 이러한 문서를 부스팅 하는데 활용할 수 있다.As described above, according to embodiments of the present invention, a search result (document) may be provided along with hierarchical topics to help efficient additional search and provide a variety of search results with a single query. Furthermore, it is also possible to utilize hierarchical topic structures for search ranking. In other words, documents containing sub-objects and attributes are likely to be relatively high quality documents, which can be used to boost these documents in search ranking.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The apparatus described above may be implemented as a hardware component, a software component, and / or a combination of hardware components and software components. For example, the devices and components described in the embodiments may include a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate array (FPGA), a programmable PLU (programmable). It can be implemented using one or more general purpose or special purpose computers, such as logic units, microprocessors, or any other device capable of executing and responding to instructions. The processing device may execute an operating system (OS) and one or more software applications running on the operating system. The processing device may also access, store, manipulate, process, and generate data in response to the execution of the software. For convenience of explanation, one processing device may be described as being used, but one of ordinary skill in the art will appreciate that the processing device includes a plurality of processing elements and / or a plurality of types of processing elements. It can be seen that it may include. For example, the processing device may include a plurality of processors or one processor and one controller. In addition, other processing configurations are possible, such as parallel processors.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.The software may include a computer program, code, instructions, or a combination of one or more of the above, and configure the processing device to operate as desired, or process it independently or collectively. You can command the device. The software and / or data may be embodied in any type of machine, component, physical device, computer storage medium or device in order to be interpreted by or provided to the processing device or to provide instructions or data. have. The software may be distributed over networked computer systems so that they may be stored or executed in a distributed manner. Software and data may be stored on one or more computer readable recording media.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 이때, 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.The method according to the embodiment may be embodied in the form of program instructions that can be executed by various computer means and recorded in a computer readable medium. In this case, the medium may be to continuously store a program executable by the computer, or to temporarily store for execution or download. In addition, the medium may be a variety of recording means or storage means in the form of a single or several hardware combined, not limited to a medium directly connected to any computer system, it may be distributed on the network. Examples of the medium include magnetic media such as hard disks, floppy disks and magnetic tape, optical recording media such as CD-ROMs and DVDs, magneto-optical media such as floptical disks, And ROM, RAM, flash memory, and the like, configured to store program instructions. In addition, examples of another medium may include a recording medium or a storage medium managed by an app store that distributes an application, a site that supplies or distributes various software, a server, or the like.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.Although the embodiments have been described by the limited embodiments and the drawings as described above, various modifications and variations are possible to those skilled in the art from the above description. For example, the described techniques may be performed in a different order than the described method, and / or components of the described systems, structures, devices, circuits, etc. may be combined or combined in a different form than the described method, or other components. Or even if replaced or substituted by equivalents, an appropriate result can be achieved.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents to the claims are within the scope of the claims that follow.

Claims (11)

  1. 컴퓨터로 구현되는 토픽 구조화 방법에 있어서,In a computer-implemented topic structuring method,
    주제 별로 상기 주제와 관련된 서브토픽을 추출하는 단계;Extracting subtopics related to the topic for each topic;
    상기 서브토픽에 대해 상기 주제의 계층 정보를 이용하여 토픽 트리를 생성하는 단계; 및Generating a topic tree for the subtopic using hierarchical information of the subject; And
    검색을 위한 질의가 주어지면 상기 질의가 속한 주제의 토픽 트리에 따라 상기 질의에 대한 연관 검색어로서 상기 서브토픽을 계층형으로 제공하는 단계Given a query for search, providing the subtopics hierarchically as a related search word for the query according to the topic tree of the topic to which the query belongs.
    를 포함하는 토픽 구조화 방법.Topic structuring method comprising a.
  2. 제1항에 있어서,The method of claim 1,
    상기 추출하는 단계는,The extracting step,
    상기 주제를 결정하는 핵심 오브젝트와 관련된 단어들을 분석하여 상기 서브토픽을 추출하는 것Extracting the subtopic by analyzing words associated with the key object that determines the subject
    을 특징으로 하는 토픽 구조화 방법.Topic structuring method, characterized in that.
  3. 제1항에 있어서,The method of claim 1,
    상기 서브토픽을 문서 출현 빈도와 검색 빈도 중 적어도 하나에 따라 필터링 하는 단계Filtering the subtopics according to at least one of a document appearance frequency and a retrieval frequency.
    를 더 포함하는 토픽 구조화 방법.Topic structuring method further comprising.
  4. 제1항에 있어서,The method of claim 1,
    상기 서브토픽을 유의어 또는 서브스트링(부분문자열) 관계에 따라 클러스터링 하여 각 클러스터의 대표를 선정하는 단계Selecting a representative of each cluster by clustering the subtopics according to a synonym or a substring (substring) relationship
    를 더 포함하는 토픽 구조화 방법.Topic structuring method further comprising.
  5. 제1항에 있어서,The method of claim 1,
    상기 생성하는 단계는,The generating step,
    상기 서브토픽을 상기 계층 정보의 각 클래스 이름으로 레이블링(labeling) 하여 상기 토픽 트리를 생성하는 것Labeling the subtopic with each class name of the hierarchical information to generate the topic tree
    을 특징으로 하는 토픽 구조화 방법.Topic structuring method, characterized in that.
  6. 제1항에 있어서,The method of claim 1,
    상기 생성하는 단계는,The generating step,
    상기 서브토픽에 대해 워드임베딩 데이터에서 유사 단어를 추출하는 단계;Extracting similar words from word embedding data for the subtopic;
    상기 유사 단어를 유의어 또는 서브스트링(부분문자열) 관계에 따라 클러스터링 하는 단계; 및Clustering the similar words according to a synonym or substring (substring) relationship; And
    상기 클러스터링 된 단어를 언어 분류학 상의 각 클래스에 매핑함으로써 레이블링 하는 단계Labeling the clustered words by mapping each class in linguistic taxonomy
    를 포함하는 토픽 구조화 방법.Topic structuring method comprising a.
  7. 제1항에 있어서,The method of claim 1,
    상기 토픽 트리의 너비(breadth)와 깊이(depth) 중 적어도 하나를 줄여 상기 토픽 트리에 대한 리밸런싱(rebalancing)을 수행하는 단계Rebalancing the topic tree by reducing at least one of breadth and depth of the topic tree
    를 더 포함하는 토픽 구조화 방법.Topic structuring method further comprising.
  8. 제1항에 있어서,The method of claim 1,
    상기 제공하는 단계는,The providing step,
    상기 질의와 상기 서브토픽의 연관성을 나타내는 주제 점수와, 상기 서브토픽에 대응되는 문서 수, 및 상기 질의에 대한 정답성 토픽 여부 중 적어도 하나의 조건에 따라 상기 서브토픽을 필터링 하는 단계Filtering the subtopic according to at least one of a subject score indicating a correlation between the query and the subtopic, a number of documents corresponding to the subtopic, and whether or not a correctness topic is provided for the query.
    를 포함하는 토픽 구조화 방법.Topic structuring method comprising a.
  9. 컴퓨터로 구현되는 검색 결과 제공 방법에 있어서,In the computer-implemented search results providing method,
    검색을 위한 질의가 주어지면 상기 질의에 대응되는 검색 결과를 제공하는 단계;Providing a search result corresponding to the query given a query for searching;
    상기 질의가 속한 주제의 계층 정보에 따라 상기 질의에 대한 연관 검색어로서 상기 주제와 관련된 서브토픽을 복수의 뎁스(depth)를 가진 계층형으로 제공하는 단계; 및Providing a subtopic associated with the topic in a hierarchical form with a plurality of depths as an associated search word for the query according to the hierarchical information of the subject to which the query belongs; And
    상기 서브토픽 중 적어도 하나의 검색어가 선택되는 경우 상기 선택된 검색어를 포함한 상기 질의에 대응되는 검색 결과를 제공하는 단계Providing a search result corresponding to the query including the selected search word when at least one search word of the subtopics is selected.
    를 포함하는 검색 결과 제공 방법.Search result providing method comprising a.
  10. 컴퓨터 시스템과 결합되어 토픽 구조화 방법을 실행시키기 위해 컴퓨터 판독 가능한 기록 매체에 기록된 컴퓨터 프로그램에 있어서,A computer program recorded on a computer readable recording medium in combination with a computer system to execute a topic structuring method,
    상기 토픽 구조화 방법은,The topic structuring method,
    주제 별로 상기 주제와 관련된 서브토픽을 추출하는 단계;Extracting subtopics related to the topic for each topic;
    상기 서브토픽에 대해 상기 주제의 계층 정보를 이용하여 토픽 트리를 생성하는 단계; 및Generating a topic tree for the subtopic using hierarchical information of the subject; And
    검색을 위한 질의가 주어지면 상기 질의가 속한 주제의 토픽 트리에 따라 상기 질의에 대한 연관 검색어로서 상기 서브토픽을 계층형으로 제공하는 단계Given a query for search, providing the subtopics hierarchically as a related search word for the query according to the topic tree of the topic to which the query belongs.
    를 포함하는, 컴퓨터 프로그램.Including, a computer program.
  11. 컴퓨터로 구현되는 토픽 구조화 시스템에 있어서,In a topic structured system implemented in a computer,
    컴퓨터가 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서At least one processor implemented to execute computer-readable instructions
    를 포함하고,Including,
    상기 적어도 하나의 프로세서는,The at least one processor,
    주제 별로 상기 주제와 관련된 서브토픽을 추출하는 추출부;An extraction unit for extracting subtopics related to the topic for each topic;
    상기 서브토픽에 대해 상기 주제의 계층 정보를 이용하여 토픽 트리를 생성하는 생성부; 및A generator configured to generate a topic tree for the subtopic using hierarchical information of the subject; And
    검색을 위한 질의가 주어지면 상기 질의가 속한 주제의 토픽 트리에 따라 상기 질의에 대한 연관 검색어로서 상기 서브토픽을 계층형으로 제공하는 제공부Given a query for a search, a provider that provides the subtopics as a related search word for the query in a hierarchical form according to the topic tree of the subject to which the query belongs.
    를 포함하는 토픽 구조화 시스템.Topic structuring system comprising a.
PCT/KR2018/002834 2017-04-06 2018-03-09 Automatic extraction and structurization, by subject, of sub-topic of query WO2018186599A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019554996A JP6808851B2 (en) 2017-04-06 2018-03-09 Topic structuring method, search result provision method, computer program and topic structuring system

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2017-0044683 2017-04-06
KR20170044683 2017-04-06
KR1020170085316A KR101958729B1 (en) 2017-04-06 2017-07-05 Auto-extraction and structuring for sub-topic of subject inquiry
KR10-2017-0085316 2017-07-05

Publications (1)

Publication Number Publication Date
WO2018186599A1 true WO2018186599A1 (en) 2018-10-11

Family

ID=63713479

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/002834 WO2018186599A1 (en) 2017-04-06 2018-03-09 Automatic extraction and structurization, by subject, of sub-topic of query

Country Status (1)

Country Link
WO (1) WO2018186599A1 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020113048A (en) * 2019-01-11 2020-07-27 富士ゼロックス株式会社 Information processing apparatus and program
JP2020119254A (en) * 2019-01-23 2020-08-06 株式会社日立製作所 Text data collection device and method
CN112100360A (en) * 2020-10-30 2020-12-18 北京淇瑀信息科技有限公司 Dialog response method, device and system based on vector retrieval
JP2021170309A (en) * 2020-04-15 2021-10-28 北京百度網訊科技有限公司 Topic concept mining method, device, electronic apparatus, storage medium, and program

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100818357B1 (en) * 2006-05-10 2008-04-02 (주)윕스 Presenting System of Keyword Using Associative Model and Method Thereof
KR20100080099A (en) * 2008-12-31 2010-07-08 주식회사 솔트룩스 Method for searching information and computer readable medium storing thereof
KR20110099574A (en) * 2010-03-02 2011-09-08 연세대학교 산학협력단 Keyword recommender method and device using mobile communication
KR101485940B1 (en) * 2013-08-23 2015-01-27 네이버 주식회사 Presenting System of Keyword Using depth of semantic Method Thereof
US20170061485A1 (en) * 2011-03-22 2017-03-02 Excalibur Ip, Llc Search assistant system and method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100818357B1 (en) * 2006-05-10 2008-04-02 (주)윕스 Presenting System of Keyword Using Associative Model and Method Thereof
KR20100080099A (en) * 2008-12-31 2010-07-08 주식회사 솔트룩스 Method for searching information and computer readable medium storing thereof
KR20110099574A (en) * 2010-03-02 2011-09-08 연세대학교 산학협력단 Keyword recommender method and device using mobile communication
US20170061485A1 (en) * 2011-03-22 2017-03-02 Excalibur Ip, Llc Search assistant system and method
KR101485940B1 (en) * 2013-08-23 2015-01-27 네이버 주식회사 Presenting System of Keyword Using depth of semantic Method Thereof

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020113048A (en) * 2019-01-11 2020-07-27 富士ゼロックス株式会社 Information processing apparatus and program
JP7238411B2 (en) 2019-01-11 2023-03-14 富士フイルムビジネスイノベーション株式会社 Information processing device and program
JP2020119254A (en) * 2019-01-23 2020-08-06 株式会社日立製作所 Text data collection device and method
JP7085499B2 (en) 2019-01-23 2022-06-16 株式会社日立製作所 Text data collection device and method
JP2021170309A (en) * 2020-04-15 2021-10-28 北京百度網訊科技有限公司 Topic concept mining method, device, electronic apparatus, storage medium, and program
JP7072034B2 (en) 2020-04-15 2022-05-19 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド Topics Concepts Mining methods, devices, electronic devices, storage media and programs
US11651164B2 (en) 2020-04-15 2023-05-16 Beijing Baidu Netcom Science Technology Co., Ltd. Method, device, equipment, and storage medium for mining topic concept
CN112100360A (en) * 2020-10-30 2020-12-18 北京淇瑀信息科技有限公司 Dialog response method, device and system based on vector retrieval
CN112100360B (en) * 2020-10-30 2024-02-02 北京淇瑀信息科技有限公司 Dialogue response method, device and system based on vector retrieval

Similar Documents

Publication Publication Date Title
WO2018074716A1 (en) Method and system for recommending query by using search context
JP6808851B2 (en) Topic structuring method, search result provision method, computer program and topic structuring system
WO2017057921A1 (en) Method and system for automatically classifying data expressed by a plurality of factors with values of text word and symbol sequence by using deep learning
Teitler et al. NewsStand: A new view on news
Losiewicz et al. Textual data mining to support science and technology management
Carpineto et al. A survey of web clustering engines
WO2018186599A1 (en) Automatic extraction and structurization, by subject, of sub-topic of query
US9110985B2 (en) Generating a conceptual association graph from large-scale loosely-grouped content
US10346457B2 (en) Platform support clusters from computer application metadata
US9659052B1 (en) Data object resolver
EP3320490A1 (en) Transfer learning techniques for disparate label sets
WO2018022334A1 (en) Computer application query suggestions
WO2006115966A2 (en) Information retrieval using conjuctive search and link discovery
Nesi et al. Geographical localization of web domains and organization addresses recognition by employing natural language processing, Pattern Matching and clustering
Zhang et al. Mining and clustering service goals for restful service discovery
JP6629935B2 (en) Deep learning learning method and system for categorizing documents
CN112989208B (en) Information recommendation method and device, electronic equipment and storage medium
CN110888970B (en) Text generation method, device, terminal and storage medium
Prasanth et al. Effective big data retrieval using deep learning modified neural networks
US11256707B1 (en) Per-query database partition relevance for search
US10339148B2 (en) Cross-platform computer application query categories
Chen et al. A framework for annotating OpenStreetMap objects using geo-tagged tweets
Huang et al. Pandasearch: A fine-grained academic search engine for research documents
KR20190000061A (en) Method and system for providing relevant keywords based on keyword attribute
Tabarcea et al. Framework for location-aware search engine

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18780404

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019554996

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18780404

Country of ref document: EP

Kind code of ref document: A1