CN103294684B - 关联词汇搜索系统及方法 - Google Patents

关联词汇搜索系统及方法 Download PDF

Info

Publication number
CN103294684B
CN103294684B CN201210044065.7A CN201210044065A CN103294684B CN 103294684 B CN103294684 B CN 103294684B CN 201210044065 A CN201210044065 A CN 201210044065A CN 103294684 B CN103294684 B CN 103294684B
Authority
CN
China
Prior art keywords
hyponym
vocabulary
weight
association
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210044065.7A
Other languages
English (en)
Other versions
CN103294684A (zh
Inventor
吕洋波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang 1one Technology Co., Ltd.
Original Assignee
Zhejiang 1one Cn Technology Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang 1one Cn Technology Corp filed Critical Zhejiang 1one Cn Technology Corp
Priority to CN201210044065.7A priority Critical patent/CN103294684B/zh
Priority to TW101106442A priority patent/TW201335770A/zh
Priority to US13/602,311 priority patent/US20130226936A1/en
Priority to JP2013021139A priority patent/JP5581410B2/ja
Publication of CN103294684A publication Critical patent/CN103294684A/zh
Application granted granted Critical
Publication of CN103294684B publication Critical patent/CN103294684B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种关联词汇搜索系统及方法,该方法包括步骤:接收用户输入的多个核心词汇;查找每个核心词汇的下位词集合;合并每个核心词汇的下位词集合,并计算每个下位词的权重;根据每个下位词的权重,选择预设数量的下位词;将上述选择的下位词添加到扩展相关词汇。利用本发明可以自动找出用户输入的词汇集的下位词,并通过该下位词扩展出新的相关词汇。

Description

关联词汇搜索系统及方法
技术领域
本发明涉及一种关联词汇搜索系统及方法。
背景技术
当使用者输入多个核心词汇(以下简称为词汇集),想要通过自然语言处理(Natural Language Processing,NLP)技术扩展这些核心词汇的相关词汇,传统做法只有以下两种。
一种做法是先将预先设置的词汇库转换成向量空间,获取词汇库中的每个词汇在该向量空间的代表向量(以下简称词汇向量),再将使用者输入的词汇集(Core Term Set)转换成该词汇库向量空间的向量(以下简称为查询向量),而在该向量空间中和查询向量夹角越小的词汇向量代表的词汇,表示与使用者输入的词汇集相关度越高。
另一种做法则是通过各种条件机率的变形,计算出预先设置的词汇库中的每个词汇与使用者输入的词汇集中的核心词汇共同出现的机率,机率越高代表该词汇与使用者输入的核心词汇相关程度越高。
发明内容
鉴于以上内容,有必要提供一种关联词汇搜索系统,其可自动找出用户输入的词汇集的下位词,并通过该下位词扩展出新的相关词汇。
鉴于以上内容,还有必要提供一种关联词汇搜索方法,其可自动找出用户输入的词汇集的下位词,并通过该下位词扩展出新的相关词汇。
一种关联词汇搜索系统,该系统包括:
接收模块,用于接收用户输入的多个核心词汇;
查找模块,用于查找每个核心词汇的下位词集合;
计算模块,用于合并每个核心词汇的下位词集合,并计算每个下位词的权重;
选择模块,用于根据每个下位词的权重,选择预设数量的下位词;及
关联词汇确定模块,用于将上述选择的下位词添加到扩展相关词汇,获取上述多个核心词汇的相关词集合。
一种关联词汇搜索方法,该方法包括:
接收步骤,接收用户输入的多个核心词汇;
查找步骤,查找每个核心词汇的下位词集合;
计算步骤,合并每个核心词汇的下位词集合,并计算每个下位词的权重;
选择步骤,根据每个下位词的权重,选择预设数量的下位词;及
关联词汇确定步骤,将上述选择的下位词添加到扩展相关词汇,获取上述多个核心词汇的相关词集合。
前述方法可以由电子设备(如电脑)执行,其中该电子设备具有附带了图形用户界面(GUI)的显示屏幕、一个或多个处理器、存储器以及保存在存储器中用于执行这些方法的一个或多个模块、程序或指令集。在某些实施例中,该电子设备提供了包括无线通信在内的多种功能。
用于执行前述方法的指令可以包含在被配置成由一个或多个处理器执行的计算机程序产品中。
相较于现有技术,所述的关联词汇搜索系统及方法,其可自动找出用户输入的词汇集的下位词,并对找到的下位词进行筛选,通过筛选后的下位词扩展出新的相关词汇,从而提供有别于现有技术的另一种扩展相关词汇的方式,且提高了用户使用检索系统(如自然语言处理搜索引擎)的精确性。
附图说明
图1是本发明电子设备的结构示意图。
图2是关联词汇搜索系统的功能模块图。
图3是本发明关联词汇搜索方法的较佳实施例的流程图。
主要元件符号说明
电子设备 2
显示设备 20
输入设备 22
存储器 23
关联词汇搜索系统 24
处理器 25
接收模块 201
查找模块 202
计算模块 203
选择模块 204
关联词汇确定模块 205
具体实施方式
如图1所示,是本发明电子设备的结构示意图。在本实施例中,所述电子设备(如服务器)2包括通过数据总线相连的显示设备20、输入设备22、存储器23、关联词汇搜索系统24和处理器25。可以理解,所述电子设备2也还应该进一步包括其他必要的硬件系统与软件系统,如主板、操作系统等,由于这些设备都是本领域技术人员的习知常识,本实施例中不再一一描述。
所述关联词汇搜索系统24用于自动找出用户输入的词汇集的下位词,并通过该下位词扩展出新的相关词汇,具体过程以下描述。
所述存储器23用于存储所述关联词汇搜索系统24的程序代码等资料。所述显示设备20和输入设备22用做电子设备2的输入输出设备。
在本实施例中,所述关联词汇搜索系统24可以被分割成一个或多个模块,所述一个或多个模块被存储在所述存储器23中并被配置成由一个或多个处理器(本实施例为一个处理器25)执行,以完成本发明。例如,参阅图2所示,所述关联词汇搜索系统24被分割成接收模块201、查找模块202、计算模块203、选择模块204和关联词汇确定模块205。本发明所称的模块是完成一特定功能的程序段,比程序更适合于描述软件在电子设备2中的执行过程。
如图3所示,是本发明关联词汇搜索方法的较佳实施例的流程图。
步骤S1,接收模块201接收用户输入的多个核心词汇。
步骤S2,查找模块202从存储器23中分别查找每个核心词汇的下位词集合。在本实施例中,下位词是指概念上内涵更窄的主题词,对于概念的描述更精确。例如,“国际标准舞”是“舞蹈”的下位词,“拉丁舞”是“国际标准舞”的下位词。一般来说,一个词汇可能会是多个词汇的下位词,也可能同时拥有多个下位词,用户可以预先将这些下位词存储于存储器23中。
步骤S3,计算模块203合并每个核心词汇的下位词集合,并计算每个下位词的权重。在本实施例中,一个下位词的权重是指该下位词在所有下位词集合中出现的次数。
举例而言,假设现有若干个下位词集合:
Hyponym1=(h1,h2,h5)
Hyponym2=(h2,h4,h5,h7)
Hyponym3=(h1,h6)
Hyponym4=(h1,h7,h8)
将相同下位词加上出现在各下位词集合的次数合并,得到每个下位词的权重如下:
Hyponymall=(h1:3,h2:2,h4:1,h5:2,h6:1,h7:2,h8:1),其中下位词h1、h2、h4、h5、h6、h7、h8的权重依次为:3、2、1、2、1、2、1。
步骤S4,选择模块204根据每个下位词的权重,选择预设数量的下位词。在本实施例中,选择模块204依据每个下位词的权重从大到小的顺序对所有下位词进行排序,并按照权重从大到小的顺序选择预设数量(如3个)的下位词。
例如,以次数做权重对上述下位词排序如下:
Hyponymall=(h1:3,h2:2,h5:2,h7:2,h4:1,h6:1,h8:1)。如果预设数量为3,则选择模块204选择的下位词为h1、h2、h5。
通过对上述下位词的筛选,可以过滤掉不相关的下位词,确定出较精确的下位词,从而使后续(步骤S5)获取的相关词汇更为准确,提高了检索结果的精确性。
步骤S5,关联词汇确定模块205将上述选择的下位词添加到扩展相关词汇,并根据该扩展相关词汇确定上述多个核心词汇的关联词汇,得到上述多个核心词汇较为精确的相关词集合。
现有已知技术中对词汇的下位词的查找多是利用字典(例如美国的Word Net)手动查询,也有部分技术是通过共现机率的计算找出两个词汇的上下位关系。
例如,在一百篇文章中,“计算机”出现60次,“硬盘”出现20次,两者共同出现15次,则可推知提到“硬盘”的时候多半会提到“计算机”,但提到“计算机”不一定会提到“硬盘”。因此,可推知“硬盘”很可能是“计算机”的下位词(即概念定义上较狭隘且精准的相关词汇)。
相反,本发明通过把多个核心词汇组合成描述概念较为精准的下位词,并由其下位词扩展相关词汇,藉此得到更贴近多个核心词汇的概念相关词。
例如,在专利领域中输入“滑盖”以及“手机”两个词汇,任何手机结构上可以滑动的组件(例如电池盖等)都会被扩展成这两个词汇的相关词汇,进而造成扩展出噪声相关词(例如可滑动式的电池盖)。利用本发明所述的关联词汇搜索方法,能够先将这两个词汇组合成一个描述较精确的下位词“滑盖手机”,并进一步扩展出相对较清晰的相关词,如滑盖式行动电话、滑盖式手持电话等,提高了用户使用检索系统(如自然语言处理搜索引擎)的精确性。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (4)

1.一种关联词汇搜索系统,其特征在于,该系统包括:
接收模块,用于接收用户输入的多个核心词汇;
查找模块,用于查找每个核心词汇的下位词集合;
计算模块,用于合并每个核心词汇的下位词集合,并计算每个下位词的权重;
选择模块,用于根据每个下位词的权重,选择预设数量的下位词;及
关联词汇确定模块,用于将上述选择的下位词添加到扩展相关词汇,获取上述多个核心词汇的相关词集合,所述下位词的权重是指该下位词在所有下位词集合中出现的次数。
2.如权利要求1所述的关联词汇搜索系统,其特征在于,所述选择模块选择预设数量的下位词包括:
依据每个下位词的权重从大到小的顺序对所有下位词进行排序,然后按照权重从大到小的顺序选择预设数量的下位词。
3.一种关联词汇搜索方法,其特征在于,该方法包括:
接收步骤,接收用户输入的多个核心词汇;
查找步骤,查找每个核心词汇的下位词集合;
计算步骤,合并每个核心词汇的下位词集合,并计算每个下位词的权重;
选择步骤,根据每个下位词的权重,选择预设数量的下位词;及
关联词汇确定步骤,将上述选择的下位词添加到扩展相关词汇,获取上述多个核心词汇的相关词集合,所述下位词的权重是指该下位词在所有下位词集合中出现的次数。
4.如权利要求3所述的关联词汇搜索方法,其特征在于,所述选择步骤包括:
依据每个下位词的权重从大到小的顺序对所有下位词进行排序,然后按照权重从大到小的顺序选择预设数量的下位词。
CN201210044065.7A 2012-02-24 2012-02-24 关联词汇搜索系统及方法 Active CN103294684B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201210044065.7A CN103294684B (zh) 2012-02-24 2012-02-24 关联词汇搜索系统及方法
TW101106442A TW201335770A (zh) 2012-02-24 2012-02-29 關聯詞彙搜索系統及方法
US13/602,311 US20130226936A1 (en) 2012-02-24 2012-09-03 Electronic device and method for searching related terms
JP2013021139A JP5581410B2 (ja) 2012-02-24 2013-02-06 関連用語の検索システム及び検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210044065.7A CN103294684B (zh) 2012-02-24 2012-02-24 关联词汇搜索系统及方法

Publications (2)

Publication Number Publication Date
CN103294684A CN103294684A (zh) 2013-09-11
CN103294684B true CN103294684B (zh) 2016-08-24

Family

ID=49004431

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210044065.7A Active CN103294684B (zh) 2012-02-24 2012-02-24 关联词汇搜索系统及方法

Country Status (4)

Country Link
US (1) US20130226936A1 (zh)
JP (1) JP5581410B2 (zh)
CN (1) CN103294684B (zh)
TW (1) TW201335770A (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105659235A (zh) * 2016-01-08 2016-06-08 马岩 网络信息的搜词方法及系统
CN105956195B (zh) * 2016-06-17 2019-03-29 广州视源电子科技股份有限公司 简历搜索方法和装置
CN109086328B (zh) * 2018-06-29 2021-03-30 北京百度网讯科技有限公司 一种上下位关系的确定方法、装置、服务器及存储介质
US11068665B2 (en) 2019-09-18 2021-07-20 International Business Machines Corporation Hypernym detection using strict partial order networks
JPWO2022168247A1 (zh) * 2021-02-05 2022-08-11

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3733374B2 (ja) * 1996-07-03 2006-01-11 沖電気工業株式会社 情報検索装置
US6983280B2 (en) * 2002-09-13 2006-01-03 Overture Services Inc. Automated processing of appropriateness determination of content for search listings in wide area network searches
US7440947B2 (en) * 2004-11-12 2008-10-21 Fuji Xerox Co., Ltd. System and method for identifying query-relevant keywords in documents with latent semantic analysis
JP2008537225A (ja) * 2005-04-11 2008-09-11 テキストディガー,インコーポレイテッド クエリについての検索システムおよび方法
US7752190B2 (en) * 2005-12-21 2010-07-06 Ebay Inc. Computer-implemented method and system for managing keyword bidding prices
US7904440B2 (en) * 2007-04-26 2011-03-08 Microsoft Corporation Search diagnostics based upon query sets
US20080288537A1 (en) * 2007-05-16 2008-11-20 Fuji Xerox Co., Ltd. System and method for slide stream indexing based on multi-dimensional content similarity
JP2009026083A (ja) * 2007-07-19 2009-02-05 Fujifilm Corp コンテンツ検索装置
JP2010092334A (ja) * 2008-10-09 2010-04-22 Nec Corp 同位語選出装置、同位語選出方法およびプログラム
US8463806B2 (en) * 2009-01-30 2013-06-11 Lexisnexis Methods and systems for creating and using an adaptive thesaurus
US20100223133A1 (en) * 2009-02-27 2010-09-02 Research In Motion Limited Communications system providing mobile wireless communications device predicted search query terms based upon groups of related advertising terms
US8316039B2 (en) * 2009-05-18 2012-11-20 Microsoft Corporation Identifying conceptually related terms in search query results
US20120124084A1 (en) * 2010-11-06 2012-05-17 Ning Zhu Method to semantically search domain name by utilizing hyponym, hypernym, troponym, entailment and coordinate term
US8612441B2 (en) * 2011-02-04 2013-12-17 Kodak Alaris Inc. Identifying particular images from a collection
CN102110174B (zh) * 2011-04-11 2013-04-03 重庆大学 一种基于关键词的web服务器扩展检索方法
US8667007B2 (en) * 2011-05-26 2014-03-04 International Business Machines Corporation Hybrid and iterative keyword and category search technique

Also Published As

Publication number Publication date
US20130226936A1 (en) 2013-08-29
JP2013175176A (ja) 2013-09-05
CN103294684A (zh) 2013-09-11
JP5581410B2 (ja) 2014-08-27
TW201335770A (zh) 2013-09-01

Similar Documents

Publication Publication Date Title
CN108804532B (zh) 一种查询意图的挖掘和查询意图的识别方法、装置
CN107402954B (zh) 建立排序模型的方法、基于该模型的应用方法和装置
US8019748B1 (en) Web search refinement
CN113094550B (zh) 视频检索方法、装置、设备和介质
CN103294684B (zh) 关联词汇搜索系统及方法
JP2017220203A (ja) 類似性スコアに基づきコンテンツアイテムと画像とのマッチングを評価する方法、およびシステム
US20150294018A1 (en) Method and apparatus for recommending keywords
CN110569496A (zh) 实体链接方法、装置及存储介质
JP7203981B2 (ja) 地理位置を検索するための類似性モデル作成方法、装置、電子デバイス、記憶媒体およびプログラム
CN106126589B (zh) 简历搜索方法及装置
CN111831821A (zh) 文本分类模型的训练样本生成方法、装置和电子设备
US20200272674A1 (en) Method and apparatus for recommending entity, electronic device and computer readable medium
US7840549B2 (en) Updating retrievability aids of information sets with search terms and folksonomy tags
US9990268B2 (en) System and method for detection of duplicate bug reports
US20230086735A1 (en) Systems and methods for retrieving videos using natural language description
EP4154174A1 (en) Systems and methods for retreiving images using natural language description
US10212240B2 (en) Method for tracking content and electronic device using the same
CN110334271A (zh) 一种搜索结果优化方法、系统、电子设备及存储介质
CN105550217B (zh) 场景音乐搜索方法及场景音乐搜索装置
US20150286723A1 (en) Identifying dominant entity categories
CN113988157A (zh) 语义检索网络训练方法、装置、电子设备及存储介质
CN111666417A (zh) 生成同义词的方法、装置、电子设备以及可读存储介质
CN108388556A (zh) 同类实体的挖掘方法及系统
CN103984754A (zh) 一种搜索系统和搜索方法
US11734285B2 (en) System and method for top-k searching using parallel processing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160531

Address after: 518000 Guangdong Province, Shenzhen New District of Longhua City, Dalang street, Hua Sheng Lu Yong Jingxuan commercial building 1608

Applicant after: Jinyang Shenzhen sea Network Intelligent Technology Co., Ltd.

Address before: 518109 Guangdong city of Shenzhen province Baoan District Longhua Town Industrial Zone tabulaeformis tenth East Ring Road No. 2 two

Applicant before: Hongfujin Precise Industry (Shenzhen) Co., Ltd.

Applicant before: Hon Hai Precision Industry Co., Ltd.

C41 Transfer of patent application or patent right or utility model
CB03 Change of inventor or designer information

Inventor after: Lv Yangbo

Inventor before: Li Zhongyi

Inventor before: Ye Jianfa

Inventor before: Lu Junqi

COR Change of bibliographic data
TA01 Transfer of patent application right

Effective date of registration: 20160727

Address after: Xihu District Hangzhou City, Zhejiang province 310012 Wensan Road No. 630, room 218

Applicant after: Zhejiang 1one Technology Co., Ltd.

Address before: 518000 Guangdong Province, Shenzhen New District of Longhua City, Dalang street, Hua Sheng Lu Yong Jingxuan commercial building 1608

Applicant before: Jinyang Shenzhen sea Network Intelligent Technology Co., Ltd.

C14 Grant of patent or utility model
GR01 Patent grant