CN102622363A - 关联词汇搜索系统及方法 - Google Patents

关联词汇搜索系统及方法 Download PDF

Info

Publication number
CN102622363A
CN102622363A CN2011100310945A CN201110031094A CN102622363A CN 102622363 A CN102622363 A CN 102622363A CN 2011100310945 A CN2011100310945 A CN 2011100310945A CN 201110031094 A CN201110031094 A CN 201110031094A CN 102622363 A CN102622363 A CN 102622363A
Authority
CN
China
Prior art keywords
vocabulary
indirect
relation intensity
strength ratio
relationship strength
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011100310945A
Other languages
English (en)
Inventor
李忠一
叶建发
卢秋桦
卢俊锜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Original Assignee
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hongfujin Precision Industry Shenzhen Co Ltd, Hon Hai Precision Industry Co Ltd filed Critical Hongfujin Precision Industry Shenzhen Co Ltd
Priority to CN2011100310945A priority Critical patent/CN102622363A/zh
Publication of CN102622363A publication Critical patent/CN102622363A/zh
Pending legal-status Critical Current

Links

Images

Abstract

一种关联词汇搜索系统及方法,该方法包括步骤:计算词汇与词汇之间的直接关系强度;计算词汇与词汇之间的关系强度比例;根据词汇与词汇之间的直接关系强度及关系强度比例,计算词汇与词汇之间的间接关系强度;根据词汇与词汇之间的间接关系强度,确定间接关联词汇。利用本发明可以获取词汇的间接关联词汇。

Description

关联词汇搜索系统及方法
技术领域
本发明涉及一种关联词汇搜索系统及方法。
背景技术
在自然语言处理(Natural Language Processing,NLP)技术中,搜寻词汇与词汇之间的关系强度是相当重要的方面。通过词汇与词汇之间的关系强度,传统的自然语言处理技术可以获取一个词汇的关联词汇,并通过这些关联词汇延伸扩展出该词汇的相关词汇。
但是,传统的自然语言处理技术中只是通过词汇与词汇之间的直接关系强度,获取一个词汇的直接关联词汇(如近义词和同义词等),却不能获取与该词汇有间接关系的词汇。例如,对于词汇“棒球”而言,假设词汇“棒球”与词汇“运动”存在直接关系,而词汇“运动”又与词汇“篮球”存在直接关系,传统的自然语言处理技术只能找到与词汇“棒球”有直接关联的词汇,如“运动”等,而对于与“棒球”有间接关系的词汇,如“篮球”等,却无法获取。
发明内容
鉴于以上内容,有必要提供一种关联词汇搜索系统,其可获取词汇的间接关联词汇,从而在词汇与词汇之间的直接关系中找出间接的、隐性的关系,用以加强辅佐词汇与词汇之间的直接关系。
鉴于以上内容,还有必要提供一种关联词汇搜索方法,其可获取词汇的间接关联词汇,从而在词汇与词汇之间的直接关系中找出间接的、隐性的关系,用以加强辅佐词汇与词汇之间的直接关系。
一种关联词汇搜索系统,应用于电子设备中,该系统包括:
第一计算模块,用于计算词汇与词汇之间的直接关系强度Ri,j,得到一个直接关系强度矩阵R;
第二计算模块,用于计算词汇与词汇之间的关系强度比例Pi,j,得到一个关系强度比例矩阵P;
第三计算模块,用于根据词汇与词汇之间的直接关系强度Ri,j及关系强度比例Pi,j,计算词汇与词汇之间的间接关系强度R′i,j;及
关联词汇确定模块,用于根据词汇与词汇之间的间接关系强度,确定间接关联词汇。
一种关联词汇搜索方法,运行于电子设备中,该方法包括如下步骤:
计算词汇与词汇之间的直接关系强度Ri,j,得到一个直接关系强度矩阵R;
计算词汇与词汇之间的关系强度比例Pi,j,得到一个关系强度比例矩阵P;
根据词汇与词汇之间的直接关系强度Ri,j及关系强度比例Pi,j,计算词汇与词汇之间的间接关系强度R′i,j;及
根据词汇与词汇之间的间接关系强度,确定间接关联词汇。
前述方法可以由电子设备(如电脑)执行,其中该电子设备具有附带了图形用户界面(GUI)的显示屏幕、一个或多个处理器、存储器以及保存在存储器中用于执行这些方法的一个或多个模块、程序或指令集。在某些实施例中,该电子设备提供了包括无线通信在内的多种功能。
用于执行前述方法的指令可以包含在被配置成由一个或多个处理器执行的计算机程序产品中。
相较于现有技术,所述的关联词汇搜索系统及方法,其可获取词汇的间接关联词汇,从而在词汇与词汇之间的直接关系中找出间接的、隐性的关系,用以加强辅佐词汇与词汇之间的直接关系,提高了使用者使用检索系统(如自然语言处理搜索引擎)的效率。
附图说明
图1是本发明电子设备的结构示意图。
图2是关联词汇搜索系统的功能模块图。
图3是本发明关联词汇搜索方法的较佳实施例的流程图。
图4是本发明直接关系强度示意图。
图5是图4所述直接关系强度示意图对应的矩阵。
图6和图7是可转移的关系强度比例矩阵示意图。
图8是本发明间接关系强度示意图。
图9是本发明间接关系强度矩阵示意图。
主要元件符号说明
电子设备 2
显示设备 20
输入设备 22
存储器 23
关联词汇搜索系统 24
处理器 25
第一计算模块 201
第二计算模块 202
第三计算模块 203
关联词汇确定模块 204
具体实施方式
如图1所示,是本发明电子设备的结构示意图。在本实施例中,所述电子设备(如服务器)2包括通过数据总线相连的显示设备20、输入设备22、存储器23、关联词汇搜索系统24和处理器25。可以理解,在其它实施例中,所述关联词汇搜索系统24也可以设置于其它计算装置,如PDA(Personal Digital Assistant,个人数字助理)。
所述关联词汇搜索系统24用于获取词汇的间接关联词汇,从而在词汇与词汇之间的直接关系中找出间接的、隐性的关系,具体过程以下描述。
所述存储器23用于存储所述关联词汇搜索系统24的程序代码等资料。所述显示设备20和输入设备22用做电子设备2的输入输出设备。
在本实施例中,所述关联词汇搜索系统24可以被分割成一个或多个模块,所述一个或多个模块被存储在所述存储器23中并被配置成由一个或多个处理器(本实施例为一个处理器25)执行,以完成本发明。例如,参阅图2所示,所述关联词汇搜索系统24被分割成第一计算模块201、第二计算模块202、第三计算模块203和关联词汇确定模块204。本发明所称的模块是完成一特定功能的程序段,比程序更适合于描述软件在电子设备2中的执行过程。
如图3所示,是本发明关联词汇搜索方法的较佳实施例的流程图。
步骤S1,第一计算模块201计算词汇与词汇之间的直接关系强度Ri,j,得到一个直接关系强度图(参阅图4所示)。其中,所述词汇存储于存储器23中。可以理解,词汇与词汇之间的直接关系强度与词汇的排列顺序有关。例如,参阅图4所示,词汇“Term1”与词汇“Term2”的直接关系强度为2,而词汇“Term2”与词汇“Tem1”的直接关系强度为1。
在其它实施例中,所述直接关系强度图可以矩阵R表示(参阅图5所示,以下称为“直接关系强度矩阵R”)。参阅图5所示,Ri,j表示词汇“Termi”与词汇“Termj”的直接关系强度(Relation(termi,termj))。
步骤S2,第二计算模块202计算词汇与词汇之间的关系强度比例Pi,j,得到一个可转移的关系强度比例矩阵P(或简称为“关系强度比例矩阵P”)。
在第一实施例中,所述第二计算模块202通过计算词汇与词汇之间的条件机率,以获取词汇与词汇之间的关系强度比例Pi,j。参阅图6所示,矩阵P中的每个元素Pi,j表示词汇与词汇之间的条件机率P((Termi∩Termj)|Termi),Pi,i表示词汇Termi单独出现的机率。举例而言,假设词汇A出现次数为100次,当词汇A出现时词汇B出现30次,则条件机率P(A∩B)|A)=0.3,或称之词汇A可转移至词汇B的关系强度比例为30%。
在其它实施例中,第二计算模块202也可以通过其他方法来获取词汇与词汇之间的关系强度比例Pi,j,得到一个可转移的关系强度比例矩阵P′(参阅图7所示)。举例而言,假设词汇A与词汇B的直接关系强度为100,而词汇B除了与词汇A有关系以外,还跟词汇C有直接关系强度300,与其它词汇无关系(A→B→C)。因此,所有跟词汇B有关的词汇关系强度总和为400,其中词汇A占100,词汇C占300。由此可知,词汇B与词汇C的关系强度比例为0.75(或称词汇B可转移至词汇C的关系强度比例为0.75)。进一步地,可用此方法推知词汇A与词汇C的间接关系强度为100*0.75=75。根据该方法,可以得到图7所示的词汇与词汇之间的关系强度比例。
步骤S3,第三计算模块203根据词汇与词汇之间的直接关系强度Ri,j及关系强度比例Pi,j,计算出词汇与词汇之间的间接关系强度R′i,j。计算公式如下:
R ′ i , j = Σ K = 1 n R i , k * P k , j , k ≠ i , k .
其中,n为词汇的数量(即图4中的节点数),以图4为例来说,n=7,词汇Tem1与其它词汇的间接关系强度参阅图8所示,所有词汇之间的间接关系强度参阅图9所示。
步骤S4,关联词汇确定模块204根据词汇与词汇之间的间接关系强度,确定间接关联词汇。在本实施例中,关联词汇确定模块204选取间接关系强度大于或等于预设值(如1.0)的词汇作为一个词汇的间接关联词汇。举例而言,参阅图9所示,依据间接关系强度由大到小的顺序,词汇Tem1的间接关联词汇有:Term7、Term4、Term3、Term5
在本实施例中,只说明挖掘第二层的间接关系(即隐性关系),例如,根据A→B→C,可推知A→C。实际上,在其它实施例中,该方法可以应用到更多层次的间接关系挖掘,例如词汇A与词汇B有关联,词汇B与词汇C常一起出现,词汇C与词汇D常一起出现,则可推知词汇A与词汇D也有间接关联,即根据A→B→C→D,可推知A→D。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种关联词汇搜索系统,应用于电子设备中,其特征在于,该系统包括:
第一计算模块,用于计算词汇与词汇之间的直接关系强度Ri,j,得到一个直接关系强度矩阵R;
第二计算模块,用于计算词汇与词汇之间的关系强度比例Pi,j,得到一个关系强度比例矩阵P;
第三计算模块,用于根据词汇与词汇之间的直接关系强度Ri,j及关系强度比例Pi,j,计算词汇与词汇之间的间接关系强度R′i,j;及
关联词汇确定模块,用于根据词汇与词汇之间的间接关系强度,确定间接关联词汇。
2.如权利要求1所述的关联词汇搜索系统,其特征在于,所述第二计算模块通过计算词汇与词汇之间的条件机率,以获取词汇与词汇之间的关系强度比例Pi,j
3.如权利要求1所述的关联词汇搜索系统,其特征在于,所述第三计算模块计算词汇与词汇之间的间接关系强度R′i,j的公式为:
Figure FDA0000045820450000011
其中,n为词汇的数量。
4.如权利要求1所述的关联词汇搜索系统,其特征在于,所述关联词汇确定模块选取间接关系强度大于或等于预设值的词汇作为一个词汇的间接关联词汇。
5.如权利要求4所述的关联词汇搜索系统,其特征在于,所述预设值为1.0。
6.一种关联词汇搜索方法,运行于电子设备中,其特征在于,该方法包括如下步骤:
计算词汇与词汇之间的直接关系强度Ri,j,得到一个直接关系强度矩阵R;
计算词汇与词汇之间的关系强度比例Pi,j,得到一个关系强度比例矩阵P;
根据词汇与词汇之间的直接关系强度Ri,j及关系强度比例Pi,j,计算词汇与词汇之间的间接关系强度R′i,j;及
根据词汇与词汇之间的间接关系强度,确定间接关联词汇。
7.如权利要求6所述的关联词汇搜索方法,其特征在于,所述词汇与词汇之间的关系强度比例Pi,j通过计算词汇与词汇之间的条件机率获取。
8.如权利要求6所述的关联词汇搜索方法,其特征在于,所述词汇与词汇之间的间接关系强度R′i,j根据以下公式获取,
Figure FDA0000045820450000021
其中,n为词汇的数量。
9.如权利要求6所述的关联词汇搜索方法,其特征在于,所述根据词汇与词汇之间的间接关系强度,确定间接关联词汇的步骤包括:选取间接关系强度大于或等于预设值的词汇作为一个词汇的间接关联词汇。
10.如权利要求9所述的关联词汇搜索方法,其特征在于,所述预设值为1.0。
CN2011100310945A 2011-01-28 2011-01-28 关联词汇搜索系统及方法 Pending CN102622363A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011100310945A CN102622363A (zh) 2011-01-28 2011-01-28 关联词汇搜索系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100310945A CN102622363A (zh) 2011-01-28 2011-01-28 关联词汇搜索系统及方法

Publications (1)

Publication Number Publication Date
CN102622363A true CN102622363A (zh) 2012-08-01

Family

ID=46562286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100310945A Pending CN102622363A (zh) 2011-01-28 2011-01-28 关联词汇搜索系统及方法

Country Status (1)

Country Link
CN (1) CN102622363A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216932A (zh) * 2013-09-29 2014-12-17 北大方正集团有限公司 一种知识点关系强度的度量方法及其系统
CN104216933A (zh) * 2013-09-29 2014-12-17 北大方正集团有限公司 一种知识点隐性关系获取方法及其系统
CN104516904A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 一种关键知识点推荐方法及其系统
CN105335374A (zh) * 2014-06-19 2016-02-17 北大方正集团有限公司 知识点关联方法及装置、及包含该装置的服务器和客户端
CN105373546A (zh) * 2014-08-25 2016-03-02 北大方正集团有限公司 一种用于知识服务的信息处理方法及系统
CN107943935A (zh) * 2017-11-23 2018-04-20 北京天广汇通科技有限公司 数据的处理方法、装置和计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1845105A (zh) * 2006-05-22 2006-10-11 赵开灏 基于三元模型的信息检索加工的方法
JP2008305078A (ja) * 2007-06-06 2008-12-18 Mitsubishi Electric Corp 関連語抽出支援装置および関連語抽出支援プログラム
CN101334783A (zh) * 2008-05-20 2008-12-31 上海大学 基于语义矩阵的网络用户行为个性化的表达方法
US20090063959A1 (en) * 2007-08-20 2009-03-05 Zoran Stejic Document creation support system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1845105A (zh) * 2006-05-22 2006-10-11 赵开灏 基于三元模型的信息检索加工的方法
JP2008305078A (ja) * 2007-06-06 2008-12-18 Mitsubishi Electric Corp 関連語抽出支援装置および関連語抽出支援プログラム
US20090063959A1 (en) * 2007-08-20 2009-03-05 Zoran Stejic Document creation support system
CN101334783A (zh) * 2008-05-20 2008-12-31 上海大学 基于语义矩阵的网络用户行为个性化的表达方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104516904B (zh) * 2013-09-29 2018-04-03 北大方正集团有限公司 一种关键知识点推荐方法及其系统
CN104216932B (zh) * 2013-09-29 2017-11-07 北大方正集团有限公司 一种知识点关系强度的度量方法及其系统
WO2015043070A1 (zh) * 2013-09-29 2015-04-02 北大方正集团有限公司 一种知识点隐性关系获取方法及其系统
WO2015043068A1 (zh) * 2013-09-29 2015-04-02 北大方正集团有限公司 一种知识点关系强度的度量方法及其系统
CN104516904A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 一种关键知识点推荐方法及其系统
US10210281B2 (en) 2013-09-29 2019-02-19 Peking University Founder Group Co., Ltd. Method and system for obtaining knowledge point implicit relationship
CN104216933A (zh) * 2013-09-29 2014-12-17 北大方正集团有限公司 一种知识点隐性关系获取方法及其系统
JP2016538611A (ja) * 2013-09-29 2016-12-08 ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド ナレッジポイント関係強度を測定する方法及びシステム
CN104216932A (zh) * 2013-09-29 2014-12-17 北大方正集团有限公司 一种知识点关系强度的度量方法及其系统
CN105335374A (zh) * 2014-06-19 2016-02-17 北大方正集团有限公司 知识点关联方法及装置、及包含该装置的服务器和客户端
CN105373546A (zh) * 2014-08-25 2016-03-02 北大方正集团有限公司 一种用于知识服务的信息处理方法及系统
CN105373546B (zh) * 2014-08-25 2019-03-29 北大方正集团有限公司 一种用于知识服务的信息处理方法及系统
CN107943935A (zh) * 2017-11-23 2018-04-20 北京天广汇通科技有限公司 数据的处理方法、装置和计算机可读存储介质
CN107943935B (zh) * 2017-11-23 2021-02-02 北京天广汇通科技有限公司 数据的处理方法、装置和计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN102622363A (zh) 关联词汇搜索系统及方法
CN102646103B (zh) 检索词的聚类方法和装置
CN105183770A (zh) 一种基于图模型的中文集成实体链接方法
CN107967256B (zh) 词语权重预测模型生成方法、职位推荐方法及计算设备
EP3961476A1 (en) Entity linking method and apparatus, electronic device and storage medium
EP3846069A1 (en) Pre-training method for sentiment analysis model, and electronic device
CN105677857B (zh) 一种关键词与营销落地页的精准匹配方法和装置
CN103077160B (zh) 电子文档批注方法、访问电子文档批注的方法及装置
EP3916579A1 (en) Method for resource sorting, method for training sorting model and corresponding apparatuses
CN111090991B (zh) 场景纠错方法、装置、电子设备和存储介质
CN103309893A (zh) 一种字符串的比较方法及装置
CN108255602A (zh) 任务组合方法及终端设备
CN104281275B (zh) 一种英文的输入方法和装置
CN101201833A (zh) Pdf文档数据填充系统及方法
CN111309872B (zh) 搜索处理方法、装置及设备
CN113222118A (zh) 神经网络训练方法、装置、电子设备、介质和程序产品
CN102999495B (zh) 一种同义词语义映射关系确定方法及装置
CN103294684A (zh) 关联词汇搜索系统及方法
CN113204614A (zh) 模型训练方法、优化训练数据集的方法及其装置
CN109376362A (zh) 一种纠错文本的确定方法以及相关设备
CN106339105A (zh) 用于识别拼音信息的方法及装置
CN108388556A (zh) 同类实体的挖掘方法及系统
CN105677664A (zh) 基于网络搜索的紧密度确定方法及装置
CN113792232B (zh) 页面特征计算方法、装置、电子设备、介质及程序产品
TWI525580B (zh) 衰退型多元流動網路之可靠度的計算系統及其方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120801