CN107885718A - 语义确定方法及装置 - Google Patents
语义确定方法及装置 Download PDFInfo
- Publication number
- CN107885718A CN107885718A CN201610874450.2A CN201610874450A CN107885718A CN 107885718 A CN107885718 A CN 107885718A CN 201610874450 A CN201610874450 A CN 201610874450A CN 107885718 A CN107885718 A CN 107885718A
- Authority
- CN
- China
- Prior art keywords
- word
- semantic
- keyword
- phrase
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Abstract
本发明公开了一种语义确定方法及装置,属于语义分析技术领域。所述方法包括:对文本内容进行分词,得到至少两个关键词;获取所述至少两个关键词中每个关键词的关联词语;若关键词p的关联词语中存在与关键词q相同的第一关联词语,则获取候选语义词组中的词语之间的语义相似度;所述候选语义词组包括所述关键词p和所述关键词q;根据每组候选语义词组以及所述候选语义词组所对应的语义相似度,确定所述文本内容的语义。解决了现有技术中确定的文本内容的语义的准确度较低的问题;达到了通过获取各个关键词的关联词语来丰富文本内容的语义信息,进而提高确定的文本内容的语义的准确度的效果。
Description
技术领域
本发明实施例涉及语义分析技术领域,特别涉及一种语义确定方法及装置。
背景技术
在文本挖掘领域,经常需要先确定文本内容的语义。
现有的语义确定方法为根据关键词的TF-IDF(Term Frequency–InverseDocument Frequency,词频-逆向文件频率)进行确定。具体的,该方法包括:对文本内容进行切词,得到各个关键词;对于每个关键词,获取该关键词在文本内容中出现的TF,计算该关键词的IDF,计算该关键词的TF与IDF的乘积,通过各个关键词的乘积表示文本内容的语义。
发明人在实现本发明实施例的过程中,发现现有技术至少存在以下问题:
当文本内容较短时,关键词的TF通常较小,此时通过TF-IDF确定得到的文本内容的语义的准确度较差。
发明内容
为了解决现有技术中存在的问题,本发明实施例提供了一种语义确定方法及装置。技术方案如下:
根据本发明实施例的第一方面,提供一种语义确定方法,该方法包括:
对文本内容进行分词,得到至少两个关键词;
获取所述至少两个关键词中每个关键词的关联词语;
若关键词p的关联词语中存在与关键词q相同的第一关联词语,则获取候选语义词组中的词语之间的语义相似度;所述候选语义词组包括所述关键词p和所述关键词q;
根据每组候选语义词组以及所述候选语义词组所对应的语义相似度,确定所述文本内容的语义。
根据本发明实施例的第二方面,提供一种语义确定装置,该装置包括:
分词模块,用于对文本内容进行分词,得到至少两个关键词;
词语获取模块,用于获取所述至少两个关键词中每个关键词的关联词语;
相似度获取模块,用于若关键词p的关联词语中存在与关键词q相同的第一关联词语,则获取候选语义词组中的词语之间的语义相似度;所述候选语义词组包括所述关键词p和所述关键词q;
语义确定模块,用于根据每组候选语义词组以及所述候选语义词组所对应的语义相似度,确定所述文本内容的语义。
本发明实施例提供的技术方案带来的有益效果是:
通过获取每个关键词的关联词语,进而在关键词p的关联词语中存在与关键词q相同的第一关联词语时,获取候选语义词组中的词语之间的语义相似度,根据每组候选语义词组以及候选语义词组所对应的语义相似度,确定文本内容的语义;解决了现有技术中确定的文本内容的语义的准确度较低的问题;达到了通过获取各个关键词的关联词语来丰富文本内容的语义信息,进而提高确定的文本内容的语义的准确度的效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的语义确定方法的流程图;
图2A是本发明另一实施例提供的语义确定方法的流程图;
图2B是本发明另一实施例提供的确定的m个子节点的示意图;
图2C是本发明另一实施例提供的确定得到的V层多叉树的示意图;
图3是本发明一个实施例提供的语义确定装置的示意图;
图4是本发明一个实施例提供的终端的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
请参考图1,其示出了本发明一个实施例提供的语义确定方法的方法流程图,如图1所示,该语义确定方法可以包括:
步骤101,对文本内容进行分词,得到至少两个关键词。
步骤102,获取至少两个关键词中每个关键词的关联词语。
步骤103,若关键词p的关联词语中存在与关键词q相同的第一关联词语,则获取候选语义词组中的词语之间的语义相似度。
每组候选语义词组包括关键词p和关键词q。
步骤104,根据每组候选语义词组以及候选语义词组所对应的语义相似度,确定文本内容的语义。
综上所述,本实施例提供的语义确定方法,通过获取每个关键词的关联词语,进而在关键词p的关联词语中存在与关键词q相同的第一关联词语时,获取候选语义词组中的词语之间的语义相似度,根据每组候选语义词组以及候选语义词组所对应的语义相似度,确定文本内容的语义;解决了现有技术中确定的文本内容的语义的准确度较低的问题;达到了通过获取各个关键词的关联词语来丰富文本内容的语义信息,进而提高确定的文本内容的语义的准确度的效果。
请参考图2A,其示出了本发明一个实施例提供的语义确定方法的方法流程图,如图2A所示,该语义确定方法可以包括:
步骤201,对文本内容进行分词,得到至少两个关键词。
本实施例所说的文本内容可以为长度小于预设长度的文本内容。比如,该文本内容可以为短文档中的内容、标题或者其它内容,本实施例对此并不做限定。另外,该文本内容可以为用户输入的内容,也可以为来自互联网的内容,本实施例对此并不做限定。
比如,文本内容为Q,对Q进行分词之后,可以得到6个关键词,分别表示为o、p、q、r、s和t。
步骤202,对于第n层中的每个词语,获取词语的语义关联词,将获取到的语义关联词作为第n+1层中的词语。
n的起始值为0,第0层中的词语为至少两个关键词。并且,n的最大值为V-1,V为正整数。
具体地,获取词语的语义关联词的步骤可以包括:获取词语的m个语义关联词。m的取值为第n层所对应的数值,m为正整数。其中,不同层对应的m的取值可以相同也可以不同。比如,以不同层对应的m的取值不同为例,当V为4,第0层对应的m的取值为4,第1层对应的m的取值为3,第2层对应的m的取值为4,第3层对应的m的取值为3,本实施例对此并不做限定。
实际实现时,终端可以获取词语的各个语义关联词,按照各个语义关联词与该词语的相似度由高到低的顺序进行排名,选择其中排名在前m位的语义关联词,本实施例对此并不做限定。
当然,终端还可以获取词语的任意个数的语义关联词,本实施例对此并不做限定。
可选地,对于每个词语,若获取到该词语的语义关联词有M个,M为大于等于2的整数,则此时,为了方便后续计算,终端可以对M个语义关联词与词语之间的M个语义相似度做归一化处理,得到归一化后的每个语义关联词与词语的语义相似度。具体的,终端可以将每个语义关联词与词语之间的相似度作为权重,计算归一化后的每个语义关联词的词语。比如,M为4,4个语义关联词与词语的相似度分别为0.8、0.6、0.3和0.5,则每个关键词归一化后的语义相似度分别为和
可选地,终端可以通过预设获取方式获取第n层中的每个词语的语义关联词。其中,预设获取方式包括:baseNP-ST(base Noun Phrase for Sentence Translation,基于短文本的词语分析)、重写以及LSI(Latent Semantic Indexing,隐式语义扩展)中的至少一种,本实施例对此并不做限定。
另外,当第n层中的每个词语为多叉树中的父节点时,将获取到的语义关联词作为第n+1层中的词语的步骤,可以包括:将获取到的语义关联词作为父节点的子节点。
比如,以词语为s,获取到的词语s的语义关联词的个数为m来举例,请参考图2B,其示出了获取到的各个语义关联词。图中,Sim(s,sj)表示词语s与语义关联词sj之间的相似度。其中,1≤j≤m。
步骤203,若n+1<V,则将n+1,并再次执行步骤202;V为大于等于1的整数。
若n+1<V,则说明递归深度还未达到最大值,此时,终端可以将n+1,并再次执行步骤202。
步骤204,若n+1=V,则将根据每个关键词获取到的各个词语作为关键词的关联词语。
而若n+1=V,则说明递归深度达到最大值,此时,对于每个关键词,终端可以将多叉树中该关键词所对应的V层子节点中的词语确定为该关键词的关联词语,也即终端将多叉树中由该关键词延伸得到的各个节点处的词语作为该关键词的关联词语。
比如,请参考图2C,当n+1=V时,终端可以得到图2C所示的多叉树,该多叉树可以称为TSFT(Term Similarity Feedback Tree,反馈信息树)。其中,每个关键词的关联词语即为由该关键词的节点延伸得到的V层中的所有子节点。
步骤205,若关键词p的关联词语中存在与关键词q相同的第一关联词语,则获取候选语义词组中的词语之间的语义相似度。
终端可以遍历每个关键词的各个关联词语,检测各个关联词语中是否存在与其他关键词相同的关联词语;若检测结果为关键词p的关联词语中存在与关键词q相同的第一关联词语,则由于每个关键词的关联词语与该关键词存在语义相关性,因此这就说明关键词p和关键词q存在语义相关性,此时,为了后续步骤的执行,终端可以获取候选语义词组中的词语之间的语义相似度。其中,候选语义词组包括关键词p和关键词q。并且,实际实现时,终端可以得到多组候选语义词组。比如,p和q为一组、o和s为一组、s和t为一组。
可选地,结合图2C,终端可以遍历从每个关键词开始至第V层中的各条路径,检测每条路径中是否存在与其他关键词相同的关联词语,本实施例在此不再赘述。
可选地,作为一种可能的实现方式,本步骤可以包括:获取关键词p与第一关联词语之间的语义相似度。
具体的,若第一关联词语为关键词p所对应的第k层中的词语,关键词p与第一关联词语之间的各个词语为pi,0≤i≤k,p0为关键词p,pk为第一关联词语;k为正整数;则获取关键词p与第一关联词语之间的语义相似度的步骤可以包括:
语义相似度为:
可选地,作为另一种可能的实现方式,若关键词q的关联词语中存在与关键词p相同的第二关联词语;则此时本步骤可以包括:
第一,确定第一关联词语和第二关联词语中所在层数较高的目标关联词语。
比如,第一关联词语为关键词p的第3层中的词语,而第二关联词语为关键词q的第4层中的词语,则此时,确定第二关联词语为目标关联词语。
第二,获取目标关联词语与目标关联词语所对应的关键词之间的语义相似度。
本步骤与上述第一种可能的实现方式类似,在此不再赘述。
需要补充说明的是,若候选语义词组中的某个关键词与其他关键词互为一组候选语义词组,则此时,三个关键词可以组成一组候选语义词组,该组候选语义词组的语义相似度为每对候选语义词组的语义相似度的加和。比如,以关键词q的关联词语中第z层中的词语与关键词r相同,则关键词p、关键词q和关键词r互为一组候选语义词组,该组候选语义词组的语义相似度为:
步骤206,根据每组候选语义词组以及候选语义词组所对应的语义相似度,确定文本内容的语义。
经过步骤205,终端可以确定得到每组候选语义词组以及每组候选语义词组所对应的语义相似度,并根据确定得到的内容确定文本内容的语义。
可选地,本步骤可以包括如下两种实现方式:
第一种:选取每组候选语义词组中语义相似度大于预设阈值的候选语义词组,通过选择的候选语义词组表征文本内容的语义。
第二种:选取每组候选语义词组中语义相似度排名在前N位的候选语义词组,通过选取的候选语义词组表征文本内容的语义,N为正整数。
综上所述,本实施例提供的语义确定方法,通过获取每个关键词的关联词语,进而在关键词p的关联词语中存在与关键词q相同的第一关联词语时,获取候选语义词组中的词语之间的语义相似度,根据每组候选语义词组以及候选语义词组所对应的语义相似度,确定文本内容的语义;解决了现有技术中确定的文本内容的语义的准确度较低的问题;达到了通过获取各个关键词的关联词语来丰富文本内容的语义信息,进而提高确定的文本内容的语义的准确度的效果。
同时,本实施例中,第n层中的每个词语的语义关联词的个数相同,可以提高确定的语义的准确度的效果。
在本实施例中,若候选语义词组的语义相似度根据递归深度较深的一条路径中的各个词语的相似度来计算,提高了计算得到的每组候选语义词组的语义相似度的准确度,进而提高确定的文本内容的语义的准确度的效果。
请参考图3,其示出了本发明一个实施例提供的语义确定装置的结构示意图,如图3所示,该语义确定装置可以包括:分词模块310、词语获取模块320、相似度获取模块330和语义确定模块340。
分词模块310,用于执行上述实施例中的步骤101和步骤201;
词语获取模块320,用于执行上述实施例中的步骤102;
相似度获取模块330,用于执行上述实施例中的步骤103和步骤205;
语义确定模块340,用于执行上述实施例中的步骤104和步骤206。
综上所述,本实施例提供的语义确定装置,通过获取每个关键词的关联词语,进而在关键词p的关联词语中存在与关键词q相同的第一关联词语时,获取候选语义词组中的词语之间的语义相似度,根据每组候选语义词组以及候选语义词组所对应的语义相似度,确定文本内容的语义;解决了现有技术中确定的文本内容的语义的准确度较低的问题;达到了通过获取各个关键词的关联词语来丰富文本内容的语义信息,进而提高确定的文本内容的语义的准确度的效果。
基于上述实施例提供的互动装置,可选的,词语获取模块320,包括:
获取单元,用于执行上述实施例中的步骤202和步骤203;
确定单元,用于执行上述实施例中的步骤204。
可选地,所述获取单元,还用于在所述词语为多叉树中的父节点时,将获取到的所述语义关联词作为所述父节点的子节点;
所述确定单元,还用于对于每个关键词,将所述多叉树中所述关键词所对应的V层子节点中的词语确定为所述关键词的关联词语。
可选地,所述获取单元,还用于获取所述词语的m个所述语义关联词,所述m的取值为所述第n层所对应的数值,m为正整数。
可选地,所述相似度获取模块330,还用于获取所述关键词p与所述第一关联词语之间的语义相似度。
可选地,所述第一关联词语为所述关键词p所对应的第k层中的词语,所述关键词p与所述第一关联词语之间的各个词语为pi,0≤i≤k,p0为所述关键词p,pk为所述第一关联词语;k为正整数;
所述相似度获取模块330,还用于根据所述关键词p与所述第一关联词语确定所述语义相似度,所述语义相似度为:
可选地,获取到的所述词语的语义关联词的个数为M,M为正整数;
归一化模块,用于在所述相似度获取模块330获取语义相似度之前,对所述M个语义关联词与所述词语之间的M个语义相似度做归一化处理,得到归一化后的每个语义关联词与所述词语的语义相似度。
可选地,若所述关键词q的关联词语中存在与所述关键词p相同的第二关联词语;
所述相似度获取模块330,还用于:
确定所述第一关联词语和所述第二关联词语中所在层数较高的目标关联词语;
获取所述目标关联词语与所述目标关联词语所对应的关键词之间的语义相似度。
可选地,所述语义确定模块340,还用于:
选取所述每组候选语义词组中语义相似度大于预设阈值的候选语义词组,通过选择的所述候选语义词组表征所述文本内容的语义;
或者,
选取所述每组候选语义词组中语义相似度排名在前N位的候选语义词组,通过选取的所述候选语义词组表征所述文本内容的语义,N为正整数。
本实施例中,第n层中的每个词语的语义关联词的个数相同,可以提高确定的语义的准确度的效果。
在本实施例中,若候选语义词组的语义相似度根据递归深度较深的一条路径中的各个词语的相似度来计算,提高了计算得到的每组候选语义词组的语义相似度的准确度,进而提高确定的文本内容的语义的准确度的效果。
图4其示出了本发明一个实施例提供的终端400的框图,该终端可以包括射频(RF,Radio Frequency)电路401、包括有一个或一个以上计算机可读存储介质的存储器402、输入单元403、显示单元404、传感器405、音频电路406、无线保真(WiFi,Wireless Fidelity)模块407、包括有一个或者一个以上处理核心的处理器408、以及电源409等部件。本领域技术人员可以理解,图4中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路401可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器408处理;另外,将涉及上行的数据发送给基站。通常,RF电路401包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM,Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA,Low Noise Amplifier)、双工器等。此外,RF电路401还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GSM,Global System of Mobile communication)、通用分组无线服务(GPRS,GeneralPacket Radio Service)、码分多址(CDMA,Code Division Multiple Access)、宽带码分多址(WCDMA,Wideband Code Division Multiple Access)、长期演进(LTE,Long TermEvolution)、电子邮件、短消息服务(SMS,Short Messaging Service)等。
存储器402可用于存储软件程序以及模块,处理器408通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器408和输入单元403对存储器402的访问。
输入单元403可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入单元403可包括触敏表面以及其他输入设备。触敏表面,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器408,并能接收处理器408发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入单元403还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元404可用于显示由用户输入的信息或提供给用户的信息以及终端的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元404可包括显示面板,可选的,可以采用液晶显示器(LCD,Liquid Crystal Display)、有机发光二极管(OLED,Organic Light-Emitting Diode)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器408以确定触摸事件的类型,随后处理器408根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图4中,触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面与显示面板集成而实现输入和输出功能。
终端还可包括至少一种传感器405,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板的亮度,接近传感器可在终端移动到耳边时,关闭显示面板和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路406、扬声器,传声器可提供用户与终端之间的音频接口。音频电路406可将接收到的音频数据转换后的电信号,传输到扬声器,由扬声器转换为声音信号输出;另一方面,传声器将收集的声音信号转换为电信号,由音频电路406接收后转换为音频数据,再将音频数据输出处理器408处理后,经RF电路401以发送给比如另一终端,或者将音频数据输出至存储器402以便进一步处理。音频电路406还可能包括耳塞插孔,以提供外设耳机与终端的通信。
WiFi属于短距离无线传输技术,终端通过WiFi模块407可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图4示出了WiFi模块407,但是可以理解的是,其并不属于终端的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器408是终端的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行终端的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器409可包括一个或多个处理核心;优选的,处理器408可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器408中。
终端还包括给各个部件供电的电源409(比如电池),优选的,电源可以通过电源管理系统与处理器409逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源409还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,终端还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,终端中的处理器408会运行存储在存储器402中的一个或一个以上的程序指令,从而实现上述各个方法实施例中所提供的语义确定方法。
需要说明的是:上述实施例提供的语义确定装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将服务器的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语义确定装置和语义确定方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,RandomAccess Memory)、磁盘或光盘等。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”(“a”、“an”、“the”)旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (18)
1.一种语义确定方法,其特征在于,所述方法包括:
对文本内容进行分词,得到至少两个关键词;
获取所述至少两个关键词中每个关键词的关联词语;
若关键词p的关联词语中存在与关键词q相同的第一关联词语,则获取候选语义词组中的词语之间的语义相似度;所述候选语义词组包括所述关键词p和所述关键词q;
根据每组候选语义词组以及所述候选语义词组所对应的语义相似度,确定所述文本内容的语义。
2.根据权利要求1所述的方法,其特征在于,所述获取所述至少两个关键词中每个关键词的关联词语,包括:
对于第n层中的每个词语,获取所述词语的语义关联词,将获取到的所述语义关联词作为第n+1层中的词语;其中,n的起始值为0,第0层中的词语为所述至少两个关键词;
若n+1<V,则将n+1,再次执行所述对于第n层中的每个词语,获取所述词语的语义关联词,将获取到的所述语义关联词作为第n+1层中的词语的步骤;V为大于等于1的整数;
若n+1=V,则将根据每个关键词获取到的各个词语作为所述关键词的关联词语。
3.根据权利要求2所述的方法,其特征在于,所述词语为多叉树中的父节点,所述将获取到的所述语义关联词作为第n+1层中的词语,包括:
将获取到的所述语义关联词作为所述父节点的子节点;
所述将根据每个关键词获取到的各个词语作为所述关键词的关联词语,包括:
对于每个关键词,将所述多叉树中所述关键词所对应的V层子节点中的词语确定为所述关键词的关联词语。
4.根据权利要求2所述的方法,其特征在于,所述获取所述词语的语义关联词,包括:
获取所述词语的m个所述语义关联词,所述m的取值为所述第n层所对应的数值,m为正整数。
5.根据权利要求2所述的方法,其特征在于,所述获取候选语义词组中的词语之间的语义相似度,包括:
获取所述关键词p与所述第一关联词语之间的语义相似度。
6.根据权利要求5所述的方法,其特征在于,所述第一关联词语为所述关键词p所对应的第k层中的词语,所述关键词p与所述第一关联词语之间的各个词语为pi,0≤i≤k,p0为所述关键词p,pk为所述第一关联词语;k为正整数;
所述获取所述关键词p与所述第一关联词语之间的语义相似度,包括:
根据所述关键词p与所述第一关联词语确定所述语义相似度,所述语义相似度为:
7.根据权利要求6所述的方法,其特征在于,获取到的所述词语的语义关联词的个数为M,M为正整数;
所述获取所述关键词p与所述第一关联词语之间的语义相似度之前,所述方法还包括:
对所述M个语义关联词与所述词语之间的M个语义相似度做归一化处理,得到归一化后的每个语义关联词与所述词语的语义相似度。
8.根据权利要求2所述的方法,其特征在于,若所述关键词q的关联词语中存在与所述关键词p相同的第二关联词语;
所述获取候选语义词组中的词语之间的语义相似度,包括:
确定所述第一关联词语和所述第二关联词语中所在层数较高的目标关联词语;
获取所述目标关联词语与所述目标关联词语所对应的关键词之间的语义相似度。
9.根据权利要求1至8任一所述的方法,其特征在于,所述根据每组候选语义词组以及所述候选语义词组所对应的语义相似度,确定所述文本内容的语义,包括:
选取所述每组候选语义词组中语义相似度大于预设阈值的候选语义词组,通过选择的所述候选语义词组表征所述文本内容的语义;
或者,
选取所述每组候选语义词组中语义相似度排名在前N位的候选语义词组,通过选取的所述候选语义词组表征所述文本内容的语义,N为正整数。
10.一种语义确定装置,其特征在于,所述装置包括:
分词模块,用于对文本内容进行分词,得到至少两个关键词;
词语获取模块,用于获取所述至少两个关键词中每个关键词的关联词语;
相似度获取模块,用于若关键词p的关联词语中存在与关键词q相同的第一关联词语,则获取候选语义词组中的词语之间的语义相似度;所述候选语义词组包括所述关键词p和所述关键词q;
语义确定模块,用于根据每组候选语义词组以及所述候选语义词组所对应的语义相似度,确定所述文本内容的语义。
11.根据权利要求10所述的装置,其特征在于,所述词语获取模块,包括:
获取单元,用于对于第n层中的每个词语,获取所述词语的语义关联词,将获取到的所述语义关联词作为第n+1层中的词语;其中,n的起始值为0,第0层中的词语为所述至少两个关键词;
所述获取单元,还用于在n+1<V,则将n+1,并再次执行所述对于第n层中的每个词语,获取所述词语的语义关联词,将获取到的所述语义关联词作为第n+1层中的词语的步骤;V为大于等于1的整数;
确定单元,用于在n+1=V时,将根据每个关键词获取到的各个词语作为所述关键词的关联词语。
12.根据权利要求11所述的装置,其特征在于,
所述获取单元,还用于在所述词语为多叉树中的父节点时,将获取到的所述语义关联词作为所述父节点的子节点;
所述确定单元,还用于对于每个关键词,将所述多叉树中所述关键词所对应的V层子节点中的词语确定为所述关键词的关联词语。
13.根据权利要求11所述的装置,其特征在于,
所述获取单元,还用于获取所述词语的m个所述语义关联词,所述m的取值为所述第n层所对应的数值,m为正整数。
14.根据权利要求11所述的装置,其特征在于,
所述相似度获取模块,还用于获取所述关键词p与所述第一关联词语之间的语义相似度。
15.根据权利要求14所述的装置,其特征在于,所述第一关联词语为所述关键词p所对应的第k层中的词语,所述关键词p与所述第一关联词语之间的各个词语为pi,0≤i≤k,p0为所述关键词p,pk为所述第一关联词语;k为正整数;
所述相似度获取模块,还用于根据所述关键词p与所述第一关联词语确定所述语义相似度,所述语义相似度为:
16.根据权利要求15所述的装置,其特征在于,获取到的所述词语的语义关联词的个数为M,M为正整数;
归一化模块,用于在所述相似度获取模块获取语义相似度之前,对所述M个语义关联词与所述词语之间的M个语义相似度做归一化处理,得到归一化后的每个语义关联词与所述词语的语义相似度。
17.根据权利要求11所述的装置,其特征在于,若所述关键词q的关联词语中存在与所述关键词p相同的第二关联词语;
所述相似度获取模块,还用于:
确定所述第一关联词语和所述第二关联词语中所在层数较高的目标关联词语;
获取所述目标关联词语与所述目标关联词语所对应的关键词之间的语义相似度。
18.根据权利要求10至17任一所述的装置,其特征在于,所述语义确定模块,还用于:
选取所述每组候选语义词组中语义相似度大于预设阈值的候选语义词组,通过选择的所述候选语义词组表征所述文本内容的语义;
或者,
选取所述每组候选语义词组中语义相似度排名在前N位的候选语义词组,通过选取的所述候选语义词组表征所述文本内容的语义,N为正整数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610874450.2A CN107885718B (zh) | 2016-09-30 | 2016-09-30 | 语义确定方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610874450.2A CN107885718B (zh) | 2016-09-30 | 2016-09-30 | 语义确定方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107885718A true CN107885718A (zh) | 2018-04-06 |
CN107885718B CN107885718B (zh) | 2020-01-24 |
Family
ID=61770071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610874450.2A Active CN107885718B (zh) | 2016-09-30 | 2016-09-30 | 语义确定方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107885718B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033142A (zh) * | 2018-06-11 | 2018-12-18 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置及服务器 |
CN109657210A (zh) * | 2018-11-13 | 2019-04-19 | 平安科技(深圳)有限公司 | 基于语义解析的文本准确率计算方法、装置、计算机设备 |
CN112200898A (zh) * | 2020-10-27 | 2021-01-08 | 平潭诚信智创科技有限公司 | 教育机器人的课程展示方法 |
CN112949305A (zh) * | 2021-05-13 | 2021-06-11 | 平安科技(深圳)有限公司 | 负反馈信息采集方法、装置、设备及存储介质 |
CN115810422A (zh) * | 2022-12-07 | 2023-03-17 | 深圳市宁远科技股份有限公司 | 基于ai技术的互联网智能自动诊疗应答系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101620611A (zh) * | 2008-06-30 | 2010-01-06 | 威知资讯股份有限公司 | 概念性标题产生方法 |
CN103473217A (zh) * | 2012-06-08 | 2013-12-25 | 华为技术有限公司 | 从文本中抽取关键词的方法和装置 |
CN104102626A (zh) * | 2014-07-07 | 2014-10-15 | 厦门推特信息科技有限公司 | 一种用于短文本语义相似度计算的方法 |
CN104239300A (zh) * | 2013-06-06 | 2014-12-24 | 富士通株式会社 | 从文本中挖掘语义关键词的方法和设备 |
CN105117487A (zh) * | 2015-09-19 | 2015-12-02 | 杭州电子科技大学 | 一种基于内容结构的图书语义检索方法 |
-
2016
- 2016-09-30 CN CN201610874450.2A patent/CN107885718B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101620611A (zh) * | 2008-06-30 | 2010-01-06 | 威知资讯股份有限公司 | 概念性标题产生方法 |
CN103473217A (zh) * | 2012-06-08 | 2013-12-25 | 华为技术有限公司 | 从文本中抽取关键词的方法和装置 |
CN104239300A (zh) * | 2013-06-06 | 2014-12-24 | 富士通株式会社 | 从文本中挖掘语义关键词的方法和设备 |
CN104102626A (zh) * | 2014-07-07 | 2014-10-15 | 厦门推特信息科技有限公司 | 一种用于短文本语义相似度计算的方法 |
CN105117487A (zh) * | 2015-09-19 | 2015-12-02 | 杭州电子科技大学 | 一种基于内容结构的图书语义检索方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033142A (zh) * | 2018-06-11 | 2018-12-18 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置及服务器 |
CN109033142B (zh) * | 2018-06-11 | 2021-02-12 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置及服务器 |
CN109657210A (zh) * | 2018-11-13 | 2019-04-19 | 平安科技(深圳)有限公司 | 基于语义解析的文本准确率计算方法、装置、计算机设备 |
CN109657210B (zh) * | 2018-11-13 | 2023-10-10 | 平安科技(深圳)有限公司 | 基于语义解析的文本准确率计算方法、装置、计算机设备 |
CN112200898A (zh) * | 2020-10-27 | 2021-01-08 | 平潭诚信智创科技有限公司 | 教育机器人的课程展示方法 |
CN112949305A (zh) * | 2021-05-13 | 2021-06-11 | 平安科技(深圳)有限公司 | 负反馈信息采集方法、装置、设备及存储介质 |
CN115810422A (zh) * | 2022-12-07 | 2023-03-17 | 深圳市宁远科技股份有限公司 | 基于ai技术的互联网智能自动诊疗应答系统 |
CN115810422B (zh) * | 2022-12-07 | 2023-12-29 | 深圳市维康致远科技有限公司 | 基于ai技术的互联网智能自动诊疗应答系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107885718B (zh) | 2020-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105095432B (zh) | 网页批注显示方法及装置 | |
CN106227774B (zh) | 信息搜索方法及装置 | |
CN104239535B (zh) | 一种为文字配图的方法、服务器、终端及系统 | |
CN104516887B (zh) | 一种网页数据搜索方法、装置和系统 | |
CN107885718A (zh) | 语义确定方法及装置 | |
CN106202441A (zh) | 基于关系型数据库的数据处理方法、装置和系统 | |
CN104281600B (zh) | 智能选词的方法和装置 | |
CN104618223B (zh) | 一种信息推荐的管理方法、装置和系统 | |
CN105955597B (zh) | 信息显示方法及装置 | |
CN104424278B (zh) | 一种获取热点资讯的方法及装置 | |
CN107436948A (zh) | 文件搜索方法、装置及终端 | |
CN107040610A (zh) | 数据同步方法、装置、存储介质、终端以及服务器 | |
CN105302452A (zh) | 一种基于手势交互的操作方法及装置 | |
CN104951637B (zh) | 一种获取训练参数的方法及装置 | |
CN106570001B (zh) | 一种音译文字的方法及装置 | |
CN104063400B (zh) | 数据搜索方法和装置 | |
CN105512150A (zh) | 一种信息搜索方法及装置 | |
CN104679724A (zh) | 页面注释方法及装置 | |
CN106681884B (zh) | 一种系统调用的监控方法和装置 | |
CN106844572A (zh) | 搜索结果处理方法及装置、用于搜索结果处理的装置 | |
CN104391588B (zh) | 一种输入提示的方法及装置 | |
CN103729413B (zh) | 一种即时通讯中对话项的排序方法、装置及移动终端 | |
CN103401910B (zh) | 推荐方法、服务器、终端及系统 | |
CN105095161A (zh) | 一种显示富文本信息的方法及装置 | |
CN107741901A (zh) | 一种关联数据库语句的测试方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |