CN107291685B - 语义识别方法和语义识别系统 - Google Patents

语义识别方法和语义识别系统 Download PDF

Info

Publication number
CN107291685B
CN107291685B CN201610228402.6A CN201610228402A CN107291685B CN 107291685 B CN107291685 B CN 107291685B CN 201610228402 A CN201610228402 A CN 201610228402A CN 107291685 B CN107291685 B CN 107291685B
Authority
CN
China
Prior art keywords
probability
prob
local
text
semantics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610228402.6A
Other languages
English (en)
Other versions
CN107291685A (zh
Inventor
刘克松
杨建武
张丹
蔡慧慧
马路
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Peking University
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University
Priority to CN201610228402.6A priority Critical patent/CN107291685B/zh
Publication of CN107291685A publication Critical patent/CN107291685A/zh
Application granted granted Critical
Publication of CN107291685B publication Critical patent/CN107291685B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供了一种语义识别方法和语义识别系统,其中,语义识别方法包括:确定与关键词相关的多个参考词汇,以及与关键词相邻的局部文本;计算参考词汇属于局部文本的概率,并记作第一概率;在检测到第一参考词汇的第一概率大于或等于预设概率时,确定第一参考词汇相关的语义作为关键词的语义,其中,第一参考词汇属于多种参考词汇。通过本发明技术方案,综合关键词的局部搭配和全局语境判断关键词的语义,提高了语义识别的准确率。

Description

语义识别方法和语义识别系统
技术领域
本发明涉及语义识别技术领域,具体而言,涉及一种语义识别方法和一种语义识别系统。
背景技术
随着互联网的飞速发展,尤其是社交网络泛在化对现实渗透,以微博为代表的用户生成内容在互联网上大量涌现。面对海量文本数据,基于关键字的检索仍是快速发现相关内容的有效手段。然而,关键词在不同上下文里往往表现不同的语义,仅有关键字并不能完全表达用户的检索需求。例如,使用关键词“苹果”检索文本,其返回结果有的属于手机行业,有的属于农产品行业,原因在于关键词“苹果”在不同的上下文语境中,有时表示公司的名称,有时表示一种水果。因此,准确识别关键词的语义是判断检索结果质量的关键。
相关技术中,为克服语义识别困难,提高检索质量,采用查询词扩展、伪反馈和领域本体(Ontology)知识库等技术进行语义识别:
(1)查询词扩展、伪反馈技术能够提高检索结果的准确性,但往往不能保证信息的完整性和较高的查全率;
(2)领域本体知识库的构建依赖专家知识以及大量手工标注精力,且存在自动构建、内容更新、领域迁移等困难。
因此,如何设计一种新的语义识别方案,以提高语义识别的准确性成为亟待解决的技术问题。
发明内容
本发明正是基于上述技术问题至少之一,提出了一种新的语义识别方案,通过确定关键词的多个参考词汇,并结合关键词的局部文本确定参考词汇的第一概率,局部文本和参考词汇的第一概率反映了关键词的使用语境,也即结合语境对关键词进行识别,提高了语义识别的准确性,另外,通过进一步地结合关键词所属的全局文本,克服了局部文本的局限性,进一步地提高了语义识别的可靠性。
有鉴于此,本发明提出了一种语义识别方法,包括:确定与关键词相关的多个参考词汇,以及与关键词相邻的局部文本;计算参考词汇属于局部文本的概率,并记作第一概率;在检测到第一参考词汇的第一概率大于或等于预设概率时,确定第一参考词汇相关的语义作为关键词的语义,其中,第一参考词汇属于多种参考词汇。
在该技术方案中,通过确定关键词的多个参考词汇,并结合关键词的局部文本确定参考词汇的第一概率(可以为最大值或属于预设阈值范围的概率值),局部文本和参考词汇的第一概率反映了关键词的使用语境,也即结合语境对关键词进行识别,提高了语义识别的准确性,另外,通过进一步地结合关键词所属的全局文本,克服了局部文本的局限性,进一步地提高了语义识别的可靠性。
其中,关键词相邻的局部文本可以集中体现语境,而参考词汇紧密地关联于关键词的词义,例如,关键词为“苹果”,一类参考词汇是“手机”、“库克”、“Ipad”、“Iphone”和“一体机”等,另一类参考词汇是“果实”、“单价”、“树叶”、“种植”和“产量”等。在确定“苹果”相邻的局部文本后,计算每一类参考词汇属于局部文本的概率(即第一概率),例如,局部文本包括100个词汇,仅“手机”在局部文本中出现20次,根据统计概率第一概率为20%,如预设概率为10%,则认定“苹果”属于手机领域的语义。
值得特别指出的是,预设概率可以有技术人员进行修正,以保证局部语义识别的效率和准确率。
在上述技术方案中,优选地,还包括:在检测到全部参考词汇的第一概率小于预设概率时,确定关键词所属的全局文本;计算参考词汇属于全局文本的概率,并记作第二概率;确定第二概率最大的参考词汇作为第二参考词汇,并确定第二参考词汇相关的语义作为关键词的语义,其中,第二参考词汇属于多种参考词汇。
在该技术方案中,通过计算候选词汇在全局文本的概率,并记作第二概率,以第二概率最大的参考词汇的语义确定为关键词的语义,进一步地改善了局部文本的局限性,也即在局部文本用词比较丰富的情况下,参考词汇属于局部文本的概率偏低,因此通过全局文本中概率最大的参考词汇的语义确定关键词的语义,进一步地提升了语义识别的可靠性和准确性。
在上述任一项技术方案中,优选地,计算参考词汇属于局部文本的概率,并记作第一概率,具体包括以下步骤:根据第一概率公式计算参考词汇属于局部文本的概率,其中,第一概率公式为Prob(kα|local_context)=∏Prob(wp|kα)×Prob(kα),Prob(kα|local_context)表征第一概率,Prob(wp|kα)表征局部文本的指定位置出现第一参考词汇的条件概率,Prob(kα)表征参考词汇为第一参考词汇的概率。
在该技术方案中,通过确定关键词的多个参考词汇,并结合关键词的局部文本确定参考词汇的第一概率,局部文本和参考词汇的第一概率反映了关键词的使用语境,也即结合语境对关键词进行识别,提高了语义识别的准确性,另外,通过进一步地结合关键词所属的全局文本,克服了局部文本的局限性,进一步地提高了语义识别的可靠性。
其中,计算每个候选词汇属于局部文本的条件概率,kα表征关键词,wp表征候选词汇,local_context表征关键词局部文本,以所有候选词汇的乘积作为上述第一概率。
另外,每个候选词汇可以是人工筛选或者服务器根据候选词汇与关键词的关联使用频率选取。
在上述任一项技术方案中,优选地,在检测到第一参考词汇的第一概率大于或等于预设概率时,确定第一参考词汇相关的语义作为关键词的语义,具体包括以下步骤:确定第一概率最大的参考词汇作为第一参考词汇;判断第一参考词汇的第一概率是否大于或等于预设概率;在判定第一参考词汇的第一概率大于或等于预设概率时,确定第一参考词汇相关的语义作为关键词的语义。
在该技术方案中,通过判断第一概率是否大于或等于预设概率,提升了语义识别的效率,其中,预设概率可以根据人工筛选过程确定,也可以通过服务器进行修改。
在上述任一项技术方案中,优选地,计算参考词汇属于全局文本的概率,并记作第二概率,具体包括以下步骤:根据第二概率公式计算参考词汇属于全局文本的概率,其中,第二概率公式为Prob(kα|global_context)=∏Prob(μ|kα)×Prob(kα),Prob(kα|global_context)表征第二概率,Prob(μ|kα)表征全局文本的指定位置出现第二参考词汇的条件概率,Prob(kα)表征参考词汇为第二参考词汇的概率。
在该技术方案中,通过计算候选词汇在全局文本的概率,并记作第二概率,以第二概率最大的参考词汇的语义确定为关键词的语义,进一步地改善了局部文本的局限性,也即在局部文本用词比较丰富的情况下,参考词汇属于局部文本的概率偏低,因此通过全局文本中概率最大的参考词汇的语义确定关键词的语义,进一步地提升了语义识别的可靠性和准确性。
其中,计算每个候选词汇属于局部文本的条件概率,kα表征关键词,μ表征候选词汇,global_context表征关键词全局文本,以所有候选词汇的乘积作为上述第二概率。
另外,每个候选词汇可以是人工筛选或者服务器根据候选词汇与关键词的关联使用频率选取。
根据本发明第二方面,还提出了一种语义识别系统,包括:确定单元,用于确定与关键词相关的多个参考词汇,以及与关键词相邻的局部文本;计算单元,用于计算参考词汇属于局部文本的概率,并记作第一概率;确定单元还用于:在检测到第一参考词汇的第一概率大于或等于预设概率时,确定第一参考词汇相关的语义作为关键词的语义,其中,第一参考词汇属于多种参考词汇。
在该技术方案中,通过确定关键词的多个参考词汇,并结合关键词的局部文本确定参考词汇的第一概率(可以为最大值或属于预设阈值范围的概率值),局部文本和参考词汇的第一概率反映了关键词的使用语境,也即结合语境对关键词进行识别,提高了语义识别的准确性,另外,通过进一步地结合关键词所属的全局文本,克服了局部文本的局限性,进一步地提高了语义识别的可靠性。
其中,关键词相邻的局部文本可以集中体现语境,而参考词汇紧密地关联于关键词的词义,例如,关键词为“苹果”,一类参考词汇是“手机”、“库克”、“Ipad”、“Iphone”和“一体机”等,另一类参考词汇是“果实”、“单价”、“树叶”、“种植”和“产量”等。在确定“苹果”相邻的局部文本后,计算每一类参考词汇属于局部文本的概率(即第一概率),例如,局部文本包括100个词汇,仅“手机”在局部文本中出现20次,根据统计概率第一概率为20%,如预设概率为10%,则认定“苹果”属于手机领域的语义。
值得特别指出的是,预设概率可以有技术人员进行修正,以保证局部语义识别的效率和准确率。
在上述技术方案中,优选地,确定单元还用于:在检测到全部参考词汇的第一概率小于预设概率时,确定关键词所属的全局文本;计算单元还用于:计算参考词汇属于全局文本的概率,并记作第二概率;确定单元还用于:确定第二概率最大的参考词汇作为第二参考词汇,并确定第二参考词汇相关的语义作为关键词的语义,其中,第二参考词汇属于多种参考词汇。
在该技术方案中,通过计算候选词汇在全局文本的概率,并记作第二概率,以第二概率最大的参考词汇的语义确定为关键词的语义,进一步地改善了局部文本的局限性,也即在局部文本用词比较丰富的情况下,参考词汇属于局部文本的概率偏低,因此通过全局文本中概率最大的参考词汇的语义确定关键词的语义,进一步地提升了语义识别的可靠性和准确性。
在上述任一项技术方案中,优选地,计算单元还用于:根据第一概率公式计算参考词汇属于局部文本的概率,其中,第一概率公式为Prob(kα|local_context)=∏Prob(wp|kα)×Prob(kα),Prob(kα|local_context)表征第一概率,Prob(wp|kα)表征局部文本的指定位置出现第一参考词汇的条件概率,Prob(kα)表征参考词汇为第一参考词汇的概率。
在该技术方案中,通过确定关键词的多个参考词汇,并结合关键词的局部文本确定参考词汇的第一概率,局部文本和参考词汇的第一概率反映了关键词的使用语境,也即结合语境对关键词进行识别,提高了语义识别的准确性,另外,通过进一步地结合关键词所属的全局文本,克服了局部文本的局限性,进一步地提高了语义识别的可靠性。
其中,计算每个候选词汇属于局部文本的条件概率,kα表征关键词,wp表征候选词汇,local_context表征关键词局部文本,以所有候选词汇的乘积作为上述第一概率。
另外,每个候选词汇可以是人工筛选或者服务器根据候选词汇与关键词的关联使用频率选取。
在上述任一项技术方案中,优选地,确定单元还用于:确定第一概率最大的参考词汇作为第一参考词汇;语义识别系统还包括:判断单元,用于判断第一参考词汇的第一概率是否大于或等于预设概率;确定单元还用于:在判定第一参考词汇的第一概率大于或等于预设概率时,确定第一参考词汇相关的语义作为关键词的语义。
在该技术方案中,通过判断第一概率是否大于或等于预设概率,提升了语义识别的效率,其中,预设概率可以根据人工筛选过程确定,也可以通过服务器进行修改。
在上述任一项技术方案中,优选地,计算单元还用于:根据第二概率公式计算参考词汇属于全局文本的概率,其中,第二概率公式为Prob(kα|global_context)=∏Prob(μ|kα)×Prob(kα),Prob(kα|global_context)表征第二概率,Prob(μ|kα)表征全局文本的指定位置出现第二参考词汇的条件概率,Prob(kα)表征参考词汇为第二参考词汇的概率。
在该技术方案中,通过计算候选词汇在全局文本的概率,并记作第二概率,以第二概率最大的参考词汇的语义确定为关键词的语义,进一步地改善了局部文本的局限性,也即在局部文本用词比较丰富的情况下,参考词汇属于局部文本的概率偏低,因此通过全局文本中概率最大的参考词汇的语义确定关键词的语义,进一步地提升了语义识别的可靠性和准确性。
其中,计算每个候选词汇属于局部文本的条件概率,kα表征关键词,μ表征候选词汇,global_context表征关键词全局文本,以所有候选词汇的乘积作为上述第二概率。
另外,每个候选词汇可以是人工筛选或者服务器根据候选词汇与关键词的关联使用频率选取。
通过以上技术方案,通过确定关键词的多个参考词汇,并结合关键词的局部文本确定参考词汇的第一概率,局部文本和参考词汇的第一概率反映了关键词的使用语境,也即结合语境对关键词进行识别,提高了语义识别的准确性,另外,通过进一步地结合关键词所属的全局文本,克服了局部文本的局限性,进一步地提高了语义识别的可靠性。
附图说明
图1示出了根据本发明的实施例的语义识别方法的示意流程图;
图2示出了根据本发明的实施例的语义识别系统的示意框图;
图3示出了根本本发明的实施例的局部文本的示意图;
图4示出了根据本发明的实施例的语义识别方案的示意流程图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用第三方不同于在此描述的第三方方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了根据本发明的实施例的语义识别方法的示意流程图。
如图1所示,根据本发明的实施例的语义识别方法,包括:步骤102,确定与关键词相关的多个参考词汇,以及与关键词相邻的局部文本;步骤104,计算参考词汇属于局部文本的概率,并记作第一概率;步骤106,在检测到第一参考词汇的第一概率大于或等于预设概率时,确定第一参考词汇相关的语义作为关键词的语义,其中,第一参考词汇属于多种参考词汇。
在该技术方案中,通过确定关键词的多个参考词汇,并结合关键词的局部文本确定参考词汇的第一概率(可以为最大值或属于预设阈值范围的概率值),局部文本和参考词汇的第一概率反映了关键词的使用语境,也即结合语境对关键词进行识别,提高了语义识别的准确性,另外,通过进一步地结合关键词所属的全局文本,克服了局部文本的局限性,进一步地提高了语义识别的可靠性。
其中,关键词相邻的局部文本可以集中体现语境,而参考词汇紧密地关联于关键词的词义,例如,关键词为“苹果”,一类参考词汇是“手机”、“库克”、“Ipad”、“Iphone”和“一体机”等,另一类参考词汇是“果实”、“单价”、“树叶”、“种植”和“产量”等。在确定“苹果”相邻的局部文本后,计算每一类参考词汇属于局部文本的概率(即第一概率),例如,局部文本包括100个词汇,仅“手机”在局部文本中出现20次,根据统计概率第一概率为20%,如预设概率为10%,则认定“苹果”属于手机领域的语义。
值得特别指出的是,预设概率可以有技术人员进行修正,以保证局部语义识别的效率和准确率。
在上述技术方案中,优选地,还包括:在检测到全部参考词汇的第一概率小于预设概率时,确定关键词所属的全局文本;计算参考词汇属于全局文本的概率,并记作第二概率;确定第二概率最大的参考词汇作为第二参考词汇,并确定第二参考词汇相关的语义作为关键词的语义,其中,第二参考词汇属于多种参考词汇。
在该技术方案中,通过计算候选词汇在全局文本的概率,并记作第二概率,以第二概率最大的参考词汇的语义确定为关键词的语义,进一步地改善了局部文本的局限性,也即在局部文本用词比较丰富的情况下,参考词汇属于局部文本的概率偏低,因此通过全局文本中概率最大的参考词汇的语义确定关键词的语义,进一步地提升了语义识别的可靠性和准确性。
在上述任一项技术方案中,优选地,计算参考词汇属于局部文本的概率,并记作第一概率,具体包括以下步骤:根据第一概率公式计算参考词汇属于局部文本的概率,其中,第一概率公式为Prob(kα|local_context)=∏Prob(wp|kα)×Prob(kα),Prob(kα|local_context)表征第一概率,Prob(wp|kα)表征局部文本的指定位置出现第一参考词汇的条件概率,Prob(kα)表征参考词汇为第一参考词汇的概率。
在该技术方案中,通过确定关键词的多个参考词汇,并结合关键词的局部文本确定参考词汇的第一概率,局部文本和参考词汇的第一概率反映了关键词的使用语境,也即结合语境对关键词进行识别,提高了语义识别的准确性,另外,通过进一步地结合关键词所属的全局文本,克服了局部文本的局限性,进一步地提高了语义识别的可靠性。
其中,计算每个候选词汇属于局部文本的条件概率,kα表征关键词,wp表征候选词汇,local_context表征关键词局部文本,以所有候选词汇的乘积作为上述第一概率。
另外,每个候选词汇可以是人工筛选或者服务器根据候选词汇与关键词的关联使用频率选取。
在上述任一项技术方案中,优选地,在检测到第一参考词汇的第一概率大于或等于预设概率时,确定第一参考词汇相关的语义作为关键词的语义,具体包括以下步骤:确定第一概率最大的参考词汇作为第一参考词汇;判断第一参考词汇的第一概率是否大于或等于预设概率;在判定第一参考词汇的第一概率大于或等于预设概率时,确定第一参考词汇相关的语义作为关键词的语义。
在该技术方案中,通过判断第一概率是否大于或等于预设概率,提升了语义识别的效率,其中,预设概率可以根据人工筛选过程确定,也可以通过服务器进行修改。
在上述任一项技术方案中,优选地,计算参考词汇属于全局文本的概率,并记作第二概率,具体包括以下步骤:根据第二概率公式计算参考词汇属于全局文本的概率,其中,第二概率公式为Prob(kα|global_context)=∏Prob(μ|kα)×Prob(kα),Prob(kα|global_context)表征第二概率,Prob(μ|kα)表征全局文本的指定位置出现第二参考词汇的条件概率,Prob(kα)表征参考词汇为第二参考词汇的概率。
在该技术方案中,通过计算候选词汇在全局文本的概率,并记作第二概率,以第二概率最大的参考词汇的语义确定为关键词的语义,进一步地改善了局部文本的局限性,也即在局部文本用词比较丰富的情况下,参考词汇属于局部文本的概率偏低,因此通过全局文本中概率最大的参考词汇的语义确定关键词的语义,进一步地提升了语义识别的可靠性和准确性。
其中,计算每个候选词汇属于局部文本的条件概率,kα表征关键词,μ表征候选词汇,global_context表征关键词全局文本,以所有候选词汇的乘积作为上述第二概率。
另外,每个候选词汇可以是人工筛选或者服务器根据候选词汇与关键词的关联使用频率选取。
图2示出了根据本发明的实施例的语义识别系统的示意框图。
如图2所示,根据本发明的实施例的语义识别系统200,包括:确定单单元202,用于确定与关键词相关的多个参考词汇,以及与关键词相邻的局部文本;计算单元204,用于计算参考词汇属于局部文本的概率,并记作第一概率;确定单元202还用于:在检测到第一参考词汇的第一概率大于或等于预设概率时,确定第一参考词汇相关的语义作为关键词的语义,其中,第一参考词汇属于多种参考词汇。
在该技术方案中,通过确定关键词的多个参考词汇,并结合关键词的局部文本确定参考词汇的第一概率(可以为最大值或属于预设阈值范围的概率值),局部文本和参考词汇的第一概率反映了关键词的使用语境,也即结合语境对关键词进行识别,提高了语义识别的准确性,另外,通过进一步地结合关键词所属的全局文本,克服了局部文本的局限性,进一步地提高了语义识别的可靠性。
其中,关键词相邻的局部文本可以集中体现语境,而参考词汇紧密地关联于关键词的词义,例如,关键词为“苹果”,一类参考词汇是“手机”、“库克”、“Ipad”、“Iphone”和“一体机”等,另一类参考词汇是“果实”、“单价”、“树叶”、“种植”和“产量”等。在确定“苹果”相邻的局部文本后,计算每一类参考词汇属于局部文本的概率(即第一概率),例如,局部文本包括100个词汇,仅“手机”在局部文本中出现20次,根据统计概率第一概率为20%,如预设概率为10%,则认定“苹果”属于手机领域的语义。
值得特别指出的是,预设概率可以有技术人员进行修正,以保证局部语义识别的效率和准确率。
在上述技术方案中,优选地,确定单元202还用于:在检测到全部参考词汇的第一概率小于预设概率时,确定关键词所属的全局文本;计算单元204还用于:计算参考词汇属于全局文本的概率,并记作第二概率;确定单元202还用于:确定第二概率最大的参考词汇作为第二参考词汇,并确定第二参考词汇相关的语义作为关键词的语义,其中,第二参考词汇属于多种参考词汇。
在该技术方案中,通过计算候选词汇在全局文本的概率,并记作第二概率,以第二概率最大的参考词汇的语义确定为关键词的语义,进一步地改善了局部文本的局限性,也即在局部文本用词比较丰富的情况下,参考词汇属于局部文本的概率偏低,因此通过全局文本中概率最大的参考词汇的语义确定关键词的语义,进一步地提升了语义识别的可靠性和准确性。
在上述任一项技术方案中,优选地,计算单元204还用于:根据第一概率公式计算参考词汇属于局部文本的概率,其中,第一概率公式为Prob(kα|local_context)=∏Prob(wp|kα)×Prob(kα),Prob(kα|local_context)表征第一概率,Prob(wp|kα)表征局部文本的指定位置出现第一参考词汇的条件概率,Prob(kα)表征参考词汇为第一参考词汇的概率。
在该技术方案中,通过确定关键词的多个参考词汇,并结合关键词的局部文本确定参考词汇的第一概率,局部文本和参考词汇的第一概率反映了关键词的使用语境,也即结合语境对关键词进行识别,提高了语义识别的准确性,另外,通过进一步地结合关键词所属的全局文本,克服了局部文本的局限性,进一步地提高了语义识别的可靠性。
其中,计算每个候选词汇属于局部文本的条件概率,kα表征关键词,wp表征候选词汇,local_context表征关键词局部文本,以所有候选词汇的乘积作为上述第一概率。
另外,每个候选词汇可以是人工筛选或者服务器根据候选词汇与关键词的关联使用频率选取。
在上述任一项技术方案中,优选地,确定单元202还用于:确定第一概率最大的参考词汇作为第一参考词汇;语义识别系统200还包括:判断单元206,用于判断第一参考词汇的第一概率是否大于或等于预设概率;确定单元202还用于:在判定第一参考词汇的第一概率大于或等于预设概率时,确定第一参考词汇相关的语义作为关键词的语义。
在该技术方案中,通过判断第一概率是否大于或等于预设概率,提升了语义识别的效率,其中,预设概率可以根据人工筛选过程确定,也可以通过服务器进行修改。
在上述任一项技术方案中,优选地,计算单元204还用于:根据第二概率公式计算参考词汇属于全局文本的概率,其中,第二概率公式为Prob(kα|global_context)=∏Prob(μ|kα)×Prob(kα),Prob(kα|global_context)表征第二概率,Prob(μ|kα)表征全局文本的指定位置出现第二参考词汇的条件概率,Prob(kα)表征参考词汇为第二参考词汇的概率。
在该技术方案中,通过计算候选词汇在全局文本的概率,并记作第二概率,以第二概率最大的参考词汇的语义确定为关键词的语义,进一步地改善了局部文本的局限性,也即在局部文本用词比较丰富的情况下,参考词汇属于局部文本的概率偏低,因此通过全局文本中概率最大的参考词汇的语义确定关键词的语义,进一步地提升了语义识别的可靠性和准确性。
其中,计算每个候选词汇属于局部文本的条件概率,kα表征关键词,μ表征候选词汇,global_context表征关键词全局文本,以所有候选词汇的乘积作为上述第二概率。
另外,每个候选词汇可以是人工筛选或者服务器根据候选词汇与关键词的关联使用频率选取。
根据本发明的实施例的语义识别方案至少包括以下实施方式。
语义识别系统包括:语料学习模块,关键词局部搭配识别模块、关键词全局语境识别模块。
所述语料学习模块包括:语料整理及预处理,关键词语义标注,关键词在语料中的局部搭配收集,关键词在语料中的全局语境收集。
语料整理及预处理是指通过互联网文本采集技术实现包含关键词的文本收集和语义标注。通常使用关键词简单匹配采集或检索得到的大量文本,包含噪声数据,且语义不尽相同。因此提出根据辅助关键词进行自动语义标注。辅助关键词是指不同语义下经常和关键词一起出现的相关词。
假设语料经过去除噪声数据后,包含关键词k的文本集合为Ω(k),且存在n种语义。与关键词k的第α种语义相关的辅助关键词记为Wα,同时包含关键词k和Wα的集合记为Ω(k,Wα)。根据训练集Ω(k,Wα),α=1,2,3……,n,采用支持向量机(Support VectorMachine)对除关键词以外的文本
Figure BDA0000964312460000121
进行分类,最后得到的n个语义集合Ω(kα),分别对应关键词k出现在n个不同语义环境时的语料。
关键词在语料中的局部搭配收集,对关键词k的每个语义集合Ω(kα),统计关键词k在第α种语义上下文环境中,近邻取词的概率Prob(wp|kα),以及语义的先验概率Prob(kα)。注意到近邻取词的概率不但和词w有关,也和词w出现的位置p有关。p为近邻词的位置,取值整数,范围为[-Δ,-1]∪[1,Δ],一般Δ取值为3。图3为关键词的局部搭配示意图,局部文本的词汇分布为“W-△,……,W‐2,W‐1,kα,W1,W2,……,W”。
关键词在语料中的全局语境收集,是不在关键词的局部范围,即去除掉关键词及其左右近邻词,剩余的文本内容,统计Prob(μ|kα),表示关键词k在第α种语义环境使用时,全局语境中词μ出现的概率。
所述关键词局部搭配识别模块,利用语料学习模块得到的局部搭配,根据公式(1)计算关键词k属于不同语义的可能性:
Prob(kα|local_context)=∏Prob(wp|kα)×Prob(kα)----(1),
其中kα表示关键词k取第α种语义类别,p为近邻词的位置,取值整数,范围为[-Δ,-1]∪[1,Δ]。当公式(1)中最大值超过局部搭配的阈值δ时,Max(Prob(kα|local_context))≥δ,那么认为关键词k属于第α种语义类别。
所述关键词全局语境识别模块,当局部搭配不能判断关键词的语义类别式,需要进一步利用语料学习模块得到的全局语境知识,根据公式(2)计算关键词k属于不同语义的可能性:
Prob(kα|global_context)=∏Prob(μ|kα)×Prob(kα)----(2),
其中,μ表示关键词所在文档中非近邻词的下标。最后,将全局语境可能性最大的语义类别α作为关键词的语义类别。
下面结合图4对根据本发明的语义识别方法进行具体说明,以关键词“钓鱼”为例,包括以下步骤确定语义:
步骤402,确定包含关键词的局部文本,以及参考词汇属于局部文本的概率(即第一概率),确定关键词k为“钓鱼”,语义有2种。对于第1类语义1采用辅助关键词“鱼饵”,“鱼竿”;对于第2类语义采用辅助关键词“网络”、“假冒”。收集包含关键词“钓鱼”的大规模语料集Ω(k):
1)在河流、小溪、大海等有水的地方,垂钓、捕鱼的本义;
2)互联网上用欺骗性的电子邮件或伪造的Web站点来进行的诈骗活动。
步骤404,判断第一概率是否大于或等于预设阈值,若是,则执行步骤410,若否,则执行步骤406,把(“钓鱼”AND(“鱼饵”OR“鱼竿”))和(“钓鱼”AND(“网络”OR“假冒”))分别命中文本集合Ω1和Ω2,使用支持向量机(Support Vector Machine)预测剩余文本关键词的语义类别,完成自动语义标注。
步骤406,确定包含关键词的局部文本,以及参考词汇属于全局文本的概率(即第二概率),从以上语义集合中训练模型参数,如局部搭配概率Prob(wp|kα),语义先验概率Prob(kα),全局语境词概率Prob(μ|kα),完成语料学习模块功能。
最典型的网络钓鱼攻击将收信人引诱到一个通过精心设计与目标组织的网站非常相似的网站上,并获取收信人在此网站上输入的个人敏感信息,通常这个攻击过程不会让受害者警觉。
此处局部搭配词有“典型”,“网络”,“攻击”,“收信人”,“引诱”,使用公式(1),结合步骤406得到的参数,计算Prob(kα|local_context)。如果步骤402的语料集覆盖充分,步骤406得到的参数合理,此处容易发现在语义类别2比语义类别1得分要高。如果超过局部搭配的阈值δ,即可判断该文本中的“钓鱼”属于语义类别2,完成语义识别.
步骤408,以第二概率最大的参考词汇对应的语义作为关键词的语义,假设使用“钓鱼”得到如下一条文本:
把关键词“钓鱼”近邻词去掉,文本剩余的词带入公式(2),结合步骤3得到的参数,计算Prob(kα|global_context),发现语义类别2比语义类别1得分要高,则可判断该文本中的“钓鱼”属于语义类别2,完成语义识别。
步骤410,对关键词的语义进行标注,并更新语料词汇。
以上结合附图详细说明了本发明的技术方案,考虑到相关技术中如何设计一种新的语义识别方案,以提高语义识别的准确性的技术问题,本发明提出了一种新的语义识别方案,通过确定关键词的多个参考词汇,并结合关键词的局部文本确定参考词汇的第一概率,局部文本和参考词汇的第一概率反映了关键词的使用语境,也即结合语境对关键词进行识别,提高了语义识别的准确性,另外,通过进一步地结合关键词所属的全局文本,克服了局部文本的局限性,进一步地提高了语义识别的可靠性。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种语义识别方法,适用于终端,其特征在于,包括:
确定与关键词相关的多个参考词汇,以及与所述关键词相邻的局部文本;
计算参考词汇属于所述局部文本的概率,并记作第一概率;
在检测到第一参考词汇的第一概率大于或等于预设概率时,确定所述第一参考词汇相关的语义作为所述关键词的语义,
其中,所述第一参考词汇属于所述多个 参考词汇;
在检测到全部所述参考词汇的第一概率小于所述预设概率时,确定所述关键词所属的全局文本;
计算所述参考词汇属于所述全局文本的概率,并记作第二概率;
确定所述第二概率最大的参考词汇作为第二参考词汇,并确定所述第二参考词汇相关的语义作为所述关键词的语义,
其中,所述第二参考词汇属于所述多个 参考词汇。
2.根据权利要求1所述的语义识别方法,其特征在于,计算所述参考词汇属于所述局部文本的概率,并记作第一概率,具体包括以下步骤:
根据第一概率公式计算所述参考词汇属于所述局部文本的概率,
其中,所述第一概率公式为Prob(kα|local_context)=∏Prob(wp|kα)×Prob(kα),所述Prob(kα|local_context)表征第一概率,所述Prob(wp|kα)表征所述局部文本的指定位置出现所述第一参考词汇的条件概率,所述Prob(kα)表征参考词汇为所述第一参考词汇的概率。
3.根据权利要求2所述的语义识别方法,其特征在于,在检测到第一参考词汇的第一概率大于或等于预设概率时,确定所述第一参考词汇相关的语义作为所述关键词的语义,具体包括以下步骤:
确定所述第一概率最大的参考词汇作为所述第一参考词汇;
判断所述第一参考词汇的第一概率是否大于或等于所述预设概率;
在判定所述第一参考词汇的第一概率大于或等于所述预设概率时,确定所述第一参考词汇相关的语义作为所述关键词的语义。
4.根据权利要求1所述的语义识别方法,其特征在于,计算所述参考词汇属于所述全局文本的概率,并记作第二概率,具体包括以下步骤:
根据第二概率公式计算所述参考词汇属于所述全局文本的概率,
其中,所述第二概率公式为Prob(kα|global_context)=∏Prob(μ|kα)×Prob(kα),所述Prob(kα|global_context)表征第二概率,所述Prob(μ|kα)表征所述全局文本的指定位置出现所述第二参考词汇的条件概率,所述Prob(kα)表征参考词汇为所述第二参考词汇的概率。
5.一种语义识别系统,适用于终端,其特征在于,包括:
确定单元,用于确定与关键词相关的多个参考词汇,以及与所述关键词相邻的局部文本;
计算单元,用于计算参考词汇属于所述局部文本的概率,并记作第一概率;
所述确定单元还用于:在检测到第一参考词汇的第一概率大于或等于预设概率时,确定所述第一参考词汇相关的语义作为所述关键词的语义,
其中,所述第一参考词汇属于所述多个 参考词汇;
所述确定单元还用于:在检测到全部所述参考词汇的第一概率小于所述预设概率时,确定所述关键词所属的全局文本;
所述计算单元还用于:计算所述参考词汇属于所述全局文本的概率,并记作第二概率;
所述确定单元还用于:确定所述第二概率最大的参考词汇作为第二参考词汇,并确定所述第二参考词汇相关的语义作为所述关键词的语义,
其中,所述第二参考词汇属于所述多个 参考词汇。
6.根据权利要求5所述的语义识别系统,其特征在于,
所述计算单元还用于:根据第一概率公式计算所述参考词汇属于所述局部文本的概率,
其中,所述第一概率公式为Prob(kα|local_context)=∏Prob(wp|kα)×Prob(kα),所述Prob(kα|local_context)表征第一概率,所述Prob(wp|kα)表征所述局部文本的指定位置出现所述第一参考词汇的条件概率,所述Prob(kα)表征参考词汇为所述第一参考词汇的概率。
7.根据权利要求6所述的语义识别系统,其特征在于,
所述确定单元还用于:确定所述第一概率最大的参考词汇作为所述第一参考词汇;
所述语义识别系统还包括:
判断单元,用于判断所述第一参考词汇的第一概率是否大于或等于所述预设概率;
所述确定单元还用于:在判定所述第一参考词汇的第一概率大于或等于所述预设概率时,确定所述第一参考词汇相关的语义作为所述关键词的语义。
8.根据权利要求5所述的语义识别系统,其特征在于,
所述计算单元还用于:根据第二概率公式计算所述参考词汇属于所述全局文本的概率,
其中,所述第二概率公式为Prob(kα|global_context)=∏Prob(μ|kα)×Prob(kα),所述Prob(kα|global_context)表征第二概率,所述Prob(μ|kα)表征所述全局文本的指定位置出现所述第二参考词汇的条件概率,所述Prob(kα)表征参考词汇为所述第二参考词汇的概率。
CN201610228402.6A 2016-04-13 2016-04-13 语义识别方法和语义识别系统 Active CN107291685B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610228402.6A CN107291685B (zh) 2016-04-13 2016-04-13 语义识别方法和语义识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610228402.6A CN107291685B (zh) 2016-04-13 2016-04-13 语义识别方法和语义识别系统

Publications (2)

Publication Number Publication Date
CN107291685A CN107291685A (zh) 2017-10-24
CN107291685B true CN107291685B (zh) 2020-10-13

Family

ID=60095840

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610228402.6A Active CN107291685B (zh) 2016-04-13 2016-04-13 语义识别方法和语义识别系统

Country Status (1)

Country Link
CN (1) CN107291685B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110078B (zh) * 2018-01-11 2024-04-30 北京搜狗科技发展有限公司 数据处理方法和装置、用于数据处理的装置
CN109271521B (zh) * 2018-11-16 2021-03-30 北京九狐时代智能科技有限公司 一种文本分类方法及装置
CN110837735B (zh) * 2019-11-17 2023-11-03 内蒙古中媒互动科技有限公司 一种数据智能分析识别方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1916887A (zh) * 2006-09-06 2007-02-21 哈尔滨工程大学 基于替换词技术的无指导词义消歧方法
CN101464897A (zh) * 2009-01-12 2009-06-24 阿里巴巴集团控股有限公司 一种词匹配及信息查询方法及装置
CN101840397A (zh) * 2009-03-20 2010-09-22 日电(中国)有限公司 词义消歧方法和系统
CN101901210A (zh) * 2009-05-25 2010-12-01 日电(中国)有限公司 词义消歧系统和方法
CN104239300A (zh) * 2013-06-06 2014-12-24 富士通株式会社 从文本中挖掘语义关键词的方法和设备
CN105389307A (zh) * 2015-12-02 2016-03-09 上海智臻智能网络科技股份有限公司 语句意图类别识别方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070106657A1 (en) * 2005-11-10 2007-05-10 Brzeski Vadim V Word sense disambiguation
WO2012050800A1 (en) * 2010-09-29 2012-04-19 International Business Machines Corporation Context-based disambiguation of acronyms and abbreviations

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1916887A (zh) * 2006-09-06 2007-02-21 哈尔滨工程大学 基于替换词技术的无指导词义消歧方法
CN101464897A (zh) * 2009-01-12 2009-06-24 阿里巴巴集团控股有限公司 一种词匹配及信息查询方法及装置
CN101840397A (zh) * 2009-03-20 2010-09-22 日电(中国)有限公司 词义消歧方法和系统
CN101901210A (zh) * 2009-05-25 2010-12-01 日电(中国)有限公司 词义消歧系统和方法
CN104239300A (zh) * 2013-06-06 2014-12-24 富士通株式会社 从文本中挖掘语义关键词的方法和设备
CN105389307A (zh) * 2015-12-02 2016-03-09 上海智臻智能网络科技股份有限公司 语句意图类别识别方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Finding Predominant Word Senses in Untagged Text;Diana McCarthy 等;《ACL’04》;20040731;1-8 *
Knowledge-Based Query Expansion in Real-Time Microblog Search;Chao Lv 等;《AIRS 2015》;20160122;43-55 *
Unsupervised word sense disambiguation using WordNet relatives;Hee-Cheol Seo 等;《Computer Speech and Language 18》;20040609;253-273 *
基于语境计算模型的汉语词义消歧;曲维光 等;《广西师范大学学报(自然科学版)》;20061230;第24卷(第4期);179-182 *
词义自动消歧概率模型;朱靖波 等;《东北大学学学报(自然科学版)》;20001015;第21卷(第5期);第1节 *

Also Published As

Publication number Publication date
CN107291685A (zh) 2017-10-24

Similar Documents

Publication Publication Date Title
CN108965245B (zh) 基于自适应异构多分类模型的钓鱼网站检测方法和系统
US9043356B2 (en) Document processing method and system
CN106202561B (zh) 基于文本大数据的数字化应急管理案例库构建方法及装置
CN110162621B (zh) 分类模型训练方法、异常评论检测方法、装置及设备
CN110781317B (zh) 事件图谱的构建方法、装置及电子设备
CN103970733B (zh) 一种基于图结构的中文新词识别方法
CN105488196B (zh) 一种基于互联语料的热门话题自动挖掘系统
CN107437038B (zh) 一种网页篡改的检测方法及装置
CN103313248B (zh) 一种识别垃圾信息的方法和装置
CN108717408A (zh) 一种敏感词实时监控方法、电子设备、存储介质及系统
CN107193796B (zh) 一种舆情事件检测方法及装置
CN108875040A (zh) 词典更新方法及计算机可读存储介质
JP2012118977A (ja) 文書類似性計算の機械学習に基づく最適化およびカスタマイズのための方法およびシステム
CN110309251B (zh) 文本数据的处理方法、装置和计算机可读存储介质
Ilina et al. Social event detection on twitter
CN108829661B (zh) 一种基于模糊匹配的新闻主体名称提取方法
CN103886020B (zh) 一种房地产信息快速搜索方法
CN109885675B (zh) 基于改进lda的文本子话题发现方法
CN107679075B (zh) 网络监控方法和设备
CN108733791B (zh) 网络事件检测方法
CN113254643B (zh) 文本分类方法、装置、电子设备和
CN103324745A (zh) 基于贝叶斯模型的文本垃圾识别方法和系统
CN113328994B (zh) 一种恶意域名处理方法、装置、设备及机器可读存储介质
CN107943514A (zh) 一种软件文档中核心代码元素的挖掘方法及系统
CN107291685B (zh) 语义识别方法和语义识别系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230609

Address after: 100871 No. 5, the Summer Palace Road, Beijing, Haidian District

Patentee after: Peking University

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871 No. 5, the Summer Palace Road, Beijing, Haidian District

Patentee before: Peking University

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.