CN106294309A - 组合型歧义词识别方法及装置 - Google Patents

组合型歧义词识别方法及装置 Download PDF

Info

Publication number
CN106294309A
CN106294309A CN201510256665.3A CN201510256665A CN106294309A CN 106294309 A CN106294309 A CN 106294309A CN 201510256665 A CN201510256665 A CN 201510256665A CN 106294309 A CN106294309 A CN 106294309A
Authority
CN
China
Prior art keywords
word
make
ambiguity
ambiguity word
contextual information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510256665.3A
Other languages
English (en)
Other versions
CN106294309B (zh
Inventor
周连强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Shenzhen Tencent Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tencent Computer Systems Co Ltd filed Critical Shenzhen Tencent Computer Systems Co Ltd
Priority to CN201510256665.3A priority Critical patent/CN106294309B/zh
Publication of CN106294309A publication Critical patent/CN106294309A/zh
Application granted granted Critical
Publication of CN106294309B publication Critical patent/CN106294309B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Discrimination (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种组合型歧义词识别方法及装置,所述组合型歧义词识别方法包括:获取待分析文本;根据预先建立的基本词词典和短语词典,检测出待分析文本中的组合型歧义词;计算检测出的组合型歧义词的切分和不切分的代价函数,根据计算的代价函数得到组合型歧义词的正确切分结果,以消除组合型歧义词的歧义。本发明的组合型歧义词识别方法及装置能够提高识别的准确率和效率。

Description

组合型歧义词识别方法及装置
技术领域
本发明涉及信息处理技术领域,特别涉及一种组合型歧义词识别方法及装置。
背景技术
众所周知,英文是以词为单位的,词与词之间有空格隔开。例如,英文句子:“I am a student”。计算机可以很简单地通过空格知道“student”是一个单词。然而,对于中文,最小的、能够独立活动的、有意义的语言成分是词,词由单个或多个字构成,一般用的最多的是二字词,其次是单字词,另外还有一些多字词(如成语、专有名称等)。但是中文以字为基本单位,词与词之间没有类似英文空格之类用于标识词边界的符号,例如,中文句子:“我是一个学生”。计算机就很难明白“学”、“生”两个字合起来才表示一个词。因此,对中文文本中的每个句子进行分词,也就是由机器自动识别句子中词的边界,是中文文本分析处理中一项重要的基础性工作。
分词过程的主要难点是组合型歧义词的识别,组合型歧义词是指歧义词本身就是一个汉语词条,拆开也是词。如“本领域的人才能解决这个问题”,“人才”是歧义词,既可分为“人”和“才”两个词,也可看成“人才”一个词,歧义词本身是一个词条,也可以拆开,因此“人才”是组合型歧义词,所谓组合型歧义词识别是指在分词过程中检测出输入语句中存在的组合型歧义词并加以消解的过程,包括组合型歧义词检测和歧义消解两项关键技术。组合型歧义词检测是在输入语句中发现组合型歧义词,组合型歧义词消解是对已发现的歧义词进行消解,并输出消解结果,即组合型歧义词的正确切分结果,例如“本领域的人才能解决这个问题”中的组合型歧义词“人才”应该切分为“人”和“才”两个词,而不是“人才”一个词。
现有的组合型歧义词识别方法通常是通过自动挖掘或人工整理以建立可能存在组合型歧义词的词典,然后将待识别文本与词典库中的组合型歧义词进行匹配,若在词典中找到待识别文本中的词,则匹配成功,即在待识别文本中发现存在组合型歧义词,进而根据语言是否合理的语言模型等特征消除歧义。然而,上述组合型歧义识别方法中的词典难以穷举全部的组合型歧义词,因此根据词典库中的词来识别歧义词很容易出错,从而导致组合型歧义词识别的准确率很低。并且随着词典中组合型歧义词的数据量增大,识别效率也会降低。
发明内容
本发明提供一种组合型歧义词识别方法及装置,以提高识别的准确率。
本发明实施例提供的一种组合型歧义词识别方法,包括:获取待分析文本;根据预先建立的基本词词典和短语词典,检测出待分析文本中的组合型歧义词;计算检测出的组合型歧义词的切分和不切分的代价函数,根据计算的代价函数得到组合型歧义词的正确切分结果,以消除组合型歧义词的歧义。
本发明实施例提供的一种组合型歧义词识别装置,包括:获取模块、检测模块、消解模块;获取模块用于获取待分析文本;检测模块用于根据预先建立的基本词词典和短语词典,检测出待分析文本中的组合型歧义词;消解模块用于计算检测出的组合型歧义词的切分和不切分的代价函数,根据计算的代价函数得到组合型歧义词的正确切分结果,以消除组合型歧义词的歧义。
本发明实施例所提供的组合型歧义词识别方法及装置,根据预先建立的基本词词典和短语词典,检测出待分析文本中的组合型歧义词,并计算检测出的组合型歧义词的切分和不切分的代价函数,根据计算的代价函数得到组合型歧义词的正确切分结果,以消除组合型歧义词的歧义,极大地降低了组合型歧义词识别过程的复杂度,能够快速、有效地对组合型歧义词进行检测和消除,并且还提高了组合型歧义词的识别准确率。
为让本发明的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。
附图说明
图1是一种终端设备结构示意图;
图2是本发明第一实施例提供的组合型歧义词识别方法的流程图;
图3是本发明第二实施例提供的组合型歧义词识别方法的流程图;
图4是本发明第三实施例提供的组合型歧义词识别方法的流程图;
图5是本发明第四实施例提供的组合型歧义词识别装置的主要架构框图;
图6是本发明第五实施例提供的组合型歧义词识别装置的主要架构框图;
图7是本发明第六实施例提供的组合型歧义词识别装置的主要架构框图。
具体实施方式
为更进一步阐述本发明为实现预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明的具体实施方式、结构、特征及其功效,详细说明如后。
本发明中的组合型歧义词识别方法可应用在终端设备中的即时通信客户端中,也可应用在包括智能手机、平板电脑、笔记本等在内的移动终端设备中的即时通信客户端中。
请参阅图1,图1为一种终端设备结构示意图。其中,终端设备可为移动终端设备。
终端设备包括存储器102、存储控制器104,一个或多个(图中仅示出一个)处理器106、外设接口108、射频模块110、定位模块112、摄像模块114、音频模块116、触控屏幕118以及按键模块120。这些组件通过一条或多条通讯总线/信号线122相互通讯。
可以理解,图1所示的结构仅为示意,终端设备还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
存储器102可用于存储软件程序以及模块,如本发明实施例中的在终端设备内的组合型歧义词识别方法及装置对应的程序指令/模块,处理器106通过运行存储在存储器102内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述在终端设备内的组合型歧义词识别方法。
存储器102可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器102可进一步包括相对于处理器106远程设置的存储器,这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。处理器106以及其他可能的组件对存储器102的访问可在存储控制器104的控制下进行。
外设接口108将各种输入/输入装置耦合至CPU以及存储器102。处理器106运行存储器102内的各种软件、指令以执行终端设备的各种功能以及进行数据处理。
在一些实施例中,外设接口108,处理器106以及存储控制器104可以在单个芯片中实现。在其他一些实例中,他们可以分别由独立的芯片实现。
射频模块110用于接收以及发送电磁波,实现电磁波与电信号的相互转换,从而与通讯网络或者其他设备进行通讯。射频模块110可包括各种现有的用于执行这些功能的电路元件,例如,天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。射频模块110可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。上述的无线网络可以使用各种通信标准、协议及技术,包括但并不限于全球移动通信系统(Global System for Mobile Communication,GSM)、增强型移动通信技术(Enhanced Data GSM Environment,EDGE),宽带码分多址技术(wideband codedivision multiple access,W-CDMA),码分多址技术(Code division access,CDMA)、时分多址技术(time division multiple access,TDMA),蓝牙,无线保真技术(Wireless,Fidelity,WiFi)(如美国电气和电子工程师协会标准IEEE802.11a,IEEE 802.11b,IEEE802.11g和/或IEEE 802.11n)、网络电话(Voice overinternet protocal,VoIP)、全球微波互联接入(Worldwide Interoperability forMicrowave Access,Wi-Max)、其他用于邮件、即时通讯及短消息的协议,以及任何其他合适的通讯协议,甚至可包括那些当前仍未被开发出来的协议。
定位模块112用于获取终端设备的当前位置。定位模块112的实例包括但不限于全球卫星定位系统(GPS)、基于无线局域网或者移动通信网的定位技术。
摄像模块114用于拍摄照片或者视频。拍摄的照片或者视频可以存储至存储器102内,并可通过射频模块110发送。
音频模块116向用户提供音频接口,其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。音频电路从外设接口108处接收声音数据,将声音数据转换为电信息,将电信息传输至扬声器。扬声器将电信息转换为人耳能听到的声波。音频电路还从麦克风处接收电信息,将电信号转换为声音数据,并将声音数据传输至外设接口108中以进行进一步的处理。音频数据可以从存储器102处或者通过射频模块110获取。此外,音频数据也可以存储至存储器102中或者通过射频模块110进行发送。在一些实例中,音频模块116还可包括一个耳机播孔,用于向耳机或者其他设备提供音频接口。
触控屏幕118在终端设备与用户之间同时提供一个输出及输入界面。具体地,触控屏幕118向用户显示视频输出,这些视频输出的内容可包括文字、图形、视频、及其任意组合。一些输出结果是对应于一些用户界面对象。触控屏幕118还接收用户的输入,例如用户的点击、滑动等手势操作,以便用户界面对象对这些用户的输入做出响应。检测用户输入的技术可以是基于电阻式、电容式或者其他任意可能的触控检测技术。触控屏幕118显示单元的具体实例包括但并不限于液晶显示器或发光聚合物显示器。
按键模块120同样提供用户向终端设备进行输入的接口,用户可以通过按下不同的按键以使终端设备执行不同的功能。
第一实施例
请参考图2,为本发明第一实施例提供的组合型歧义词识别方法的流程图。该方法可以由组合型歧义词识别装置所执行的识别过程;组合型歧义词识别装置可以运行在上述终端设备、服务器等设备上,所述组合型歧义词识别方法,可包括以下步骤:
步骤201,获取待分析文本;
上述待分析文本可以为一个句子、一段文字或短语等,例如“对打一成语”、“这个厂的制造和服务是一流的”等。本发明实施例可以应用于服务器根据终端提供的待分析文本进行组合型歧义词识别的场景下,该服务器具体用于对该文本进行组合型歧义词识别,以得到识别结果。终端可以在服务器提供的输入界面上输入待分析文本,当在该终端上执行对待分析文本的提交按键的点击操作时,则服务器就获取到待分析文本。
步骤203,根据预先建立的基本词词典和短语词典,检测出待分析文本中的组合型歧义词;
其中,上述基本词词典包括基本词,基本词为单个词,单个词通常为二字词或多字词,例如“成语”、“对打”、“一表人才”等。上述短语词典包括短语,短语是多个词的组合搭配,例如“打一成语”、“打一成语最新版”、“制造和服务”等。另外,基本词除了包括常用词汇外,还包括新词,例如网络上新创造的词:“神马”、“屌丝”、“微信”等。短语除了包括常用短语外,还包括新短语,例如:“何以笙箫默”等。由此可以得出,进一步地,步骤203之前还可以包括:获取基本词并将获取的基本词存储在基本词词典中,以建立基本词词典,获取短语并将获取的短语存储在短语词典中,以建立短语词典。其中,上述基本词和短语的获取可以定期通过网络搜索方式获取当前未收录的词或短语,并定期更新基本词词典和短语词典。
进一步地,步骤203中具体可以包括:将获取的待分析文本与预先建立的基本词词典和短语词典进行匹配,若待识别文本中与基本词词典中有相同的词,并且此相同的词与短语词典中的短语形成交叉型歧义,则判断待识别文本中存在组合型歧义词,即待识别文本中与基本词词典中的相同的词为组合型歧义词。
通常词有多种切分情况时即产生歧义,主要包括组合型歧义和交叉型歧义。交叉型歧义:例如字串AXB,其中,AX构成一个词,同时XB也构成一个词,这种歧义现象即为交叉型歧义,即X存在交叉型歧义,也可以说AX、XB之间存在交叉型歧义,其中A、X、B的长度可以大于或等于一个字长,如“时间”、“不同情况”等,例如:短语“表面的”,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面|的”和“表|面的”,这种为存在交叉型歧义,即“面”存在交叉型歧义,也可以说,“表面”和“面的”之间存在交叉型歧义。组合型歧义:例如字串AB,其中A、B分别独立成词,也可以合起来成词,则AB为组合型歧义词,例如“个人”、“把手”、“对打”等。
上述检测出待分析文本中的组合型歧义词的方法,是通过基本词和短语之间形成的交叉型歧义来发现基本词存在组合歧义的,即可以将较难的词的组合型歧义发现问题转换为相对容易的交叉型歧义发现问题。例如,待分析文本“对打一成语”中的“对打”为组合型歧义词,而通过现有正常的挖掘、甚至人工整理都是很难将其作为一个潜在的组合型歧义词,但是通过本发明实施例的上述方式,即将“对打一成语”与基本词词典与短语词典进行匹配,“对打”和“打一成语”分别预先存储于基本词词典和短语词典中,而“对打一成语”中的“对打”和“打一成语”形成交叉型歧义,由此可以很容易的判断出“对打”存在组合型歧义,其中,“打”是组合型歧义词“对打”中的歧义词。
步骤205,计算检测出的组合型歧义词的切分和不切分的代价函数,根据计算的代价函数得到组合型歧义词的正确切分结果,以消除组合型歧义词的歧义。
优选地,代价函数的计算方法如下:假设C1C2为一个组合型歧义词,C2为组合型歧义词中的歧义词,组合型歧义词C1C2的切分的代价函数用W1表示,不切分的代价函数用W2表示,则计算公式如下:W1=p(C1)*p(C2)*p(C3…Cn)*discount1,W2=p(C1C2)*p(C3…Cn)*discount2,其中,C1、C2、C3、…、Cn分别为至少一个字,C3…Cn为上下文信息,discount1、discount2为折扣系数,p(C1)、p(C2)分别表示组合型歧义词C1、C2在语料库中单独出现的概率,p(C3…Cn)表示C3…Cn组合在语料库中出现的概率。上述公式中,不考虑C2的上下文信息的拆分情况,因此计算组合C3…Cn的概率p(C3…Cn)。优选地,若组合型歧义词C1C2组合破坏上下文信息,则折扣系数discount2为上下文信息长度的倒数,若组合型歧义词C1C2组合不破坏上下文信息,则折扣系数discount2可以取大于1的整数。若组合型歧义词C1C2切分后破坏上下文信息,则折扣系数discount1为上下文信息长度的倒数,若组合型歧义词C1C2切分后不破坏上下文信息,则折扣系数discount1可以取大于1的整数。
下面以如下短语“对打一成语”为例进行说明,其中:“对打”可组成一个词,“打一成语”可组成一个短语,“成语”可组成一个词。通过如上代价函数的计算方法,则“对打”若组成词则会破坏短语“打一成语”的长度,则“对打”被切分成单字。具体地,根据组合型歧义词“对打”的切分的代价函数W1,不切分的代价函数W2,W1=p(C1)*p(C2)*p(C3…Cn)*discount1=p(对)*p(打)*p(C3…Cn)(即p(一)*p(成语))*discount1,W2=p(C1C2)*p(C3…Cn)*discount2=p(对打)*p(C3…Cn)(即p(一)*p(成语))*discount2,其中,discount1、discount2为折扣系数,p(对)、p(打)分别表示组合型歧义词“对”、“打”在语料库中单独出现的概率,p(一)*p(成语)表示“一”、“成语”在语料库中出现的概率。上述公式中,不考虑“打”的上下文信息的拆分情况,因此计算组合需要分别计算p(一)和p(成语)。优选地,若“对打”组合破坏上下文信息,则折扣系数discount2为上下文信息长度的倒数(即1/4),若“对打”组合不破坏上下文信息,则折扣系数discount2可以取大于1的整数,例如2。若“对打”切分后破坏上下文信息,则折扣系数discount1为上下文信息长度的倒数(即1/4),若“对打”切分后不破坏上下文信息,则折扣系数discount1可以取大于1的整数,例如2。
综上所述,本实施例提供的组合型歧义词识别方法,根据预先建立的基本词词典和短语词典,检测出待分析文本中的组合型歧义词,并计算检测出的组合型歧义词的切分和不切分的代价函数,根据计算的代价函数得到组合型歧义词的正确切分结果,以消除组合型歧义词的歧义,从而极大地降低了组合型歧义词识别过程的复杂度,能够快速、有效地对组合型歧义词进行检测和消除,并且还提高了组合型歧义词的识别准确率。
此外,还通过利用基本词和短语直接的交叉歧义发现基本词的组合型歧义,极大地提高了组合型歧义词的检测效率。
第二实施例
请参考图3,为本发明第二实施例提供的组合型歧义词识别方法的流程图。该方法可以由组合型歧义词识别装置所执行的组合型歧义词识别过程;组合型歧义词识别装置可以运行在终端、服务器等设备上;其与图2所示的组合型歧义词识别方法相似,其不同之处在于,图2的步骤201之前还可以包括:
步骤301,获取基本词并将获取的基本词存储在基本词词典中,以建立基本词词典,获取短语并将获取的短语存储在短语词典中,以建立短语词典。
其中,上述基本词词典包括基本词,基本词为包括至少两个字的单个词,单个词通常为二字词或多字词,例如“成语”、“对打”、“一表人才”等。上述短语词典包括短语,短语是多个词的常用组合搭配,例如“打一成语”、“打一成语最新版”、“制造和服务”等。另外,基本词除了包括常用词汇外,还包括新词,例如网络上新创造的词:“神马”、“屌丝”、“微信”等。短语除了包括常用短语外,还包括新短语,例如:“何以笙箫默”等。上述基本词和短语的获取可以定期通过网络搜索方式获取当前未收录的词或短语,并定期更新基本词词典和短语词典。
综上所述,本实施例提供的组合型歧义词识别方法,还通过获取基本词并将获取的基本词存储在基本词词典中,以建立基本词词典,获取短语并将获取的短语存储在短语词典中,以建立短语词典,从而使得仅根据基本词词典和短语词典即可以实现组合型歧义词的识别,提高组合型歧义词的检测效率。
第三实施例
请参考图4,为本发明第三实施例提供的组合型歧义词识别方法的流程图。该方法可以由组合型歧义词识别装置所执行的组合型歧义词识别过程;组合型歧义词识别装置可以运行在终端、服务器等设备上;其与图2所示的组合型歧义词识别方法相似,其不同之处在于,图2的步骤205包括以下子步骤:
步骤401,获取检测出的组合型歧义词的上下文信息,并根据组合型歧义词中的歧义词与上下文信息的紧密度、上下文信息的长度,计算组合型歧义词的切分的代价函数和不切分的代价函数;
步骤403,比较组合型歧义词的切分的代价函数和不切分的代价函数,以得到组合型歧义词的正确切分结果。即若组合型歧义词的切分的代价函数大于不切分的代价函数,则将组合型歧义词进行切分,若组合型歧义词的切分的代价函数不大于不切分的代价函数,则不将组合型歧义词进行切分。
其中,上下文信息即组合型歧义词的前后的词,例如“对打一成语”中“对打”这个词的上下文信息就是:句子开始+“一成语”,即组合型歧义词前后的词。
上述得到组合型歧义词的正确切分结果方法是根据组合型歧义词(例如,“对打”)中的歧义词(例如“打”)是否破坏短语(例如“打一成语”)的长度、紧密度等信息,来辅助组合型歧义词的消解,即相对现有方法引入更多特征提升消歧精度。紧密度是组合型歧义词中的歧义词与上下文信息的紧密程度,以“对打一成语”为例,则紧密度可以根据短语“打一成语”中的词“打”的互现信息来衡量,紧密度的计算公式可以为J=f2/f1,其中,J为组合型歧义词中的歧义词与上下文信息的紧密度,f1为组合型歧义词中的歧义词在语料库中出现的次数,f2是语料库中包含歧义词的上下文信息(即短语“打一成语”)出现的次数,其中,语料库中可以存储句子等语料,语料库的形成是将一些文学作品中的语句段落、报刊杂志上出现过的语句段落等在现实生活中真实出现过的语言材料整理在一起,形成一个语料库,以便做科学研究的时候能够从中取材或者得到数据佐证。本发明实施例中的语料库可以从网络服务器上直接获取,也可以预先进行建立。
假设C1C2为一个组合型歧义词,C2为组合型歧义词中的歧义词,组合型歧义词C1C2的切分的代价函数用W1表示,不切分的代价函数用W2表示,则计算公式如下:W1=p(C1)*p(C2)*p(C3…Cn)*discount1*J1,W2=p(C1C2)*p(C3…Cn)*discount2*J2,其中,C1、C2、C3、…、Cn分别为至少一个字,C3…Cn为上下文信息,discount1、discount2为折扣系数,J1、J2为组合型歧义词中的歧义词与上下文信息的紧密度,p(C1)、p(C2)分别表示组合型歧义词C1、C2在语料库中单独出现的概率,p(C3…Cn)表示C3…Cn组合在语料库中出现的概率。上述公式中,不考虑C2的上下文信息的拆分情况,因此计算组合C3…Cn的概率p(C3…Cn)。优选地,若组合型歧义词C1C2组合破坏上下文信息,则折扣系数discount2为上下文信息长度的倒数,若组合型歧义词C1C2组合不破坏上下文信息,则折扣系数discount2可以取大于1的整数。若组合型歧义词C1C2切分后破坏上下文信息,则折扣系数discount1为上下文信息长度的倒数,若组合型歧义词C1C2切分后不破坏上下文信息,则折扣系数discount1可以取大于1的整数。J1、J2为组合型歧义词中的歧义词与上下文信息的紧密度请参照上述的紧密度计算公式得到。
下面以如下短语“对打一成语”为例进行说明,其中:“对打”可组成一个词,“打一成语”可组成一个短语,“成语”可组成一个词。通过如上代价函数的计算方法,则“对打”若组成词则会破坏短语“打一成语”的长度和紧密度,则“对打”被切分成单字。具体地,根据组合型歧义词“对打”的切分的代价函数W1,不切分的代价函数W2,W1=p(C1)*p(C2)*p(C3…Cn)*discount1*J1=p(对)*p(打)*p(C3…Cn)(即p(一)*p(成语))*discount1*J1,W2=p(C1C2)*p(C3…Cn)*discount2*J2=p(对打)*p(C3…Cn)(即p(一)*p(成语))*discount2*J2,其中,discount1、discount2为折扣系数,J1、J2为组合型歧义词中的歧义词与上下文信息的紧密度,p(对)、p(打)分别表示组合型歧义词“对”、“打”在语料库中单独出现的概率,p(一)*p(成语)表示“一”、“成语”在语料库中出现的概率。上述公式中,不考虑“打”的上下文信息的拆分情况,因此计算组合需要分别计算p(一)和p(成语)。优选地,若“对打”组合破坏上下文信息,则折扣系数discount2为上下文信息长度的倒数(即1/4),若“对打”组合不破坏上下文信息,则折扣系数discount2可以取大于1的整数,例如2。若“对打”切分后破坏上下文信息,则折扣系数discount1为上下文信息长度的倒数(即1/4),若“对打”切分后不破坏上下文信息,则折扣系数discount1可以取大于1的整数,例如2。
综上所述,本实施例提供的组合型歧义词识别方法,还通过获取检测出的组合型歧义词的上下文信息,并根据组合型歧义词中的歧义词与上下文信息的紧密度、上下文信息的长度,计算组合型歧义词的切分的代价函数和不切分的代价函数;比较组合型歧义词的切分的代价函数和不切分的代价函数,以得到组合型歧义词的正确切分结果,本发明实施例利用组合型歧义词破坏上下文信息的长度、紧密度等特征消解歧义,从而可以快速、有效地对组合型歧义词进行消除,并且还提高了组合型歧义词的消除准确率。
以下为本发明的装置实施例,在装置实施例中未详尽描述的细节,可以参考上述对应的方法实施例。
第四实施例
请参考图5,为本发明第四实施例提供的组合型歧义词识别装置的主要架构框图。所述组合型歧义词识别装置包括:获取模块501、检测模块503、以及消解模块505。
具体地,获取模块501,用于获取待分析文本;
检测模块503,用于根据预先建立的基本词词典和短语词典,检测出待分析文本中的组合型歧义词;
消解模块505,用于计算检测出的组合型歧义词的切分和不切分的代价函数,根据计算的代价函数得到组合型歧义词的正确切分结果,以消除组合型歧义词的歧义。
优选地,检测模块503,还用于将获取的待分析文本与预先建立的基本词词典和短语词典进行匹配,若待识别文本中与基本词词典中有相同的词,并且相同的词与短语词典中的短语形成交叉型歧义,则判断待识别文本中与基本词词典中的相同的词为组合型歧义词。
综上所述,本实施例提供的组合型歧义词识别装置,根据预先建立的基本词词典和短语词典,检测出待分析文本中的组合型歧义词,并计算检测出的组合型歧义词的切分和不切分的代价函数,根据计算的代价函数得到组合型歧义词的正确切分结果,以消除组合型歧义词的歧义,从而极大地降低了组合型歧义词识别过程的复杂度,能够快速、有效地对组合型歧义词进行检测和消除,并且还提高了组合型歧义词的识别准确率。
此外,还通过利用基本词和短语直接的交叉歧义发现基本词的组合型歧义,极大地提高了组合型歧义词的检测效率。
第五实施例
请参考图6,为本发明第五实施例提供的组合型歧义词识别装置的主要架构框图。其与图5所示的组合型歧义词识别装置相似,其不同之处在于,所述组合型歧义词识别装置,还可以包括:建立模块601。
建立模块601,用于获取基本词并将获取的基本词存储在基本词词典中,以建立基本词词典,获取短语并将获取的短语存储在短语词典中,以建立短语词典。
其中,基本词词典包括基本词,基本词包括至少两个字,短语词典包括短语,短语是多个词的组合搭配。
综上所述,本实施例提供的组合型歧义词识别装置,还通过获取基本词并将获取的基本词存储在基本词词典中,以建立基本词词典,获取短语并将获取的短语存储在短语词典中,以建立短语词典,从而使得仅根据基本词词典和短语词典即可以实现组合型歧义词的识别,提高组合型歧义词的检测效率。
第六实施例
请参考图7,为本发明第六实施例提供的组合型歧义词识别装置的主要架构框图。其与图6所示的组合型歧义词识别装置相似,其不同之处在于,所述消解模块505,可以包括:计算模块701及比较模块703。
计算模块701,用于获取检测出的组合型歧义词的上下文信息,并根据组合型歧义词中的歧义词与上下文信息的紧密度、上下文信息的长度,计算组合型歧义词的切分的代价函数和不切分的代价函数;
比较模块703,用于比较组合型歧义词的切分的代价函数和不切分的代价函数,以得到组合型歧义词的正确切分结果。
优选地,比较模块703,还用于若组合型歧义词的切分的代价函数大于不切分的代价函数,则将组合型歧义词进行切分,若组合型歧义词的切分的代价函数不大于不切分的代价函数,则不将组合型歧义词进行切分。
其中,紧密度的计算公式为J=f2/f1,其中,J为组合型歧义词中的歧义词与上下文信息的紧密度,f1为组合型歧义词中的歧义词在语料库中出现的次数,f2是语料库中包含歧义词的上下文信息出现的次数。
优选地,假设C1C2为一个组合型歧义词,C2为组合型歧义词中的歧义词,组合型歧义词C1C2的切分的代价函数用W1表示,不切分的代价函数用W2表示,则计算公式如下:W1=p(C1)*p(C2)*p(C3…Cn)*discount1*J1,W2=p(C1C2)*p(C3…Cn)*discount2*J2,其中,C1、C2、C3、…、Cn分别为至少一个字,C3…Cn为上下文信息,discount1、discount2为折扣系数,J1、J2为组合型歧义词中的歧义词与上下文信息的紧密度,p(C1)、p(C2)分别表示组合型歧义词C1、C2在语料库中单独出现的概率,p(C3…Cn)表示C3…Cn组合在语料库中出现的概率,若组合型歧义词C1C2组合破坏上下文信息,则折扣系数discount2为上下文信息长度的倒数,若组合型歧义词C1C2组合不破坏上下文信息,则折扣系数discount2取大于1的整数,若组合型歧义词C1C2切分后破坏上下文信息,则折扣系数discount1为上下文信息长度的倒数,若组合型歧义词C1C2切分后不破坏上下文信息,则折扣系数discount1取大于1的整数。
综上所述,本实施例提供的组合型歧义词识别装置,还通过获取检测出的组合型歧义词的上下文信息,并根据组合型歧义词中的歧义词与上下文信息的紧密度、上下文信息的长度,计算组合型歧义词的切分的代价函数和不切分的代价函数;比较组合型歧义词的切分的代价函数和不切分的代价函数,以得到组合型歧义词的正确切分结果,本发明实施例利用组合型歧义词破坏上下文信息的长度、紧密度等特征消解歧义,从而可以快速、有效地对组合型歧义词进行消除,并且还提高了组合型歧义词的消除准确率。
此外,本发明实施例还提供一种计算机可读存储介质,其内存储有计算机可执行指令,上述的计算机可读存储介质例如为非易失性存储器例如光盘、硬盘、或者闪存。上述的计算机可执行指令用于让计算机或者类似的运算装置完成上述的组合型歧义词识别方法。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者装置中还存在另外的相同要素。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (18)

1.一种组合型歧义词识别方法,其特征在于,包括:
获取待分析文本;
根据预先建立的基本词词典和短语词典,检测出所述待分析文本中的组合型歧义词;
计算检测出的组合型歧义词的切分和不切分的代价函数,根据计算的代价函数得到所述组合型歧义词的正确切分结果,以消除所述组合型歧义词的歧义。
2.根据权利要求1所述的组合型歧义词识别方法,其特征在于,根据预先建立的基本词词典和短语词典,检测出所述待分析文本中的组合型歧义词,包括:
获取基本词并将获取的基本词存储在所述基本词词典中,以建立所述基本词词典,获取短语并将获取的短语存储在所述短语词典中,以建立所述短语词典。
3.根据权利要求2所述的组合型歧义词识别方法,其特征在于,所述基本词词典包括基本词,所述基本词包括至少两个字。
4.根据权利要求2所述的组合型歧义词识别方法,其特征在于,所述短语词典包括短语,所述短语是多个词的组合搭配。
5.根据权利要求1所述的组合型歧义词识别方法,其特征在于,根据预先建立的基本词词典和短语词典,检测出所述待分析文本中的组合型歧义词,包括:
将获取的待分析文本与预先建立的所述基本词词典和所述短语词典进行匹配,若所述待识别文本中与所述基本词词典中有相同的词,并且所述相同的词与所述短语词典中的短语形成交叉型歧义,则判断所述待识别文本中与所述基本词词典中的相同的词为组合型歧义词。
6.根据权利要求1所述的组合型歧义词识别方法,其特征在于,计算检测出的组合型歧义词的切分和不切分的代价函数,根据计算的代价函数得到所述组合型歧义词的正确切分结果,以消除所述组合型歧义词的歧义,包括:
获取检测出的组合型歧义词的上下文信息,并根据所述组合型歧义词中的歧义词与所述上下文信息的紧密度、所述上下文信息的长度,计算所述组合型歧义词的切分的代价函数和不切分的代价函数;
比较组合型歧义词的切分的代价函数和不切分的代价函数,以得到所述组合型歧义词的正确切分结果。
7.根据权利要求6所述的组合型歧义词识别方法,其特征在于,还包括:若组合型歧义词的切分的代价函数大于不切分的代价函数,则将组合型歧义词进行切分,若组合型歧义词的切分的代价函数不大于不切分的代价函数,则不将组合型歧义词进行切分。
8.根据权利要求6所述的组合型歧义词识别方法,其特征在于,所述紧密度的计算公式为J=f2/f1,其中,J为所述组合型歧义词中的歧义词与所述上下文信息的紧密度,f1为组合型歧义词中的歧义词在语料库中出现的次数,f2是语料库中包含所述歧义词的上下文信息出现的次数。
9.根据权利要求6所述的组合型歧义词识别方法,其特征在于,假设C1C2为一个组合型歧义词,C2为组合型歧义词中的歧义词,组合型歧义词C1C2的切分的代价函数用W1表示,不切分的代价函数用W2表示,则计算公式如下:W1=p(C1)*p(C2)*p(C3…Cn)*discount1*J1,W2=p(C1C2)*p(C3…Cn)*discount2*J2,其中,C1、C2、C3、…、Cn分别为至少一个字,C3…Cn为上下文信息,discount1、discount2为折扣系数,J1、J2为组合型歧义词中的歧义词与上下文信息的紧密度,p(C1)、p(C2)分别表示组合型歧义词C1、C2在语料库中单独出现的概率,p(C3…Cn)表示C3…Cn组合在语料库中出现的概率,若组合型歧义词C1C2组合破坏上下文信息,则折扣系数discount2为上下文信息长度的倒数,若组合型歧义词C1C2组合不破坏上下文信息,则折扣系数discount2取大于1的整数,若组合型歧义词C1C2切分后破坏上下文信息,则折扣系数discount1为上下文信息长度的倒数,若组合型歧义词C1C2切分后不破坏上下文信息,则折扣系数discount1取大于1的整数。
10.一种组合型歧义词识别装置,其特征在于,包括:
获取模块,用于获取待分析文本;
检测模块,用于根据预先建立的基本词词典和短语词典,检测出所述待分析文本中的组合型歧义词;
消解模块,用于计算检测出的组合型歧义词的切分和不切分的代价函数,根据计算的代价函数得到所述组合型歧义词的正确切分结果,以消除所述组合型歧义词的歧义。
11.根据权利要求10所述的组合型歧义词识别装置,其特征在于,还包括建立模块,用于获取基本词并将获取的基本词存储在所述基本词词典中,以建立所述基本词词典;以及用于获取短语并将获取的短语存储在所述短语词典中,以建立所述短语词典。
12.根据权利要求11所述的组合型歧义词识别装置,其特征在于,所述基本词词典包括基本词,所述基本词包括至少两个字。
13.根据权利要求11所述的组合型歧义词识别装置,其特征在于,所述短语词典包括短语,所述短语是多个词的组合搭配。
14.根据权利要求10所述的组合型歧义词识别装置,其特征在于,所述检测模块,还用于将获取的待分析文本与预先建立的所述基本词词典和所述短语词典进行匹配,若所述待识别文本中与所述基本词词典中有相同的词,并且所述相同的词与所述短语词典中的短语形成交叉型歧义,则判断所述待识别文本中与所述基本词词典中的相同的词为组合型歧义词。
15.根据权利要求10所述的组合型歧义词识别装置,其特征在于,所述消解模块包括:
计算模块,用于获取检测出的组合型歧义词的上下文信息,并根据所述组合型歧义词中的歧义词与所述上下文信息的紧密度、所述上下文信息的长度,计算所述组合型歧义词的切分的代价函数和不切分的代价函数;以及
比较模块,用于比较组合型歧义词的切分的代价函数和不切分的代价函数,以得到所述组合型歧义词的正确切分结果。
16.根据权利要求15所述的组合型歧义词识别装置,其特征在于,所述比较模块,还用于若组合型歧义词的切分的代价函数大于不切分的代价函数,则将组合型歧义词进行切分,若组合型歧义词的切分的代价函数不大于不切分的代价函数,则不将组合型歧义词进行切分。
17.根据权利要求15所述的组合型歧义词识别装置,其特征在于,所述紧密度的计算公式为J=f2/f1,其中,J为所述组合型歧义词中的歧义词与所述上下文信息的紧密度,f1为组合型歧义词中的歧义词在语料库中出现的次数,f2是语料库中包含所述歧义词的上下文信息出现的次数。
18.根据权利要求15所述的组合型歧义词识别装置,其特征在于,假设C1C2为一个组合型歧义词,C2为组合型歧义词中的歧义词,组合型歧义词C1C2的切分的代价函数用W1表示,不切分的代价函数用W2表示,则计算公式如下:W1=p(C1)*p(C2)*p(C3…Cn)*discount1*J1,W2=p(C1C2)*p(C3…Cn)*discount2*J2,其中,C1、C2、C3、…、Cn分别为至少一个字,C3…Cn为上下文信息,discount1、discount2为折扣系数,J1、J2为组合型歧义词中的歧义词与上下文信息的紧密度,p(C1)、p(C2)分别表示组合型歧义词C1、C2在语料库中单独出现的概率,p(C3…Cn)表示C3…Cn组合在语料库中出现的概率,若组合型歧义词C1C2组合破坏上下文信息,则折扣系数discount2为上下文信息长度的倒数,若组合型歧义词C1C2组合不破坏上下文信息,则折扣系数discount2取大于1的整数,若组合型歧义词C1C2切分后破坏上下文信息,则折扣系数discount1为上下文信息长度的倒数,若组合型歧义词C1C2切分后不破坏上下文信息,则折扣系数discount1取大于1的整数。
CN201510256665.3A 2015-05-19 2015-05-19 组合型歧义词识别方法及装置 Active CN106294309B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510256665.3A CN106294309B (zh) 2015-05-19 2015-05-19 组合型歧义词识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510256665.3A CN106294309B (zh) 2015-05-19 2015-05-19 组合型歧义词识别方法及装置

Publications (2)

Publication Number Publication Date
CN106294309A true CN106294309A (zh) 2017-01-04
CN106294309B CN106294309B (zh) 2021-05-28

Family

ID=57633634

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510256665.3A Active CN106294309B (zh) 2015-05-19 2015-05-19 组合型歧义词识别方法及装置

Country Status (1)

Country Link
CN (1) CN106294309B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800321A (zh) * 2021-01-05 2021-05-14 百威投资(中国)有限公司 基于关键词检索的歧义帖子识别方法和计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7890521B1 (en) * 2007-02-07 2011-02-15 Google Inc. Document-based synonym generation
CN103514150A (zh) * 2012-06-21 2014-01-15 富士通株式会社 识别具有组合型歧义的歧义词的方法和装置
CN104572619A (zh) * 2014-12-31 2015-04-29 天津市招财猫信息技术有限公司 智能机器人交互系统在投融资领域的应用

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7890521B1 (en) * 2007-02-07 2011-02-15 Google Inc. Document-based synonym generation
CN103514150A (zh) * 2012-06-21 2014-01-15 富士通株式会社 识别具有组合型歧义的歧义词的方法和装置
CN104572619A (zh) * 2014-12-31 2015-04-29 天津市招财猫信息技术有限公司 智能机器人交互系统在投融资领域的应用

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
袁鼎荣 等: "用于中文分词的组合型歧义消解算法", 《计算机应用与软件》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800321A (zh) * 2021-01-05 2021-05-14 百威投资(中国)有限公司 基于关键词检索的歧义帖子识别方法和计算机设备
CN112800321B (zh) * 2021-01-05 2023-01-20 百威投资(中国)有限公司 基于关键词检索的歧义帖子识别方法和计算机设备

Also Published As

Publication number Publication date
CN106294309B (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
CN104462051B (zh) 分词方法及装置
CN103702297B (zh) 短信增强方法、装置及系统
US20110136542A1 (en) Method and apparatus for suggesting information resources based on context and preferences
CN106251869A (zh) 语音处理方法及装置
CN110162600B (zh) 一种信息处理的方法、会话响应的方法及装置
CN108427761B (zh) 一种新闻事件处理的方法、终端、服务器及存储介质
CN105531701A (zh) 个性化趋势图像搜索建议
CN106326091A (zh) 一种浏览器网页兼容性的检测方法及系统
CN104978045B (zh) 一种汉字输入方法及装置
CN111400504A (zh) 企业关键人的识别方法和装置
WO2021174877A1 (zh) 基于智能决策的目标检测模型的处理方法、及其相关设备
CN110287466A (zh) 一种实体模板生成方法和装置
CN106708530A (zh) 一种信息处理方法、及终端设备
CN108958576A (zh) 内容识别方法、装置及移动终端
CN114357278B (zh) 一种话题推荐方法、装置及设备
CN111563151A (zh) 一种信息采集的方法、会话配置的方法、装置及存储介质
CN113868427A (zh) 一种数据处理方法、装置及电子设备
CN115859220A (zh) 数据处理方法、相关装置及存储介质
CN110619879A (zh) 一种语音识别的方法及装置
CN106294309A (zh) 组合型歧义词识别方法及装置
CN111611369A (zh) 基于人工智能的交互方法和相关装置
CN110019648B (zh) 一种训练数据的方法、装置及存储介质
CN109544241A (zh) 一种点击率预估模型的构建方法、点击率预估方法和装置
CN110895655A (zh) 提取文本核心短语的方法和装置
CN115270163A (zh) 数据处理方法、相关装置及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant