CN110222335A - 一种文本分词方法及装置 - Google Patents

一种文本分词方法及装置 Download PDF

Info

Publication number
CN110222335A
CN110222335A CN201910423046.7A CN201910423046A CN110222335A CN 110222335 A CN110222335 A CN 110222335A CN 201910423046 A CN201910423046 A CN 201910423046A CN 110222335 A CN110222335 A CN 110222335A
Authority
CN
China
Prior art keywords
word segmentation
text
segmentation result
processed
path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910423046.7A
Other languages
English (en)
Inventor
陈诗锦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910423046.7A priority Critical patent/CN110222335A/zh
Priority to PCT/CN2019/103069 priority patent/WO2020232881A1/zh
Publication of CN110222335A publication Critical patent/CN110222335A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种文本分词方法及装置,其中方法包括:获取待处理文本;根据字符串匹配的分词策略沿第一方向对所述待处理文本进行分词,得到第一分词结果;根据所述字符串匹配的分词策略沿第二方向对所述待处理文本进行分词,得到第二分词结果;若所述第一分词结果与所述第二分词结果一致,输出所述第一分词结果或所述第二分词结果。通过本申请,可以实现针对待处理文本的分词准确度。

Description

一种文本分词方法及装置
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种文本分词方法及装置。
背景技术
在语音交互产品普及的时代,语音识别和自然语音处理各自扮演者重要的角色。其中,语音识别是指将语音信号解码成文字信息;自然语言处理是指根据文字信息进行语义解析,获取用户的请求意图,从而满足用户的功能需求。中文分词作为自然语音理解中的重要一步,其准确性直接影响人机交互产品的性能。
所谓分词,是指将句子切分成一个一个单独的词,是将连续的句子按照一定的规范重新组合成词序列的过程。以中文分词技术为例,分词技术的目标就是将一句话切分成一个一个单独的中文词语。
现有技术中,当终端获取到用户的语音信息之后,终端将上述语音信息进行转换,得到待处理文本,然后,终端按照一定的策略将待处理文本中的字符串与预设的字典库中的词条进行匹配,若在预设的字典库中找到某个词条,则意味着匹配成功,此时,获取该词条,进而可以得到该待处理文本的分词结果。然而,在实际应用中,按照一定的策略将待处理文本进行分词的过程中,由于分词过程较为粗糙,具有随机性,导致得到的分词结果不够准确。
在具体实现中,这里所涉及的分词结果不够准确是指:按照一定的策略将待处理文本进行分词的过程中,存在多种分词方式,不同的分词方式可以产生不同的分词结果,在理想状态下,这多个分词结果中有且只有一个最佳的分词结果。以待处理文本为“南方城市南京”为例,预设的字典库中收集的词条包括:南方、南方城、市、城市、南京,那么,在这种情况下,终端对上述待处理文本的分词结果可以包括:南方城/市/南京;也可以包括:南方/城市/南京,其中,理想状态下的最佳分词结果应该为:南方/城市/南京。
那么,如何确定多个分词结果中的最佳分词结果,以提高针对待处理文本的分词准确度是人们研究的热点技术问题。
发明内容
本发明实施例提供一种文本分词方法及装置,可以提高终端针对待处理文本的分词准确度。
第一方面,本发明实施例提供了一种文本分词方法,该方法包括:
获取待处理文本;
根据字符串匹配的分词策略沿第一方向对所述待处理文本进行分词,得到第一分词结果;
根据所述字符串匹配的分词策略沿第二方向对所述待处理文本进行分词,得到第二分词结果;
若所述第一分词结果与所述第二分词结果一致,输出所述第一分词结果或所述第二分词结果。
可选的,所述方法还包括:
若所述第一分词结果与所述第二分词结果不一致,通过动态规划算法对所述待处理文本进行分词,得到第三分词结果。
可选的,所述通过动态规划算法对所述待处理文本进行分词,得到第三分词结果,包括:
对所述待处理文本进行拆分,得到多个单独的字符;
根据所述多个单独的字符中的相邻字符的关联性构建有向无环图;其中,所述有向无环图中包括多条路径,所述多条路径中的每条路径上包括词条以及所述词条对应的权重;
确定所述有向无环图中每条路径上的所有词条的权重和;
将所述权重和最小的路径上的词条确定为所述第三分词结果。
可选的,所述第一分词结果为通过动态规划算法对所述待处理文本进行分词后,有向无环图中第一路径上的所有词条,所述第二分词结果为所述有向无环图中第二路径上的所有词条;
所述通过动态规划算法对所述待处理文本进行分词,得到第三分词结果,包括:
分别确定所述第一路径上的所有词条的权重和以及所述第二路径上的所有词条的权重和;
若所述第一路径上所有词条的权重和小于所述第二路径上所有词条的权重和,将所述第一分词结果确定为所述第三分词结果;
若否,将所述第二分词结果确定为所述第三分词结果。
可选的,所述根据字符串匹配的分词策略沿第一方向对所述待处理文本进行分词,得到第一分词结果,包括:
根据所述第一方向确定所述待处理文本的首个字符;
将所述首个字符作为当前字,以匹配方式将所述当前字和与其相邻的M个字符组成的词条与预设的词典库中的词条进行匹配,以获取所述当前字开头的词条,得到所述第一分词结果;其中,M大于等于1且小于等于Q,所述Q为所述待处理文本的字符数量。
可选的,所述第二方向为所述第一方向的反方向。
通过实施本发明实施例,终端对待处理文本进行两次分词操作,而不是对待处理文本进行粗略分词,可以提高终端针对待处理文本的分词准确度。第二方面,本发明实施例提供了一种文本分词装置,该文本分词装置包括用于执行上述第一方面的方法的单元。具体地,该文本分词装置包括:
获取单元,用于获取待处理文本;
第一分词单元,用于根据字符串匹配的分词策略沿第一方向对所述待处理文本进行分词,得到第一分词结果;
第二分词单元,用于根据所述字符串匹配的分词策略沿第二方向对所述待处理文本进行分词,得到第二分词结果;
输出单元,用于在所述第一分词结果与所述第二分词结果一致的情况下,输出所述第一分词结果或所述第二分词结果。
可选的,所述文本分词装置还包括:
第三分词单元,用于在所述第一分词结果与所述第二分词结果不一致时,通过动态规划算法对所述待处理文本进行分词,得到第三分词结果。
可选的,所述第三分词单元包括:拆分单元、构建单元、第一确定单元、第二确定单元;其中,
所述拆分单元,用于对所述待处理文本进行拆分,得到多个单独的字符;
所述构建单元,用于根据所述多个单独的字符中的相邻字符的关联性构建有向无环图;其中,所述有向无环图中包括多条路径,所述多条路径中的每条路径上包括词条以及所述词条对应的权重;
所述第一确定单元,用于确定所述有向无环图中每条路径上的所有词条的权重和;
所述第二确定单元,用于将所述权重和最小的路径上的词条确定为所述第三分词结果。
可选的,所述第一分词结果为通过动态规划算法对所述待处理文本进行分词后,有向无环图中第一路径上的所有词条,所述第二分词结果为所述有向无环图中第二路径上的所有词条;
所述第三分词单元包括:第三确定单元和第四确定单元;其中,
所述第三确定单元,用于分别确定所述第一路径上的所有词条的权重和以及所述第二路径上的所有词条的权重和;
所述第四确定单元,用于在所述第一路径上所有词条的权重和小于所述第二路径上所有词条的权重和时,将所述第一分词结果确定为所述第三分词结果;
所述第四确定单元,还用于在所述第一路径上所有词条的权重和大于所述第二路径上所有词条的权重和时,将所述第二分词结果确定为所述第三分词结果。
可选的,所述第一分词单元包括:第五确定单元和匹配单元;
其中,所述第五确定单元,用于根据所述第一方向确定所述待处理文本的首个字符;
所述匹配单元,用于将所述首个字符作为当前字,以匹配方式将所述当前字和与其相邻的M个字符组成的词条与预设的词典库中的词条进行匹配,以获取所述当前字开头的词条,得到所述第一分词结果;其中,M大于等于1且小于等于Q,所述Q为所述待处理文本的字符数量。
可选的,所述第二方向为所述第一方向的反方向。
第三方面,本发明实施例提供了另一种终端,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储支持终端执行上述方法的计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述第一方面的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。
通过实施本发明实施例,终端对待处理文本进行两次分词操作,而不是对待处理文本进行粗略分词,可以避免现有技术中粗略分词实现过程存在的随机性,可以提高终端针对待处理文本的分词准确度。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
图1是本发明实施例提供的一种文本分词方法的示意流程图;
图2是本发明另一实施例提供的一种文本分词方法的示意流程图;
图3A是本发明实施例提供的一种对待处理文本进行拆分后得到的多个单独字符的示意图;
图3B是本发明实施例提供的一种有向无环图的示意图;
图3C是本发明实施例提供的另一种有向无环图的示意图
图4A是本发明实施例提供的一种文本分词装置的示意性框图;
图4B是本发明实施例提供的另一种文本分词装置的示意性框图;
图5是本发明另一实施例提供的一种终端示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
具体实现中,本发明实施例中描述的终端包括但不限于诸如具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的移动电话、膝上型计算机或平板计算机之类的其它便携式设备。还应当理解的是,在某些实施例中,所述设备并非便携式通信设备,而是具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的台式计算机。
在接下来的讨论中,描述了包括显示器和触摸敏感表面的终端。然而,应当理解的是,终端可以包括诸如物理键盘、鼠标和/或控制杆的一个或多个其它物理用户接口设备。
终端支持各种应用程序,例如以下中的一个或多个:绘图应用程序、演示应用程序、文字处理应用程序、网站创建应用程序、盘刻录应用程序、电子表格应用程序、游戏应用程序、电话应用程序、视频会议应用程序、电子邮件应用程序、即时消息收发应用程序、锻炼支持应用程序、照片管理应用程序、数码相机应用程序、数字摄影机应用程序、web浏览应用程序、数字音乐播放器应用程序和/或数字视频播放器应用程序。
可以在终端上执行的各种应用程序可以使用诸如触摸敏感表面的至少一个公共物理用户接口设备。可以在应用程序之间和/或相应应用程序内调整和/或改变触摸敏感表面的一个或多个功能以及终端上显示的相应信息。这样,终端的公共物理架构(例如,触摸敏感表面)可以支持具有对用户而言直观且透明的用户界面的各种应用程序。
下面结合图1所示的本发明实施例提供的文本分词方法的流程示意图,具体说明本发明实施例是如何实现针对文本的准确分词的,可以包括但不限于如下步骤:
S100、获取待处理文本。
在其中的一个实现方式中,终端根据讲话用户的语音信号获取所述待处理文本。在这种情况下,终端首先获取讲话用户的语音信号,然后,将获取到的讲话用户的语音信号转换为文本信息,并从该文本信息中获取待处理文本。例如,终端可以采用语音识别技术将讲话用户的语音信号转换为文本信息,然后从该文本信息中获取待处理文本。
在其中的另一个实现方式中,终端可以直接从语音识别装置接收用户的语音信号对应的文本信息,并从该文本信息中获取待处理文本。
在实际应用中,这里所涉及的讲话用户可以包括:同声翻译的场景中讲话并发出语音信号的用户、和/或,通过终端产生语音信号的用户等,例如,通过麦克风或其它语音采集器件接收讲话用户的语音信号。
在本发明的另一种实现方式中,终端可以根据用户输入的文本获取所述待处理文本。例如,用户在即时通讯、办公文档等场景下输入的文本。
示例性地,待处理文本可以为“北京大学生喝进口红酒”,也可以为“南方城市南京”等等,本发明实施例不作具体限定。
步骤S102、根据字符串匹配的分词策略沿第一方向对所述待处理文本进行分词,得到第一分词结果。
具体实现中,所述根据字符串匹配的分词策略沿第一方向对所述待处理文本进行分词,得到第一分词结果,包括:
根据所述第一方向确定所述待处理文本的首个字符;
将所述首个字符作为当前字,以匹配方式将所述当前字和与其相邻的M个字符组成的词条与预设的词典库中的词条进行匹配,以获取所述当前字开头的词条,得到所述第一分词结果;其中,M大于等于1且小于等于Q,所述Q为所述待处理文本的字符数量。
以大学生日常生活的应用场景为例,预设的词典库的表现形式包括但不限于表1所示:
表1预设的词典库
词条 权重
北京 4
北京大学 1
大学生 5
进口 4
红酒 6
需要说明的是,在具体实现中,词条对应的权重表征该词条在具体应用场景下出现的概率,权重越大,表示该词条出现的概率越大。那么,在确定待处理文本的分词结果过程中,在分词结果存在多种表现形式的情况下,优选权重大的词条作为分词结果。
以词条“北京”以及“北京大学”为例,在确定待处理文本“北京大学生喝进口红酒”的分词结果时,终端优选将“北京”作为分词结果中的词条。
在其中一个实施方式中,所述预设的词典库中的词条按照权重的大小顺序进行排列。
在实际应用中,在预设的词典库的表现形式如表1所示的情况下,终端可以将预设的词典库中的词条按照权重的大小顺序进行排序,例如,如表2所示。那么,在这种情况下,终端可以以最短的时间确定待处理文本的分词结果,从而可以提高分词过程中的分词效率。
表2预设的词典库
词条 权重
红酒 6
大学生 5
北京 4
进口 4
北京大学 1
再者,需要说明的是,在不同的应用场景中,上述预设的词典库中收录的词条不同,从而可以减少终端在在匹配的过程中的盲目性。
例如,在催收的应用场景下,预设的词典库的表现形式可以如表3所示:
表3催收应用场景下的预设词典库
词条 权重
贷款 6
借款 3
金额 2
4
期限 1
示例性地,第一方向可以为从左至右,也可以为从右至左,本发明实施例不作具体限定。为了便于阐述,在本发明实施例中,将以第一方向为从左至右为例进行描述。
在这种情况下,终端确定上述待处理文本“北京大学生喝进口红酒”的首个字符为“北”,并将汉字“北”作为当前字。终端将当前字和与其相邻的M个字符(例如,M=1)进行组词(例如,北京),得到词条,然后查询预设的词典库中是否存在该词条,若预设的词典库中存在该词条,则将该词条确定为分词结果。在实际应用中,待处理文本中的每个字符均可以作为当前字符,重复执行上述操作(例如,组词,匹配)即可得到待处理文本的第一分词结果。例如,终端采用上述所描述的分词方法沿第一方向对待处理文本“北京大学生喝进口红酒”进行分词后,得到的第一分词结果为:“北京”、“大学生”、“喝”、“红酒”。
步骤S104、根据所述字符串匹配的分词策略沿第二方向对所述待处理文本进行分词,得到第二分词结果。
在具体实现中,所述根据所述字符串匹配的分词策略沿第二方向对所述待处理文本进行分词,得到第二分词结果,包括:
根据所述第二方向确定所述待处理文本的首个字符;
将所述首个字符作为当前字,以匹配方式将所述当前字和与其相邻的M个字符组成的词条与预设的词典库中的词条进行匹配,以获取所述当前字开头的词条,得到所述第一分词结果;其中,N大于等于1且小于等于Q,所述Q为所述待处理文本的字符数量。
在具体实现中,这里所涉及的第二方向可以与第一方向相同,也可以与第一方向相反。
在其中一个实施方式中,当第二方向与第一方向相同时,在这种情况下,也即针对待处理文本进行两次相同的分词操作,可以避免分词过程中在确定分词结果时的随机性。
作为一种优选的实现方式,当第二方向为第一方向的反方向时,在这种情况下,也即针对待处理文本进行一次回溯操作,其分词结果的准确度要优于当第一方向与第二方向相同时的分词结果。下面将以第二方向为第一方向的反方向为例进行具体阐述:
如前所述,第一方向为从左至右,此时,第二方向为从右至左。
那么,在这种情况下,终端确定上述待处理文本“北京大学生喝进口红酒”的首个字符为“酒”,将“酒”作为当前字。终端将当前字和与其相邻的M个字符(例如,M=1)进行组词,得到词条(例如,红酒),然后查询预设的词典库中是否存在该词条,若预设的词典库中存在该词条,则将该词条确定为分词结果。在实际应用中,待处理文本中的每个字符均可以作为当前字符,重复执行上述操作(例如,组词,匹配)即可得到待处理文本的第二分词结果。例如,终端采用上述所描述的分词方法沿第二方向对待处理文本“北京大学生喝进口红酒”进行分词后,得到的第二分词结果可以为:“北京”、“大学生”、“喝”、“红酒”。又例如,终端采用上述所描述的分词方法沿第二方向对待处理文本“北京大学生喝进口红酒”进行分词后,得到的第二分词结果也可以为:“北京大学”、“生”、“喝”、“红酒”。
步骤S106、若所述第一分词结果与所述第二分词结果一致,输出所述第一分词结果或所述第二分词结果。
在具体实现中,终端可以采用逐一比对的方式判断第一分词结果与第二分词结果是否一致。
例如,终端根据字符串匹配的分词策略沿第一方向对待处理文本“北京大学生喝进口红酒”进行分词,得到的第一分词结果为:“北京”、“大学生”、“喝”、“红酒”。终端根据字符串匹配的分词策略沿第二方向对待处理文本“北京大学生喝进口红酒”进行分词,得到的第二分词结果为:“北京”、“大学生”、“喝”、“红酒”。在得到上述两个分词结果之后,终端采用逐一比对方式确定第一分词结果和第二分词结果一致,在这种情况下,终端输出第一分词结果或第二分词结果均可。
可以理解的是,在针对待处理文本得到正确的分词结果之后,终端输出该分词结果,也就意味着终端可以更好的了解讲话用户的语句意思。
以催收应用场景为例,终端可以基于分词结果更好的判定讲话用户的经济状况(例如,该讲话用户可以偿还欠款,该讲话用户无法偿还欠款等等),催收者获取到用户的经济状况之后,可以根据用户的经济状况进行合理决策,以提高催收效果。
通过实施本发明实施例,终端对待处理文本进行两次分词操作,而不是对待处理文本进行粗略分词,可以避免现有技术中粗略分词实现过程存在的随机性,可以提高终端针对待处理文本的分词准确度。
需要说明的是,在实际应用中,在同一应用场景下,在待处理文本的数量为多个的情况下,例如,待处理文本包括第一待处理文本和第二待处理文本,终端可以基于第一待处理文本的分词结果对第二分词结果进行分词,也即终端结合上下文(或者,前后语境)对待处理文本进行分词,以提高终端针对待处理文本的分词准确度。在具体实现中,终端可以结合深度学习算法来确定第二待处理文本的分词结果。
可选的,终端在执行步骤S106之后,终端还可以执行步骤S108,下面结合图2所示的文本分词方法具体阐述本发明实施例是如何实现针对待处理文本的分词的,接下来对步骤S108进行详细阐述:
步骤S108、若所述第一分词结果与所述第二分词结果不一致,通过动态规划算法对所述待处理文本进行分词,得到第三分词结果。
例如,终端根据字符串匹配的分词策略沿第一方向对待处理文本“北京大学生喝进口红酒”进行分词,得到的第一分词结果为:“北京”、“大学生”、“喝”、“红酒”;终端根据字符串匹配的分词策略沿第二方向对待处理文本“北京大学生喝进口红酒”进行分词,得到的第二分词结果为:“北京大学”、“生”、“喝”、“红酒”。终端采用逐一比对方式确定第一分词结果和第二分词结果不一致,在这种情况下,表示出现了歧义字段,此时,终端通过动态规划算法对上述待处理文本“北京大学生喝进口红酒”进行分词处理,得到第三分词结果。
在具体实现中,所述通过动态规划算法对所述待处理文本进行分词,得到第三分词结果,包括:
对所述待处理文本进行拆分,得到多个单独的字符;
根据所述多个单独的字符中的相邻字符的关联性构建有向无环图;其中,所述有向无环图中包括多条路径,所述多条路径中的每条路径上包括词条以及所述词条对应的权重;
确定所述有向无环图中每条路径上的所有词条的权重和;
将所述权重和最小的路径上的词条确定为所述第三分词结果。
以待处理文本“北京大学生喝进口红酒”为例进行阐述,终端对上述待处理文本进行拆分,可以得到如图3A所示的多个单独字符,其中,每个字符可以表示一个节点。
之后,终端根据上述多个单独的字符中相邻字符的关联性构建有向无环图。这里所涉及的相邻字符的关联性是指,两两相邻的字符可以组成词条。以字符“北”为例,字符“北”可以组成的词条有:“北京”、“北京大学”、“北京大学生”。
例如,终端通过动态规划算法对上述待处理文本构建的有向无环图可以如表3B所示。如表3B所示,该有向无环图中包括如下所示的多条路径,每条路径上包括词条以及该词条对应的权重:
其中,在路径1上包括的词条有:北京(4)--大学生(5)--喝(5)--进口(4)--红酒(6);
在路径2上包括的词条有:北京大学(4)--生(6)--喝(5)--进口(4)--红酒(6);
在路径3上包括的词条有:北京(4)--大学生(5)--喝(5)--进(2)--口红(8)--酒(2)。
在得到多条路径之后,终端确定上述每条路径上的所有词条的权重和。
以上述路径1为例,终端确定路径1上的所有词条的权重和为4+5+5+4+6=24。
采用上述同样地计算方法,终端确定上述路径2上的所有词条的权重和为:25;终端确定上述路径3上的所有词条的权重和为26。
终端在确定有向无环图中的每条路径上的所有词条的权重和之后,终端将权重和最小的路径上的词条确定为第三分词结果。
例如,终端依次将路径1的权重和与路径2的权重和、路径3的权重和进行比较,终端确定路径1的权重和为3个路径中的权重和中的最小值,那么,在这种情况下,终端将路径1上的词条确定为第三分词结果,也即,终端针对上述待处理文本“北京大学生喝进口红酒”的第三分词结果为:“北京”、“大学生”、“喝”、“红酒”。
通过实施本发明实施例,在第一分词结果与第二分词结果不一致的情况下,表示出现歧义字段,此时,终端通过动态规划算法以及最小路径原则确定待处理文本的分词结果,可以避免出现歧义字段,从而可以提高终端针对待处理文本的分词准确度。
在实际应用中,所述第一分词结果为通过动态规划算法对所述待处理文本进行分词后,有向无环图中第一路径上的所有词条,所述第二分词结果为所述有向无环图中第二路径上的所有词条;
所述通过动态规划算法对所述待处理文本进行分词,得到第三分词结果,包括:
分别确定所述第一路径上的所有词条的权重和以及所述第二路径上的所有词条的权重和;
若所述第一路径上所有词条的权重和小于所述第二路径上所有词条的权重和,将所述第一分词结果确定为所述第三分词结果;
若否,将所述第二分词结果确定为所述第三分词结果。
例如,终端通过动态规划算法对待处理文本构建的有向无环图如图3C所示,终端确定第一分词结果为上述有向无环图中路径1上的所有词条,第二分词结果为上述有向无环图中路径2上的所有词条,在这种情况下,终端在第一分词结果以及第二分词结果中确定第三分词结果,可以提高终端针对待处理文本的分词效率。
例如,终端计算图3C中路径1的权重和为:24;终端计算图3C中路径2的权重和为:25。
终端判断第一分词结果的权重和小于第二分词结果的权重和,此时,终端输出第一分词结果。也即,终端确定待处理文本的分词结果为:“北京”、“大学生”、“喝”、“红酒”。
通过实施本申请,在提高终端针对待处理文本的分词准确度的同时,还可以提高终端针对待处理文本的分词效率。
为了便于更好地实施本发明实施例的上述方案,本发明还对应提供了一种文本分词装置,下面结合附图来进行详细说明:
如图4A所示的本发明实施例提供的文本分词装置的结构示意图,该文本分词装置40可以包括:获取单元400、第一分词单元402、第二分词单元404、输出单元406;
其中,获取单元400,用于获取待处理文本;
第一分词单元402,用于根据字符串匹配的分词策略沿第一方向对所述待处理文本进行分词,得到第一分词结果;
第二分词单元404,用于根据所述字符串匹配的分词策略沿第二方向对所述待处理文本进行分词,得到第二分词结果;
输出单元406,用于在所述第一分词结果与所述第二分词结果一致时,输出所述第一分词结果或所述第二分词结果。
可选的,如图4B所示,所述文本分词装置40还包括:第三分词单元408;
所述第三分词单元408,用于在所述第一分词结果与所述第二分词结果不一致时,通过动态规划算法对所述待处理文本进行分词,得到第三分词结果。
其中,所述第三分词单元408包括:拆分单元、构建单元、第一确定单元、第二确定单元;其中,
所述拆分单元,用于对所述待处理文本进行拆分,得到多个单独的字符;
所述构建单元,用于根据所述多个单独的字符中的相邻字符的关联性构建有向无环图;其中,所述有向无环图中包括多条路径,所述多条路径中的每条路径上包括词条以及所述词条对应的权重;
所述第一确定单元,用于确定所述有向无环图中每条路径上的所有词条的权重和;
所述第二确定单元,用于将所述权重和最小的路径上的词条确定为所述第三分词结果。
可选的,所述第一分词结果为通过动态规划算法对所述待处理文本进行分词后,有向无环图中第一路径上的所有词条,所述第二分词结果为所述有向无环图中第二路径上的所有词条;
所述第三分词单元408包括:第三确定单元和第四确定单元;其中,
所述第三确定单元,用于分别确定所述第一路径上的所有词条的权重和以及所述第二路径上的所有词条的权重和;
所述第四确定单元,用于在所述第一路径上所有词条的权重和小于所述第二路径上所有词条的权重和时,将所述第一分词结果确定为所述第三分词结果;
所述第四确定单元,还用于在所述第一路径上所有词条的权重和大于所述第二路径上所有词条的权重和时,将所述第二分词结果确定为所述第三分词结果。
其中,所述第一分词单元402包括:第五确定单元和匹配单元;
其中,所述第五确定单元,用于根据所述第一方向确定所述待处理文本的首个字符;
所述匹配单元,用于将所述首个字符作为当前字,以匹配方式将所述当前字和与其相邻的M个字符组成的词条与预设的词典库中的词条进行匹配,以获取所述当前字开头的词条,得到所述第一分词结果;其中,M大于等于1且小于等于Q,所述Q为所述待处理文本的字符数量。
可选的,所述第二方向为所述第一方向的反方向。
通过实施本发明实施例,终端对待处理文本进行两次分词操作,而不是对待处理文本进行粗略分词,可以避免现有技术中粗略分词实现过程存在的随机性,可以提高终端针对待处理文本的分词准确度。
为了便于更好地实施本发明实施例的上述方案,本发明还对应提供了另一种终端,下面结合附图来进行详细说明:
如图5示出的本发明实施例提供的终端的结构示意图,终端50可以包括处理器501、存储器504和通信模块505,处理器501、存储器504和通信模块505可以通过总线506相互连接。存储器504可以是高速随机存储记忆体(Random Access Memory,RAM)存储器,也可以是非易失性的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器504可选的还可以是至少一个位于远离前述处理器501的存储系统。存储器504用于存储应用程序代码,可以包括操作系统、网络通信模块、用户接口模块以及数据处理程序,通信模块505用于与外部设备进行信息交互;处理器501被配置用于调用该程序代码,执行以下步骤:
获取待处理文本;
根据字符串匹配的分词策略沿第一方向对所述待处理文本进行分词,得到第一分词结果;
根据所述字符串匹配的分词策略沿第二方向对所述待处理文本进行分词,得到第二分词结果;
若所述第一分词结果与所述第二分词结果一致,输出所述第一分词结果或所述第二分词结果。
其中,处理器501还可以用于:
若所述第一分词结果与所述第二分词结果不一致,通过动态规划算法对所述待处理文本进行分词,得到第三分词结果。
其中,处理器501通过动态规划算法对所述待处理文本进行分词,得到第三分词结果,可以包括:
对所述待处理文本进行拆分,得到多个单独的字符;
根据所述多个单独的字符中的相邻字符的关联性构建有向无环图;其中,所述有向无环图中包括多条路径,所述多条路径中的每条路径上包括词条以及所述词条对应的权重;
确定所述有向无环图中每条路径上的所有词条的权重和;
将所述权重和最小的路径上的词条确定为所述第三分词结果。
其中,所述第一分词结果为通过动态规划算法对所述待处理文本进行分词后,有向无环图中第一路径上的所有词条,所述第二分词结果为所述有向无环图中第二路径上的所有词条;
处理器501通过动态规划算法对所述待处理文本进行分词,得到第三分词结果,可以包括:
分别确定所述第一路径上的所有词条的权重和以及所述第二路径上的所有词条的权重和;
若所述第一路径上所有词条的权重和小于所述第二路径上所有词条的权重和,将所述第一分词结果确定为所述第三分词结果;
若否,将所述第二分词结果确定为所述第三分词结果。
其中,处理器501根据字符串匹配的分词策略沿第一方向对所述待处理文本进行分词,得到第一分词结果,可以包括:
根据所述第一方向确定所述待处理文本的首个字符;
将所述首个字符作为当前字,以匹配方式将所述当前字和与其相邻的M个字符组成的词条与预设的词典库中的词条进行匹配,以获取所述当前字开头的词条,得到所述第一分词结果;其中,M大于等于1且小于等于Q,所述Q为所述待处理文本的字符数量。
其中,所述第二方向为所述第一方向的反方向。
需要说明的是,本发明实施例中的终端50中处理器的执行步骤可参考上述各方法实施例中图1-图2实施例中的终端运行的具体实现方式,这里不再赘述。
在具体实现中,终端50可以包括移动手机、平板电脑、个人数字助理(PersonalDigital Assistant,PDA)、移动互联网设备(Mobile Internet Device,MID)、智能穿戴设备(如智能手表、智能手环)等各种用户可以使用的设备,本发明实施例不作具体限定。
本发明实施例还提供了一种计算机存储介质,用于存储为上述图1-图2所示的终端所用的计算机软件指令,其包含用于执行上述方法实施例所涉及的程序。通过执行存储的程序,可以实现针对待处理文本的精准分词。
本发明实施例还提供了一种计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面(图1-图2)的方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种文本分词方法,其特征在于,包括:
获取待处理文本;
根据字符串匹配的分词策略沿第一方向对所述待处理文本进行分词,得到第一分词结果;
根据所述字符串匹配的分词策略沿第二方向对所述待处理文本进行分词,得到第二分词结果;
若所述第一分词结果与所述第二分词结果一致,输出所述第一分词结果或所述第二分词结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述第一分词结果与所述第二分词结果不一致,通过动态规划算法对所述待处理文本进行分词,得到第三分词结果。
3.根据权利要求2所述的方法,其特征在于,所述通过动态规划算法对所述待处理文本进行分词,得到第三分词结果,包括:
对所述待处理文本进行拆分,得到多个单独的字符;
根据所述多个单独的字符中的相邻字符的关联性构建有向无环图;其中,所述有向无环图中包括多条路径,所述多条路径中的每条路径上包括词条以及所述词条对应的权重;
确定所述有向无环图中每条路径上的所有词条的权重和;
将所述权重和最小的路径上的词条确定为所述第三分词结果。
4.根据权利要求2所述的方法,其特征在于,所述第一分词结果为通过动态规划算法对所述待处理文本进行分词后,有向无环图中第一路径上的所有词条,所述第二分词结果为所述有向无环图中第二路径上的所有词条;
所述通过动态规划算法对所述待处理文本进行分词,得到第三分词结果,包括:
分别确定所述第一路径上的所有词条的权重和以及所述第二路径上的所有词条的权重和;
若所述第一路径上所有词条的权重和小于所述第二路径上所有词条的权重和,将所述第一分词结果确定为所述第三分词结果;
若否,将所述第二分词结果确定为所述第三分词结果。
5.根据权利要求1所述的方法,其特征在于,所述根据字符串匹配的分词策略沿第一方向对所述待处理文本进行分词,得到第一分词结果,包括:
根据所述第一方向确定所述待处理文本的首个字符;
将所述首个字符作为当前字,以匹配方式将所述当前字和与其相邻的M个字符组成的词条与预设的词典库中的词条进行匹配,以获取所述当前字开头的词条,得到所述第一分词结果;其中,M大于等于1且小于等于Q,所述Q为所述待处理文本的字符数量。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述第二方向为所述第一方向的反方向。
7.一种文本分词装置,其特征在于,包括:
获取单元,用于获取待处理文本;
第一分词单元,用于根据字符串匹配的分词策略沿第一方向对所述待处理文本进行分词,得到第一分词结果;
第二分词单元,用于根据所述字符串匹配的分词策略沿第二方向对所述待处理文本进行分词,得到第二分词结果;
输出单元,用于在所述第一分词结果与所述第二分词结果一致时,输出所述第一分词结果或所述第二分词结果。
8.根据权利要求7所述的文本分词装置,其特征在于,所述文本分词装置还包括:
第三分词单元,用于在所述第一分词结果与所述第二分词结果不一致时,通过动态规划算法对所述待处理文本进行分词,得到第三分词结果。
9.一种终端,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储支持终端执行上述方法的计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-6任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-6任一项所述的方法。
CN201910423046.7A 2019-05-20 2019-05-20 一种文本分词方法及装置 Pending CN110222335A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910423046.7A CN110222335A (zh) 2019-05-20 2019-05-20 一种文本分词方法及装置
PCT/CN2019/103069 WO2020232881A1 (zh) 2019-05-20 2019-08-28 文本分词方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910423046.7A CN110222335A (zh) 2019-05-20 2019-05-20 一种文本分词方法及装置

Publications (1)

Publication Number Publication Date
CN110222335A true CN110222335A (zh) 2019-09-10

Family

ID=67821456

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910423046.7A Pending CN110222335A (zh) 2019-05-20 2019-05-20 一种文本分词方法及装置

Country Status (2)

Country Link
CN (1) CN110222335A (zh)
WO (1) WO2020232881A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274805A (zh) * 2020-01-19 2020-06-12 上海众言网络科技有限公司 对疑似词进行处理的方法和装置
CN111523317A (zh) * 2020-03-09 2020-08-11 平安科技(深圳)有限公司 语音质检方法、装置、电子设备及介质
CN112765963A (zh) * 2020-12-31 2021-05-07 北京锐安科技有限公司 语句分词方法、装置、计算机设备及存储介质
CN114065757A (zh) * 2021-11-11 2022-02-18 东方财富信息股份有限公司 一种分词方法、装置、系统及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915299A (zh) * 2012-10-23 2013-02-06 海信集团有限公司 一种分词方法及装置
CN105893353A (zh) * 2016-04-20 2016-08-24 广东万丈金数信息技术股份有限公司 分词方法和分词系统
CN107680585A (zh) * 2017-08-23 2018-02-09 海信集团有限公司 一种中文分词方法、中文分词装置和终端

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646018B (zh) * 2013-12-20 2016-06-29 大连大学 一种基于hash散列表词典结构的中文分词方法
CN105975454A (zh) * 2016-04-21 2016-09-28 广州精点计算机科技有限公司 一种网页文本的中文分词方法和装置
WO2018068664A1 (zh) * 2016-10-13 2018-04-19 腾讯科技(深圳)有限公司 网络信息识别方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915299A (zh) * 2012-10-23 2013-02-06 海信集团有限公司 一种分词方法及装置
CN105893353A (zh) * 2016-04-20 2016-08-24 广东万丈金数信息技术股份有限公司 分词方法和分词系统
CN107680585A (zh) * 2017-08-23 2018-02-09 海信集团有限公司 一种中文分词方法、中文分词装置和终端

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274805A (zh) * 2020-01-19 2020-06-12 上海众言网络科技有限公司 对疑似词进行处理的方法和装置
CN111274805B (zh) * 2020-01-19 2020-11-20 上海众言网络科技有限公司 对疑似词进行处理的方法和装置
CN111523317A (zh) * 2020-03-09 2020-08-11 平安科技(深圳)有限公司 语音质检方法、装置、电子设备及介质
CN112765963A (zh) * 2020-12-31 2021-05-07 北京锐安科技有限公司 语句分词方法、装置、计算机设备及存储介质
CN114065757A (zh) * 2021-11-11 2022-02-18 东方财富信息股份有限公司 一种分词方法、装置、系统及设备

Also Published As

Publication number Publication date
WO2020232881A1 (zh) 2020-11-26

Similar Documents

Publication Publication Date Title
JP7127106B2 (ja) 質問応答処理、言語モデルの訓練方法、装置、機器および記憶媒体
US20230048218A1 (en) On-Device Projection Neural Networks for Natural Language Understanding
CN111177569B (zh) 基于人工智能的推荐处理方法、装置及设备
WO2021121198A1 (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN110222335A (zh) 一种文本分词方法及装置
US20190163691A1 (en) Intent Based Dynamic Generation of Personalized Content from Dynamic Sources
CN112507715A (zh) 确定实体之间关联关系的方法、装置、设备和存储介质
CN110516073A (zh) 一种文本分类方法、装置、设备和介质
US20230386238A1 (en) Data processing method and apparatus, computer device, and storage medium
CN111386686B (zh) 用于回答与文档相关的查询的机器阅读理解系统
CN108920649B (zh) 一种信息推荐方法、装置、设备和介质
CN110879834B (zh) 一种基于循环卷积网络的观点检索系统及其观点检索方法
CN111414763A (zh) 一种针对手语计算的语义消歧方法、装置、设备及存储装置
CN114861889B (zh) 深度学习模型的训练方法、目标对象检测方法和装置
Suman et al. Why pay more? A simple and efficient named entity recognition system for tweets
CN103914209B (zh) 一种信息处理方法及电子设备
EP3762876A1 (en) Intelligent knowledge-learning and question-answering
KR20190138562A (ko) 정보를 생성하기 위한 방법 및 장치
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
WO2024036616A1 (zh) 一种基于终端的问答方法及装置
CN108345612A (zh) 一种问题处理方法和装置、一种用于问题处理的装置
CN110738056B (zh) 用于生成信息的方法和装置
CN115438149A (zh) 一种端到端模型训练方法、装置、计算机设备及存储介质
CN112262382A (zh) 上下文深层书签的注释和检索
CN116796730A (zh) 基于人工智能的文本纠错方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination