CN109492228B - 信息处理装置及其分词处理方法 - Google Patents
信息处理装置及其分词处理方法 Download PDFInfo
- Publication number
- CN109492228B CN109492228B CN201811400632.1A CN201811400632A CN109492228B CN 109492228 B CN109492228 B CN 109492228B CN 201811400632 A CN201811400632 A CN 201811400632A CN 109492228 B CN109492228 B CN 109492228B
- Authority
- CN
- China
- Prior art keywords
- word segmentation
- words
- combination
- word
- sequence labeling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种信息处理装置及其分词处理方法,所述信息处理装置包括:选择单元,其被配置对分词对象进行分词,获得表示为多个词的组合的分词结果;第一拼接单元,其被配置为对所述组合中的相邻词进行拼接处理;序列标注单元,其被配置为利用序列标注模型,对由所述第一拼接单元进行拼接处理后的所述组合中的各词进行序列标注,并根据序列标注的结果对所述组合中的词进行合并;以及第二拼接单元,其被配置根据预定规则对由所述序列标注单元进行合并后的词进行拼接。
Description
本申请是申请日为2017年6月28日、申请号为201710505392.0、发明名称为“信息处理装置及其分词处理方法”的发明专利申请的分案申请。
技术领域
本发明涉及一种能够进行分词处理的信息处理装置及其分词处理方法。
背景技术
现有的分词方法主要包括以下三种:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。例如,现有技术(公开号为CN104462051A的中国专利申请)中记载了一种基于统计的分词方法,其包括:获取一段时间内词在不同搜索领域中被搜索的次数,根据被搜索的次数计算出词的统计分数;根据词的长度计算出词的长度分数;根据词的统计分数和长度分数得到词的分值,由词和词的分值生成分词词典;获取待分词的句子,将所述待分词的句子与所述分词词典中的词进行匹配以得到多个分词结果,计算各个分词结果的分值,将分值高的分词结果作为所述待分词的句子的分词结果。
然而,在上述专利公报所公开的分词技术中,由于分词结果过于依赖分词词典,如果用于例如手机或平板电脑等信息处理装置,则因无法使用过大的词典,而存在分词结果粒度太细的问题。同时,由于需要在内存中运行程序,占用了过多的内存资源,因此存在系统运行速度较慢的问题。
发明内容
鉴于现有技术中的上述问题,为解决上述这些问题的全部或至少一者,提出了本发明,本发明的目的在于提供一种分词粒度大、分词处理速度快的分词处理技术。
根据本发明的第一方面,提供一种能够进行分词处理的信息处理装置,所述信息处理装置包括:分词单元,其被配置为对分词对象进行分词并获得多个分词结果,所述多个分词结果中的各个被表示为多个词的组合;第一拼接单元,其被配置为对所述组合中的相邻词进行拼接处理;序列标注单元,其被配置为利用序列标注模型,对由所述第一拼接单元进行拼接处理后的所述组合中的各词进行序列标注,并根据序列标注的结果对所述组合中的词进行合并;以及第二拼接单元,其被配置为根据预定规则对由所述序列标注单元进行合并后的词进行拼接。
通过本发明第一方面的技术方案,实现了一种分词粒度大的信息处理装置。
优选地,所述预定规则包括将相邻词中可能与事件、日期、数量词或者文字表情有关的词进行拼接。
优选地,根据从基于所述组合中的多个词的预定类型来对分词结果进行预测而获得的预测分词结果中选择的分词结果,所述序列标注单元对所述组合中的词进行合并。
优选地,所述序列标注单元包括:提取部,其被配置为从由所述第一拼接单元进行拼接处理后的所述组合中的各分词中提取预定类型的词;预测部,其被配置为根据所述预定类型,来预测所提取的词的对应分词结果;选择部,其被配置为从所预测的分词结果中选择分词结果;以及合并部,其被配置为根据由所述选择部所选择的分词结果,来对所述组合中的词进行合并。
优选地,所述预定类型包括人名、地名和机构名。
优选地,所述选择单元根据分词策略分别计算所述多个词的组合的得分,并从所述多个词的组合中选择得分最高的组合。
优选地,所述分词策略包括词语权重和语言模型得分。
根据本发明的第二方面,提供一种能够进行分词处理的信息处理装置,所述信息处理装置包括存储序列标注模型的外部存储器,所述信息处理装置包括:分词单元,其被配置为对分词对象进行分词并获得多个分词结果,所述多个分词结果中的各个被表示为多个词的组合;以及序列标注单元,其被配置为针对将分词对象进行分词获得的、表示为多个词的组合的分词结果,利用序列标注模型对所述组合中的词进行序列标注处理,并根据序列标注的结果对所述组合中的词进行合并,其中,所述序列标注单元在所述外部存储器中进行所述序列标注处理。
通过本发明第二方面的技术方案,实现了一种占用内存小,处理速度快的信息处理装置。
优选地,所述序列标注单元在进行所述序列标注处理时,通过计算所述序列标注模型在所述外部存储器中的地址,从所述地址获取所述序列标注模型在所述外部存储器中的对应信息,来使用所述序列标注模型
优选地,所述外部存储器为硬盘。
优选地,根据从基于所述组合中的多个词的预定类型来对分词结果进行预测而获得的预测分词结果中选择的分词结果,所述序列标注单元对所述组合中的词进行合并。
优选地,所述序列标注单元包括:存储部,其被配置为将序列标注模型的发射概率和状态概率存储在外部存储器的第一文件中;计算部,其被配置为对所述组合中的词的特征函数进行哈希运算,以将各特征函数和与该特征函数相对应的发射概率或状态概率的存储位置,以哈希值存储于第二文件中;提取部,其被配置为从由所述计算部存储的所述存储位置,提取所述组合中相邻词作为一个联合词的概率;合并部,其被配置为根据所提取的概率对所述组合中的各个词进行拼接。
优选地,所述计算部通过对所述特征函数进行哈希运算获得特征函数的主哈希值、左哈希值和右哈希值,其中,所述存储位置以主哈希值存储在第二文件中,并且所述左哈希值和右哈希值用于确定是否存储所述存储位置。
根据本发明的第三方面,提供一种用于信息处理装置的分词处理方法,所述分词处理方法包括如下步骤:分词步骤,对分词对象进行分词并获得多个分词结果,所述多个分词结果中的各个被表示为多个词的组合;第一拼接步骤,对所述组合中的相邻词进行拼接处理;序列标注步骤,利用序列标注模型,对在所述第一拼接步骤中进行拼接处理后的所述组合中的各词进行序列标注,并根据序列标注的结果对所述组合中的词进行合并;以及第二拼接步骤,其被配置根据预定规则对在所述序列标注步骤中进行合并后的组合中的词进行拼接。
优选地,所述预定规则包括将相邻词中可能与事件、日期、数量词或者文字表情有关的词进行拼接。
优选地,在所述序列标注步骤中,根据从基于所述组合中的多个词的预定类型来对分词结果进行预测而获得的预测分词结果中选择的分词结果,对所述组合中的词进行合并。
优选地,所述序列标注步骤包括:提取步骤,从由所述第一拼接步骤进行拼接处理后的所述组合中的各分词中提取预定类型的词;预测步骤:其被配置为根据所述预定类型来预测所提取的词的对应分词结果;选择步骤,其被配置为从所预测的分词结果中选择分词结果;以及合并步骤,其被配置为根据在所述选择步骤中所选择的分词结果,来对所述组合中的词进行合并。
优选地,所述预定类型包括人名、地名和机构名。
优选地,在所述选择步骤中,根据分词策略分别计算多个词的组合的得分,并从所述多个词的组合中选择得分最高的组合。
优选地,所述分词策略包括词语权重和语言模型得分。
根据本发明的第四方面,提供一种用于信息处理装置的分词处理方法,所述信息处理装置包括存储序列标注模型的外部存储器,所述分词处理方法包括如下步骤:分词步骤,对分词对象进行分词并获得多个分词结果,所述多个分词结果中的各个被表示为多个词的组合;序列标注步骤,针对将分词对象进行分词获得的、表示为多个词的组合的分词结果,利用序列标注模型对所述组合中的词进行序列标注处理,并根据序列标注的结果对所述组合中的词进行合并,其中,在序列标注步骤中,在所述外部存储器中进行序列标注处理。
优选地,在进行所述序列标注处理时,通过计算所述序列标注模型在所述外部存储器中的地址,从所述地址获取所述序列标注模型在所述外部存储器中的对应信息,来使用所述序列标注模型。
优选地,所述外部存储器为硬盘。
优选地,在所述序列标注步骤中,根据从基于所述组合中的多个词的预定类型来对分词结果进行预测而获得的预测分词结果中选择的分词结果,对所述组合中的词进行合并。
优选地,所述序列标注步骤包括:存储步骤,将序列标注模型的发射概率和状态概率存储在第一文件中;计算步骤,对所述组合中的词的特征函数进行哈希运算,以将各特征函数和与该特征函数相对应的发射概率或状态概率的存储位置,以哈希值存储于第二文件中;提取步骤,从在所述计算步骤中存储的所述存储位置,提取所述组合中相邻词作为一个联合词的概率;以及合并步骤,根据所提取的概率对所述组合中的各个词进行拼接。
优选地,在所述计算步骤中,通过对所述特征函数进行哈希运算获得特征函数的主哈希值、左哈希值和右哈希值,其中,所述存储位置以主哈希值存储在第二文件中,并且所述左哈希值和右哈希值用于确定是否存储所述存储位置。
本发明的信息处理装置及其分词处理方法,实现了以较大的颗粒度来进行分词,以及占用较少的内存资源,从而加快了信息处理装置的处理速度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域或普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1例示了根据本发明的信息处理装置的硬件结构的框图。
图2例示了根据本发明第一实施例的信息处理装置的功能模块示意图。
图3例示了根据本发明第一实施例的分词处理方法的流程图。
图4例示了根据本发明第一实施例的进行序列标注处理的方法流程图。
图5例示了根据本发明第二实施例的信息处理装置的功能模块示意图。
图6例示了根据本发明第二实施例的进行分词处理方法的流程图。
图7例示了根据本发明第二实施例的进行序列标注处理的方法流程图。
图8例示了根据本发明第三实施例的信息处理装置的功能模块示意图。
具体实施方式
在下文中将参照附图详细地描述本发明的实施例。应当理解,下述实施例并不意图限制本发明,并且,关于根据本发明的解决问题的手段,并不一定需要根据下述实施例描述的各方面的全部组合。为简化起见,对相同的结构部分或者步骤,使用了相同的标记或标号,并且省略其说明。
[信息处理装置的硬件结构]
首先,参照图1描述信息处理装置1000的硬件结构。此外,在本实施例中作为示例描述了以下构造,但是本发明的信息处理装置不限于图1所示的构造。
图1是示出本实施例中的信息处理装置1000的硬件构造的图。在本实施例中,以智能电话作为信息处理装置的示例给出描述。但请注意,虽然在本实施例中例举了移动终端(包括但不限于智能手机、智能手表、智能手环、音乐播放设备)作为信息处理装置1000,但是显然不限于此,本发明的信息处理装置可以是笔记本电脑、平板电脑、PDA(个人数字助理)、个人电脑或者是具有触控显示屏和信息处理功能的互联网设备(例如数字照相机、电冰箱、电视机等)等各种装置。
如图1所示,信息处理装置1000(2000、3000)包括经由系统总线彼此连接的输入接口102、CPU 103、ROM 104、RAM 105、外部存储器106、输出接口107、显示器108、通信单元109和短距离无线通信单元110。输入接口102是用于接收用户所输入的数据以及功能的执行指令的接口,并且是用于经由诸如按键、按钮或触摸屏的操作单元(未示出)接收从用户输入的数据和操作指令的接口。请注意,稍后描述的显示器108和操作单元可以至少部分地集成,并且,例如,可以是在同一画面中进行画面输出和接收用户操作的构造。
CPU 103是系统控制单元,并且总体上全面地控制信息处理装置1000。此外,例如,CPU 103进行信息处理装置1000的显示器108的显示控制。ROM 104存储CPU 103执行的诸如数据表和控制程序以及操作系统(OS)程序等的固定数据。在本实施例中,ROM 104中存储的各个控制程序,例如,在ROM 104中存储的OS的管理下,进行诸如调度、任务切换和中断处理等的软件执行控制。
RAM 105(内部存储单元)例如由需要备用电源的SRAM(静态随机存取存储器)、DRAM等构造。在这种情况下,RAM 105可以以非易失性方式存储诸如程序控制变量等的重要数据。此外,用于存储信息处理装置1000的设置信息、信息处理装置1000的管理数据等的存储区域也配设在RAM 105中。此外,RAM 105用作CPU 103的工作存储器和主存储器。
外部存储器106存储诸如预定义词典、序列标注模型、用于执行根据本发明的分词处理方法的应用程序等。此外,外部存储器106存储诸如用于经由通信单元109与通信装置(未示出)进行发送/接收的信息发送/接收控制程序等的各种程序,以及这些程序使用的各种信息。
输出接口107是用于对显示器108进行控制以显示信息以及应用程序的显示画面的接口。显示器108例如由LCD(液晶显示器)构造。通过在显示器108上布置具有诸如数值输入键、模式设置键、决定键、取消键和电源键等的键的软键盘,可以接收经由显示器108的来自用户的输入。
信息处理装置1000经由通信单元109通过例如Wi-Fi(无线保真)或蓝牙等无线通信方法,与外部装置(未示出)执行数据通信。
此外,信息处理装置1000也可以经由短距离无线通信单元110,在短距离范围内与外部装置等进行无线连接并执行数据通信。并且短距离无线通信单元110通过与通信单元109不同的通信方法进行通信。例如,可以使用其通信范围比通信单元109的通信方法短的蓝牙低功耗(BLE)作为短距离无线通信单元110的通信方法。此外,作为短距离无线通信单元110的通信方法,例如,还可以使用NFC(近场通信)或Wi-Fi感知(Wi-Fi Aware)。
[第一实施例]
接下来,参照图2来说明根据第一实施例的信息处理装置的软件结构。
如图2所示,信息处理装置1000包括:选择单元1101,其对分词对象(如用户通过触摸屏输入的句子)进行分词,获得以包括多个词的组来表示的分词结果;第一拼接单元1102对组中的相邻词进行拼接处理;序列标注单元1103利用序列标注模型,对由所述第一拼接单元进行拼接处理后的所述组合中的各词进行序列标注,并根据序列标注的结果对所述组合中的词进行合并,其中,序列标注单元1103包括提取部11031,其从由所述第一拼接单元1102进行拼接处理后的所述组合中的各分词中提取预定类型的词;预测部11032,其根据所述预定类型来预测所提取的词的对应分词结果;选择部11033,其从所预测的分词结果中选择分词结果;以及合并部11034,其被配置为根据由所述选择部所选择的分词结果,来对所述组合中的词进行合并;以及第二拼接单元1104根据预定规则对由所述序列标注单元进行合并后的组合中的词进行拼接。
下面,参照图3来说明根据本发明第一实施例的分词处理方法。
如图3所示,所述分词处理方法,可包括以下步骤S101-S104:
在步骤S101中,通过获取待分词的句子与分词词典中词进行匹配,然后把所有匹配到的词语组合全部取出来,并计算各组合中在分词策略中得分最高的组合,所述分词策略包括:词语权重和语言模型得分。
接下来,进入步骤S102,在步骤S102中,将分词结果中相邻词语拼接起来,如果该结果在词典中出现,就将该拼接结果替换掉词典中的原分词结果。
然后,进入到步骤S103,在步骤S103中,将上一步产生的分词结果,进入序列标注模型,进行序列标注后将序列标注模型的结果进行筛选,并根据筛选后的结果将上一步的分词结果部分片段进行合并,进入到步骤S104。
在步骤S104中,将上一步产生的分词结果中一些常见搭配进行拼接,例如:数量词、日期、时间和文字表情等,并将拼接后结果作为最终分词结果。
以下,以对句子“2016年1月29日,区领导吴桂英、王灏、陈宏志、陈涛、甘靖中、刘军胜、孙其军走访了外交部、人民日报社等驻区中央单位”进行分词为例,具体说明上述分词处理的过程。
在步骤S101中,进行基础分词,获取的句子中的各个词,采用不同的方式将分词对象拆分为多个词,形成多个词的组合。将各个组合中的各个词分别与分词词典中的词进行匹配,然后把所有匹配到的词语组合全部取出来。
例如,将句子中的词拆分为以下几种组合:
(1)2016、年、1、月、29、日、区、领导、吴、桂英、王、灏、陈宏志、陈、涛、甘、靖、中、刘军、胜、孙、其、军、走访、了、外交、部、人民日报、社、等、驻区、中央、单位;
(2)2016、年、1、月、29、日、区、领导、吴桂、英、王、灏、陈宏志、陈、涛、甘、靖、中、刘、军胜、孙、其、军、走访了、外交部人民、日报社等、驻区、中央单位;
(3)2016、年、1、月、29、日、区、领导、吴、桂英、王、灏、陈宏、志、陈、涛、甘、靖、中、刘军、胜、孙、其、军、走访了、外交部、人民、日报社、等、驻区、中央、单位。
然后根据分词策略来计算各组合在分词策略中的得分,并选择得分最高的组合。分词策略包括但不限于词语权重和语言模型得分。其中,对于该步骤中使用的分词词表,在建立词表的时候,除了保存词语本身,还会保存该词语在语料中出现的词频。词语权重是当前分词组合中各词词频的累加之和。
以下以一个较简单的例子来说明上述计算得分的过程。例如“我”、“爱”、“北京天安门”的组合中,“我”的词频为130132,“爱”的词频为74150,“北京天安门”的词频为5924,该组合的词语权重就是210206。然后对多个组合的词语权重分做归一化,各词语权重分归一化的计算方式为:以所有组合中最高的词语权重作为分母,当前的词语权重作为分子。然后,用整个组合的bigram语言模型概率作为语言模型的得分。最后,把语言模型的得分和词语权重的得分相乘作为最终得分。
采用词语权重的分词策略来计算组合(1)-(3),其得分情况分别如下:
组合(1)的得分为:0.7411。
组合(2)的得分为:1.0。
组合(3)的得分为:0.8951。
当采用语言模型得分的分词策略来计算各个组合的得分情况如下:
组合(1)的得分为:0.9013。
组合(2)的得分为:0.7542。
组合(3)的得分为:0.9631。
组合(1)-(3)的最终得分分别为0.6680、0.7542、0.8620,选择得分最高的组,即第(3)组继续进行下一步的处理。
在步骤S102中,对于组合(3)中的分词结果,将相邻的词拼接起来,例如,将“人民”和“日报社”拼接起来,拼接后的分词处理的结果如下:
2016、年、1、月、29、日、区、领导、吴、桂英、王、灏、陈宏志、陈、涛、甘、靖、中、刘军、胜、孙、其、军、走访了、外交部、人民日报社、等、驻区、中央、单位。
如果拼接后的上述分词结果在在词典中不存在,则用该拼接后的分词结果替换在词典中记载的原分词结果。
步骤S103包括如图4所示的步骤S1031-S1034。
在步骤S1031中,从上一步产生的分词结果,即“2016、年、1、月、29、日、区、领导、吴、桂英、王、灏、陈宏志、陈、涛、甘、靖、中、刘军、胜、孙、其、军、走访了、外交部、人民日报社、等、驻区、中央、单位”,中提取与姓名有关的词,即“吴、桂英、王、灏、陈宏志、陈、涛、甘、靖、中、刘军、胜、孙、其、军”。
在步骤S1032中,根据所提取的词是否为与姓名有关的词,来预测所提取的词的分词结果:
吴、桂英:吴桂英
王、灏:王灏
陈、涛:陈涛
甘、靖、中:甘靖中
刘军、胜:刘军胜
孙、其、军:孙其军。
在步骤S1033中,对序列标注模型的结果进行筛选,去除明显不是人名的结果。例如,对于某些分词对象,序列标注结果中有可能会出现类似将“王的男人”误标注为姓名的结果,因此需要对标注结果进行进一步筛选。
在步骤S1034中,根据筛选后的结果,将上一步的分词结果部分片段进行合并,合并后获得的分词结果如下:
2016、年、1、月、29、日、区、领导、吴桂英、王灏、陈宏志、陈涛、甘靖中、刘军胜、孙其军、走访了、外交部、人民日报社、等、驻区、中央、单位。
在步骤S104中,将上一步产生的分词结果中一些常见搭配进行拼接,例如:将“2016、年、1、月、29、日”拼接为“2016年1月29日”。常见搭配包括数量词、日期、时间和文字表情等,并将拼接后结果作为最终分词结果。针对本例,拼接后的结果为:2016年1月29日、区、领导、吴桂英、王灏、陈宏志、陈涛、甘靖中、刘军胜、孙其军、走访了、外交部、人民日报社、等、驻区、中央、单位。
根据本发明,通过对分词结果进行拼接、标注和再次拼接,能够增加分词结果的颗粒度。
[第二实施例]
在第一实施例中,对词典和序列标注模型的读取,采用从RAM105读取程序并在其中运行程序的方式。而在第二实施例中,在序列标注处理中,序列标注单元在外部存储器106中进行所述序列标注处理。
在现有技术中的信息处理装置中,通常包括诸如RAM等的内存(内部存储单元),以及诸如SD卡和硬盘等的外存(外部存储器)。RAM通常用来运行应用程序。而外存通常用来存储数据库和应用程序。按照通常的技术,序列标注模型会被存储在外存中,而在内存中运行序列标注模型对应的程序。这会导致手机在进行分词时占用的内存较多,处理速度较慢。而在本实施例中,序列标注模型虽然也存储在外存中,但是运行对应程序却是在外存中进行的。
以下将以图5和图6来说明第二实施例中进行的分词处理。图5例示了根据本发明第二实施例的信息处理装置的功能模块示意图。
如图5所示,信息处理装置2000包括:分词单元2102,其对分词对象进行分词,并获得表示为多个词的组合的分词结果;以及序列标注单元2103,所述序列标注单元在外部存储器中进行所述序列标注处理,其针对将分词对象进行分词获得的、表示为多个词的组合的分词结果,利用序列标注模型对所述组合中的词进行序列标注,并根据序列标注的结果对所述组合中的词进行合并。其中,序列标注单元2103包括:存储部21031,其将序列标注模型的发射概率和状态概率存储在外部存储器的第一文件中;计算部21032,其为对所述组合中的词的特征函数进行哈希运算,以将各特征函数和与该特征函数相对应的发射概率或状态概率的存储位置,以哈希值存储于第二文件中;提取部21033,其从由所述计算部存储的所述存储位置,提取所述组合中相邻词作为一个联合词的概率;以及合并部21034,其被配置为根据所提取的概率对所述组合中的各个词进行拼接。
图6例示了根据本发明第二实施例的进行分词处理方法的流程图。
以下参照图6,以分词对象“我爱北京天安门”进行分词来进行说明根据本发明第二实施例的进行分词处理方法。
在步骤S201中,该句子被分为:我爱、北、京、天、安、门。
在步骤S202中,对步骤S201中的分词结果进行序列标注,序列标注处理包括如图7所示的步骤S2021至S2024。
在存储步骤S2021中,将序列标注模型的原模型参数分为三部分存储,分别为特征函数(第二参数)、发射概率和状态概率(第一参数)、特征模板以及其他参数(第三参数)。其中,将发射概率和状态概率作为一个独立文件来存储(第一文件)。
在计算步骤S2022中,利用暴雪哈希算法对特征函数进行哈希运算,而后将各特征函数和与该特征函数相对应的发射概率或状态概率的存储位置(值),以哈希值存储于另一个二进制文件中(第二文件)。存储特征模板以及其他参数作为第三个文件来存储。
具体来说,当序列标注模型置于“北”字,特征模板中有一模板为:U06:%x[0,0]/%x[1,0],其模板解释为当前字和其后一位置字的联合出现情况即:U06:北/京。我们将“U06:北/京”作为变量带入暴雪哈希函数中,计算得到三个哈希值:主哈希值M、左哈希值L和右哈希值R。其中,利用主哈希值进行二进制位移操作得到存储值(即对应特征的具体地址,如“北”和“京”在文件当中的地址),而将获得的左哈希值和右哈希值与预先设置的左哈希值和右哈希值比较,如果相同,则确定将该存储位置作为主哈希值存储在第二文件中;如果为真,则继续取出内部存储的发射概率(或状态概率)存储位置,如果为假,则返回-1;如果不相等,则在M基础上加1,重复上述的取值比较操作。
在提取步骤S2023中,从在步骤S2022中存储特征函数和与该特征函数相对应的发射概率或状态概率的存储位置,提取相邻词作为一个联合词的概率大小。
具体来说,将在步骤S2032中重复取值比较操作的返回值(地址)将作为发射概率(或状态概率)其第一文件中的位置,进行位置取值操作。取出的权值或概率个数与序列标注的label的数目相同,每个权值代表当前字label为B时,“U06:北/京”联合出现的概率大小。例如,“北京”联合出现的概率为98%,“天安门”联合出现的概率为95%。
在合并步骤S2024中,根据步骤S2023中计算的概率,对步骤201中的分词结果进行拼接。
具体来说,在步骤S201的分词结果为:我爱、北、京、天、安、门。根据在步骤S2023中计算的概率,“北京”作为一个联合词的概率为98%,“天安门”作为一个联合词出现的概率为95%,因此确定将“北”和“京”拼接为“北京”,“天”、“安”和“门”拼接为“天安门”。在步骤S2024中,最终获得的分词结果为:我爱、北京、天安门。
根据本发明的第二实施例,在外存中而不是内存中进行序列标注处理,减小了对信息处理装置内存的占用,改善了信息处理装置的运行速度。
[第三实施例]
本发明的第三实施例的信息处理装置的硬件结构与第一实施例和第二实施例的信息处理装置的硬件结构相同。第三实施例的技术方案是第一实施例与第二实施例的技术方案的组合。即,第三实施例的信息处理装置包括第一实施例中的选择单元、第一拼接单元和第二拼接单元,以及第二实施例中的外部存储器和序列标注单元。
图8例示了根据本发明第三实施例的信息处理装置的功能模块示意图。
如图8所示,信息处理装置3000包括:选择单元3101,其对分词对象(如用户通过触摸屏输入的句子)进行分词,获得以包括多个词的组来表示的分词结果;第一拼接单元3102对组中的相邻词进行拼接处理;序列标注单元3103利用序列标注模型,对由所述第一拼接单元进行拼接处理后的所述组合中的各词进行序列标注,并根据序列标注的结果对所述组合中的词进行合并;第二拼接单元3104根据预定规则对由所述序列标注单元进行合并后的组合中的词进行拼接。
其中,序列标注单元3103包括:存储部31031,其将序列标注模型的发射概率和状态概率存储在外部存储器的第一文件中;计算部31032,其为对所述组合中的词的特征函数进行哈希运算,以将各特征函数和与该特征函数相对应的发射概率或状态概率的存储位置,以哈希值存储于第二文件中;提取部31033,其从由所述计算部存储的所述存储位置,提取所述组合中相邻词作为一个联合词的概率;以及合并部31034,其被配置为根据所提取的概率对所述组合中的各个词进行拼接。
在第三实施例的分词处理方法中,包括第一实施例中的选择步骤、第一拼接步骤和第二拼接步骤,而第一拼接步骤和第二拼接步骤之间的序列标注步骤,则为第二实施例中的序列标注步骤。
根据本发明第三实施例,能够获得一种分词颗粒度大、并且占用内存少、并且处理速度快的信息处理装置。
本发明的信息处理装置,能够获得如下技术效果:尽可能把常见搭配和语义上有意义的组合切分出来,可以方便的从分词结果中提取出更有意义的片段。
以上虽然参照示例性实施例对本发明进行了描述,但是上述实施例只为说明本发明的技术构思及特点,并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的任何等效变型或修改,都应涵盖在本发明的保护范围之内。
Claims (22)
1.一种能够进行分词处理的信息处理装置,其特征在于,所述信息处理装置包括:
分词单元,其被配置为对分词对象进行分词并获得多个分词结果,所述多个分词结果中的各个被表示为多个词的组合;
第一拼接单元,其被配置为对所述组合中的相邻词进行拼接处理;
序列标注单元,其被配置为利用序列标注模型,对由所述第一拼接单元进行拼接处理后的所述组合中的各词进行序列标注,并根据序列标注的结果对所述组合中的词进行合并;以及
第二拼接单元,其被配置为根据预定规则对由所述序列标注单元进行合并后的词进行拼接,
其中,根据从基于所述组合中的多个词的预定类型来对分词结果进行预测而获得的预测分词结果中选择的分词结果,所述序列标注单元对所述组合中的词进行合并。
2.根据权利要求1所述的信息处理装置,其中,所述预定规则包括将相邻词中与事件、日期、数量词或者文字表情有关的词进行拼接。
3.根据权利要求1所述的信息处理装置,其中,所述序列标注单元包括:
提取部,其被配置为从由所述第一拼接单元进行拼接处理后的所述组合中的各分词中提取预定类型的词;
预测部,其被配置为根据所述预定类型,来预测所提取的词的对应分词结果;
选择部,其被配置为从所预测的分词结果中选择分词结果;以及
合并部,其被配置为根据由所述选择部所选择的分词结果,来对所述组合中的词进行合并。
4.根据权利要求1所述的信息处理装置,其中,所述预定类型包括人名、地名和机构名。
5.根据权利要求1所述的信息处理装置,其中,所述分词单元根据分词策略分别计算所述多个词的组合的得分,并从所述多个词的组合中选择得分最高的组合。
6.根据权利要求5所述的信息处理装置,其中,所述分词策略包括词语权重和语言模型得分。
7.一种能够进行分词处理的信息处理装置,所述信息处理装置包括存储序列标注模型的外部存储器,其特征在于,所述信息处理装置包括:
分词单元,其被配置为对分词对象进行分词并获得多个分词结果,所述多个分词结果中的各个被表示为多个词的组合;以及
序列标注单元,其被配置为针对将分词对象进行分词获得的、表示为多个词的组合的分词结果,利用序列标注模型对所述组合中的词进行序列标注处理,并根据序列标注的结果对所述组合中的词进行合并,其中,所述序列标注单元在所述外部存储器中进行所述序列标注处理,
其中,根据从基于所述组合中的多个词的预定类型来对分词结果进行预测而获得的预测分词结果中选择的分词结果,所述序列标注单元对所述组合中的词进行合并。
8.根据权利要求7所述的信息处理装置,其中,所述序列标注单元在进行所述序列标注处理时,通过计算所述序列标注模型在所述外部存储器中的地址,从所述地址获取所述序列标注模型在所述外部存储器中的对应信息,来使用所述序列标注模型。
9.根据权利要求7所述的信息处理装置,其中,所述外部存储器为硬盘。
10.根据权利要求7所述的信息处理装置,其中,所述序列标注单元包括:
存储部,其被配置为将序列标注模型的发射概率和状态概率存储在外部存储器的第一文件中;
计算部,其被配置为对所述组合中的词的特征函数进行哈希运算,以将各特征函数和与该特征函数相对应的发射概率或状态概率的存储位置,以哈希值存储于第二文件中;
提取部,其被配置为从由所述计算部存储的所述存储位置,提取所述组合中相邻词作为一个联合词的概率;以及
合并部,其被配置为根据所提取的概率对所述组合中的各个词进行拼接。
11.根据权利要求10所述的信息处理装置,
其中,所述计算部通过对所述特征函数进行哈希运算获得特征函数的主哈希值、左哈希值和右哈希值,
其中,所述存储位置以主哈希值存储在第二文件中,并且
所述左哈希值和右哈希值用于确定是否存储所述存储位置。
12.一种用于信息处理装置的分词处理方法,所述分词处理方法包括如下步骤:
分词步骤,对分词对象进行分词并获得多个分词结果,所述多个分词结果中的各个被表示为多个词的组合;
第一拼接步骤,对所述组合中的相邻词进行拼接处理;
序列标注步骤,利用序列标注模型,对在所述第一拼接步骤中进行拼接处理后的所述组合中的各词进行序列标注,并根据序列标注的结果对所述组合中的词进行合并;以及
第二拼接步骤,其被配置根据预定规则对在所述序列标注步骤中进行合并后的组合中的词进行拼接,
其中,在所述序列标注步骤中,根据从基于所述组合中的多个词的预定类型来对分词结果进行预测而获得的预测分词结果中选择的分词结果,对所述组合中的词进行合并。
13.根据权利要求12所述的分词处理方法,其中,所述预定规则包括将相邻词中与事件、日期、数量词或者文字表情有关的词进行拼接。
14.根据权利要求12所述的分词处理方法,其中,所述序列标注步骤包括:
提取步骤,从由所述第一拼接步骤进行拼接处理后的所述组合中的各分词中提取预定类型的词;
预测步骤:其被配置为根据所述预定类型来预测所提取的词的对应分词结果;
选择步骤,其被配置为从所预测的分词结果中选择分词结果;以及
合并步骤,其被配置为根据在所述选择步骤中所选择的分词结果,来对所述组合中的词进行合并。
15.根据权利要求12所述的分词处理方法,其中,所述预定类型包括人名、地名和机构名。
16.根据权利要求14所述的分词处理方法,其中,在所述选择步骤中,根据分词策略分别计算多个词的组合的得分,并从所述多个词的组合中选择得分最高的组合。
17.根据权利要求16所述的分词处理方法,其中,所述分词策略包括词语权重和语言模型得分。
18.一种用于信息处理装置的分词处理方法,所述信息处理装置包括存储序列标注模型的外部存储器,所述分词处理方法包括如下步骤:
分词步骤,对分词对象进行分词并获得多个分词结果,所述多个分词结果中的各个被表示为多个词的组合;
序列标注步骤,针对将分词对象进行分词获得的、表示为多个词的组合的分词结果,利用序列标注模型对所述组合中的词进行序列标注处理,并根据序列标注的结果对所述组合中的词进行合并,
其中,在序列标注步骤中,在所述外部存储器中进行序列标注处理,
其中,在所述序列标注步骤中,根据从基于所述组合中的多个词的预定类型来对分词结果进行预测而获得的预测分词结果中选择的分词结果,对所述组合中的词进行合并。
19.根据权利要求18所述的分词处理方法,其中,在进行所述序列标注处理时,通过计算所述序列标注模型在所述外部存储器中的地址,从所述地址获取所述序列标注模型在所述外部存储器中的对应信息,来使用所述序列标注模型。
20.根据权利要求18所述的分词处理方法,其中,所述外部存储器为硬盘。
21.根据权利要求18所述的分词处理方法,其中,所述序列标注步骤包括:
存储步骤,将序列标注模型的发射概率和状态概率存储在第一文件中;
计算步骤,对所述组合中的词的特征函数进行哈希运算,以将各特征函数和与该特征函数相对应的发射概率或状态概率的存储位置,以哈希值存储于第二文件中;
提取步骤,从在所述计算步骤中存储的所述存储位置,提取所述组合中相邻词作为一个联合词的概率;
合并步骤,根据所提取的概率对所述组合中的各个词进行拼接。
22.根据权利要求21所述的分词处理方法,
其中,在所述计算步骤中,通过对所述特征函数进行哈希运算获得特征函数的主哈希值、左哈希值和右哈希值,
其中,所述存储位置以主哈希值存储在第二文件中,并且
所述左哈希值和右哈希值用于确定是否存储所述存储位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811400632.1A CN109492228B (zh) | 2017-06-28 | 2017-06-28 | 信息处理装置及其分词处理方法 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710505392.0A CN107291695B (zh) | 2017-06-28 | 2017-06-28 | 信息处理装置及其分词处理方法 |
CN201811400632.1A CN109492228B (zh) | 2017-06-28 | 2017-06-28 | 信息处理装置及其分词处理方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710505392.0A Division CN107291695B (zh) | 2017-06-28 | 2017-06-28 | 信息处理装置及其分词处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109492228A CN109492228A (zh) | 2019-03-19 |
CN109492228B true CN109492228B (zh) | 2020-01-14 |
Family
ID=60098659
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710505392.0A Active CN107291695B (zh) | 2017-06-28 | 2017-06-28 | 信息处理装置及其分词处理方法 |
CN201811400632.1A Active CN109492228B (zh) | 2017-06-28 | 2017-06-28 | 信息处理装置及其分词处理方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710505392.0A Active CN107291695B (zh) | 2017-06-28 | 2017-06-28 | 信息处理装置及其分词处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN107291695B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109766539B (zh) * | 2018-11-30 | 2022-12-20 | 平安科技(深圳)有限公司 | 标准词库分词方法、装置、设备及计算机可读存储介质 |
CN111339250B (zh) * | 2020-02-20 | 2023-08-18 | 北京百度网讯科技有限公司 | 新类别标签的挖掘方法及电子设备、计算机可读介质 |
CN115497465B (zh) * | 2022-09-06 | 2024-08-27 | 平安银行股份有限公司 | 语音交互方法、装置、电子设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102360383A (zh) * | 2011-10-15 | 2012-02-22 | 西安交通大学 | 一种面向文本的领域术语与术语关系抽取方法 |
CN103823862A (zh) * | 2014-02-24 | 2014-05-28 | 西安交通大学 | 一种跨语言的电子文本剽窃检测系统及其检测方法 |
CN103984735A (zh) * | 2014-05-21 | 2014-08-13 | 北京京东尚科信息技术有限公司 | 一种用于生成推荐配送地点名称的方法和装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7386569B2 (en) * | 2005-01-11 | 2008-06-10 | International Business Machines Corporation | Systems, methods, and media for aggregating electronic document usage information |
US7393665B2 (en) * | 2005-02-10 | 2008-07-01 | Population Genetics Technologies Ltd | Methods and compositions for tagging and identifying polynucleotides |
CN103309852A (zh) * | 2013-06-14 | 2013-09-18 | 瑞达信息安全产业股份有限公司 | 一种基于统计和规则的特定领域的合成词发现方法 |
CN103646088B (zh) * | 2013-12-13 | 2017-03-15 | 合肥工业大学 | 基于CRFs和SVM的产品评论细粒度情感要素提取 |
CN104469002A (zh) * | 2014-12-02 | 2015-03-25 | 科大讯飞股份有限公司 | 确定手机联系人的方法和装置 |
CN105095391A (zh) * | 2015-06-30 | 2015-11-25 | 北京奇虎科技有限公司 | 利用分词程序识别机构名称的装置及方法 |
CN105718586B (zh) * | 2016-01-26 | 2018-12-28 | 中国人民解放军国防科学技术大学 | 分词的方法及装置 |
CN106021229B (zh) * | 2016-05-19 | 2018-11-02 | 苏州大学 | 一种中文事件同指消解方法 |
-
2017
- 2017-06-28 CN CN201710505392.0A patent/CN107291695B/zh active Active
- 2017-06-28 CN CN201811400632.1A patent/CN109492228B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102360383A (zh) * | 2011-10-15 | 2012-02-22 | 西安交通大学 | 一种面向文本的领域术语与术语关系抽取方法 |
CN103823862A (zh) * | 2014-02-24 | 2014-05-28 | 西安交通大学 | 一种跨语言的电子文本剽窃检测系统及其检测方法 |
CN103984735A (zh) * | 2014-05-21 | 2014-08-13 | 北京京东尚科信息技术有限公司 | 一种用于生成推荐配送地点名称的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109492228A (zh) | 2019-03-19 |
CN107291695A (zh) | 2017-10-24 |
CN107291695B (zh) | 2019-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110162770A (zh) | 一种词扩展方法、装置、设备及介质 | |
US20170351687A1 (en) | Method and system for enhanced query term suggestion | |
US8874590B2 (en) | Apparatus and method for supporting keyword input | |
CN108932320B (zh) | 文章搜索方法、装置及电子设备 | |
JP6122800B2 (ja) | 電子機器、文字列表示方法、および文字列表示プログラム | |
CN109492228B (zh) | 信息处理装置及其分词处理方法 | |
CN112215008A (zh) | 基于语义理解的实体识别方法、装置、计算机设备和介质 | |
CN110069769B (zh) | 应用标签生成方法、装置及存储设备 | |
CN111767394A (zh) | 一种基于人工智能专家系统的摘要提取方法及装置 | |
CN112149404A (zh) | 一种用户隐私数据的风险内容识别方法、装置及系统 | |
CN111160007A (zh) | 基于bert语言模型的搜索方法、装置、计算机设备及存储介质 | |
US20130041890A1 (en) | Method for displaying candidate in character input, character inputting program, and character input apparatus | |
CN111880668A (zh) | 输入显示方法、装置及电子设备 | |
CN109241238B (zh) | 文章搜索方法、装置及电子设备 | |
CN112307198B (zh) | 一种单文本的摘要确定方法和相关装置 | |
CN112417875B (zh) | 配置信息的更新方法、装置、计算机设备及介质 | |
US8972241B2 (en) | Electronic device and method for a bidirectional context-based text disambiguation | |
CN111858966A (zh) | 知识图谱的更新方法、装置、终端设备及可读存储介质 | |
JP6221275B2 (ja) | 文字入力用のプログラムおよび文字入力装置 | |
JP2010072967A (ja) | 情報検索方法、情報検索装置及び情報検索プログラム | |
CN111753548A (zh) | 信息获取方法及装置、计算机存储介质、电子设备 | |
CN117093715B (zh) | 词库扩充方法、系统、计算机设备及存储介质 | |
CN103870822A (zh) | 词语识别方法及装置 | |
CN116127098A (zh) | 知识图谱的构建方法、装置 | |
KR102219728B1 (ko) | 키패드를 이용한 키워드 검색 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20200804 Address after: 518000 Nanshan District science and technology zone, Guangdong, Zhejiang Province, science and technology in the Tencent Building on the 1st floor of the 35 layer Patentee after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd. Address before: 100029, Beijing, Chaoyang District new East Street, building No. 2, -3 to 25, 101, 8, 804 rooms Patentee before: Tricorn (Beijing) Technology Co.,Ltd. |