CN107967250B - 一种信息处理方法及装置 - Google Patents
一种信息处理方法及装置 Download PDFInfo
- Publication number
- CN107967250B CN107967250B CN201610912078.XA CN201610912078A CN107967250B CN 107967250 B CN107967250 B CN 107967250B CN 201610912078 A CN201610912078 A CN 201610912078A CN 107967250 B CN107967250 B CN 107967250B
- Authority
- CN
- China
- Prior art keywords
- text information
- participle
- information
- participles
- processing unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Abstract
本发明公开了一种信息处理方法,包括:将接收到的非文本信息识别为文本信息;对所述文本信息进行词法分析,获取组成所述文本信息的各分词以及对应每一个分词的属性信息;根据所述各分词以及对应每一个分词的属性信息,将所述各分词划分为能删除分词和不能删除分词;删除所述文本信息中所包含的所述能删除分词,并记录由所述文本信息中所包含的所述不能删除分词所组成的新文本信息与所述非文本信息之间的关系。本发明还同时公开了一种信息处理装置。
Description
技术领域
本发明涉及信息处理技术,尤其涉及一种信息处理方法及装置。
背景技术
随着通信技术的发展,越来越多的用户喜欢采用非文本信息的方式比如语音信息进行聊天,其中常见的语音聊天方式包括微信语音、QQ语音等。相比传统的文本短信的聊天方式,采用语音信息的聊天方式减少了用户手动输入文本信息的不便、弥补了传统的文本短信难以传递声音的不足。然而,采用语音信息的聊天方式也存在一个不足之处,即用户在收到语音信息后不能直观的阅读和理解,而只能逐条地点击语音信息进行语音识别,并且由于现有技术中没有提取和检索语音信息中所包含的关键信息的功能,从而给用户在语音信息的使用上造成不便。例如,当用户已接收到大量语音短信而此时需要查看某一条语音短信的内容时,如果用户忘记该语音短信的大致收发时间,则只能逐条地点击语音短信进行语音识别以获取目标语音短信,这样会使得查看操作过程既麻烦又费时。此外,虽然根据现有技术已能实现将语音信息转化为文本信息,但是由于人们交流的口语中包含许多对于意思表达没有影响的虚词或助词,如果将这些虚词或助词也转化为文本,则会影响用户对文本信息的阅读。
发明内容
为解决上述技术问题,本发明实施例期望提供一种信息处理方法及装置。
为达到上述目的,本发明的技术方案是这样实现的:
本发明实施例提供了一种信息处理方法,所述方法包括:
将接收到的非文本信息识别为文本信息;
对所述文本信息进行词法分析,获取组成所述文本信息的各分词以及对应每一个分词的属性信息;
根据所述各分词以及对应每一个分词的属性信息,将所述各分词划分为能删除分词和不能删除分词;
删除所述文本信息中所包含的所述能删除分词,并记录由所述文本信息中所包含的所述不能删除分词所组成的新文本信息与所述非文本信息之间的关系。
上述方案中,所述方法还包括:在所述非文本信息后显示所述新文本信息;和/或,当任意一个所述不能删除分词被搜索时,显示所述新文本信息和/或所述非文本信息。
上述方案中,所述将接收到的非文本信息识别为文本信息,包括:
通过语音识别技术将接收到的语音信息转换为文本信息;或,
通过图像文字识别技术将接收到的图片信息转换为文本信息。
上述方案中,所述对所述文本信息进行词法分析,包括:
对所述文本信息进行分词,获取组成所述文本信息的各分词;
对所述各分词进行词性标注,获取所述各分词中每一个分词的词性标签;
对所述各分词进行命名实体识别,获取所述各分词中每一个分词的命名实体标签。
上述方案中,所述对所述文本信息进行词法分析之前,所述方法还包括:采用正则表达式匹配所述文本信息,将匹配出的所述文本信息中所包含的不规范用语替换为规范用语。
上述方案中,所述对所述文本信息进行词法分析之后,所述方法还包括:
对所述各分词进行句法分析,获取所述各分词中每一个分词的句法分析标签,并简化所述句法分析标签。
本发明实施例提供了一种信息处理装置,所述装置包括:第一处理单元、第二处理单元、第三处理单元、第四处理单元;其中,
所述第一处理单元,用于将接收到的非文本信息识别为文本信息;
所述第二处理单元,用于对所述文本信息进行词法分析,获取组成所述文本信息的各分词以及对应每一个分词的属性信息;
所述第三处理单元,用于根据所述各分词以及对应每一个分词的属性信息,将所述各分词划分为能删除分词和不能删除分词;
所述第四处理单元,用于删除所述文本信息中所包含的所述能删除分词,并记录由所述文本信息中所包含的所述不能删除分词所组成的新文本信息与所述非文本信息之间的关系。
上述方案中,所述装置还包括:第五处理单元,用于在所述非文本信息后显示所述新文本信息;和/或,当任意一个所述不能删除分词被搜索时,显示所述新文本信息和/或所述非文本信息。
上述方案中,所述第一处理单元,具体用于:
通过语音识别技术将接收到的语音信息转换为文本信息;或,
通过图像文字识别技术将接收到的图片信息转换为文本信息。
上述方案中,所述第二处理单元,具体用于:
对所述文本信息进行分词,获取组成所述文本信息的各分词;
对所述各分词进行词性标注,获取所述各分词中每一个分词的词性标签;
对所述各分词进行命名实体识别,获取所述各分词中每一个分词的命名实体标签。
上述方案中,所述第二处理单元,还用于在对所述文本信息进行词法分析之前,采用正则表达式匹配所述文本信息,将匹配出的所述文本信息中所包含的不规范用语替换为规范用语。
上述方案中,所述第二处理单元,还用于在对所述文本信息进行词法分析之后,对所述各分词进行句法分析,获取所述各分词中每一个分词的句法分析标签,并简化所述句法分析标签。
本发明实施例提供的信息处理方法及装置,将接收到的非文本信息识别为文本信息;对所述文本信息进行词法分析,获取组成所述文本信息的各分词以及对应每一个分词的属性信息;根据所述各分词以及对应每一个分词的属性信息,将所述各分词划分为能删除分词和不能删除分词;删除所述文本信息中所包含的所述能删除分词,并记录由所述文本信息中所包含的所述不能删除分词所组成的新文本信息与所述非文本信息之间的关系。可见,本发明实施例通过将接收到的非文本信息识别为文本信息,然后对所述文本信息进行词法分析以将组成所述文本信息的各分词划分为能删除分词和不能删除分词,最后获取到由所述不能删除分词所组成的新文本信息,即提取出所述非文本信息中所包含的关键信息而组成新文本信息,以方便用户对所述非文本信息中所包含的关键信息进行检索和阅读,从而解决了现有技术中无法对非文本信息中所包含的关键信息进行快速提取和检索的问题,提升了用户对文本信息的阅读体验。
附图说明
图1为本发明实施例信息处理方法的实现流程示意图;
图2为本发明实施例信息处理方法的具体实现流程示意图;
图3为本发明实施例信息处理装置的组成结构示意图。
具体实施方式
图1为本发明实施例信息处理方法的实现流程示意图,该信息处理方法包括:
步骤101:将接收到的非文本信息识别为文本信息;
具体地,当接收到的非文本信息为语音信息时,通过现有的语音识别技术将接收到的语音信息转换为文本信息;当接收到的非文本信息为图片信息时,通过现有的图像文字识别技术将接收到的图片信息转换为文本信息。
这里,当采用语音识别技术对接收到的语音信息进行识别时,除了能识别的文字外,所述语音信息中的语音停顿可统一采用字符如“□”表示,而不能识别的词汇也可采用字符如“※”表示,同时每段话的起始字符之前和结尾字符之后还可分别加上一个特殊的字符,以实现将语音信息完全转换为文本信息。
这里,当接收到的信息为文本信息时,则无需对所述接收到的信息进行识别,即可不执行步骤101。
步骤102:对所述文本信息进行词法分析,获取组成所述文本信息的各分词以及对应每一个分词的属性信息;
具体地,对步骤101中获得的所述文本信息进行分词,以获取组成所述文本信息的各分词;对所述各分词进行词性标注,以获取所述各分词中每一个分词的词性标签;对所述各分词进行命名实体识别,以获取所述各分词中每一个分词的命名实体标签。
这里,所述对所述文本信息进行分词可采用现有的中文分词技术如基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法等,也可采用预设的分词算法;所述对所述各分词进行词性标注可根据现有的词性标注方法为每一个分词分配一个词性标签,所述词性标签可依据现有的词性编码表进行设置;所述对所述各分词进行命名实体识别可通过预先建立的命名实体词典或采用正则表达式来进行匹配,也可以通过条件随机场(Conditional RandomField,CRF)算法对分词所处的语境进行判断,从而为每一个分词分配一个对应的命名实体标签。例如,预先将常见的地名、人名和机构名建立一个命名实体词典,然后根据该命名实体词典与分词进行一一匹配,若能匹配则给该分词打上相应的命名实体标签。
这里,所述对文本信息进行分词的过程以及对分词后获取的各分词进行词性标注的过程可利用现有技术如隐马尔克夫模型、CRF模型或深度学习技术等连在一起完成。
进一步地,在步骤102之前,该方法还可包括:采用正则表达式匹配所述文本信息,将匹配出的所述文本信息中所包含的不规范用语替换为规范用语。
这里,由于组成语音信息的口语中的语法规则很随意,将会降低步骤102中对所述文本信息进行词法分析的准确性和便捷性,因此,在对所述文本信息进行词法分析前可先对所述文本信息进行必要地预处理,例如采用正则表达式匹配所述文本信息,将匹配出的所述文本信息中所包含的不规范用语替换为规范用语,比如将口语词转化为书面语、替换掉俚语、将外国语言文字转化为中文文字等。
进一步地,所述对所述文本信息进行词法分析之后,该方法还可包括:对所述各分词进行句法分析,获取所述各分词中每一个分词的句法分析标签,并简化所述句法分析标签。
这里,虽然根据步骤102中对所述文本信息进行词法分析的结果在处理一般的自然语言分析任务中已经能得到满意的处理结果,但本实施例中引入对所述各分词进行句法分析的结果作为额外的辅助特征;首先,对所述各分词进行依存句法分析,给所述各分词中的每一个分词分配一个对应的句法分析标签,然后再对各分词的句法分析标签进行简化。
这里,所述每一个分词的属性信息可包括该分词的词性标签、命名实体标签,还可包括该分词的句法分析标签。
步骤103:根据所述各分词以及对应每一个分词的属性信息,将所述各分词划分为能删除分词和不能删除分词;
具体地,根据所述各分词以及对应每一个分词的属性信息,采用CRF算法给每一个分词打上保留标签或删除标签,若分词的标签为保留标签,则该分词为不能删除分词;若分词的标签为删除标签,则该分词为能删除分词。
这里,所述保留标签可用“1”表示,所述删除标签可用“0”表示。
步骤104:删除所述文本信息中所包含的所述能删除分词,并记录由所述文本信息中所包含的所述不能删除分词所组成的新文本信息与所述非文本信息之间的关系。
具体地,根据步骤103中获取的所述文本信息中各分词的划分结果,删除所述文本信息中所包含的所述能删除分词,并由所述文本信息中所包含的所述不能删除分词组成新文本信息;存储所述新文本信息,记录所述新文本信息与所述非文本信息之间的关系,并将所述新文本信息显示在步骤101中所述接收到的非文本信息的后面,以方便通过阅读所述新文本信息而了解所述非文本信息中所包含的关键信息。
这里,所述文本信息中所包含的不能删除分词通常为一些实词如名词、动词等,而名词、动词常常都是所述文本信息中的关键信息,因此不能删除;所述能删除分词通常为副词、助词等,而副词、助词往往不是所述文本信息中的关键信息,未对理解所述文本信息提供较大帮助,因此可以删除;通过删除所述文本信息中所包含的所述能删除分词,使得所述文本信息得到了压缩,即实现了对所述非文本信息中所包含的关键信息进行快速提取。
这里,当通过对所述非文本信息进行处理获取到与所述非文本信息对应的新文本信息后,可直接将所述新文本信息显示在所述非文本信息的后面,以便直观展示。
这里,当任意一个不能删除分词被搜索时,则显示包含有该不能删除分词的新文本信息,以实现对非文本信息中所包含的关键信息进行快速检索,并提升对文本信息的阅读体验;此外,当任意一个不能删除分词被搜索时,除了显示包含有该不能删除分词的新文本信息之外,还可根据记录的所述包含有该不能删除分词的新文本信息与对应的非文本信息之间的关系,显示与所述包含有该不能删除分词的新文本信息对应的非文本信息。
下面将通过一个具体示例对本发明作进一步地的说明,图2为本发明实施例信息处理方法的具体实现流程示意图,该信息处理方法包括:
步骤201:通过语音识别技术将收到的语音信息转化为文本信息;
具体地,采用现有语音识别技术方法,将收到的每一条语音信息转化为文本信息。
这里,所述语音信息除了能被语音识别技术识别出的文字外,语音信息中的语音停顿在文本信息中统一采用字符“□”表示,而语音信息不能被语音识别技术识别出的文字在文本信息中采用字符“※”表示;同时,语音信息中每一段话的起始字符之前和结尾字符之后在转化后的文本信息中也分别加上一个特殊的字符
步骤202:词法分析,分别进行预处理、分词、词性标注、命名实体识别;
具体地,对步骤201中获取的文本信息进行词法分析,即对所述文本信息进行预处理、分词、词性标注、命名实体识别,以获取所述文本信息的词法分析结果。
这里,由于口语中的语法规则很随意,将会影响后面对所述语音信息转化后所获得的文本信息的词法分析。因此,在对步骤201中所获得的文本信息进行分词、词性标注和命名实体识别之前,先对所述文本信息进行必要的预处理,比如将口语词转化为书面语、替换掉俚语和不规范用语;所述预处理的过程可以通过采用正则表达式来实现,比如采用正则表达式对某一个特定词语进行匹配查找并替换为指定的词语。
这里,当对所述文本信息进行预处理后,则对所述预处理后的文本信息进行分词和词性标注,以获取组成所述预处理后的文本信息的各分词以及每一个分词的词性;所述分词和词性标注的操作可以利用现有技术连在一起完成,比如采用隐马尔可夫模型、CRF模型或深度学习技术等现有技术;所述对所述预处理后的文本信息进行分词和词性标注的处理结果关系到每一个分词的词性,根据每一个分词的词性进而可以判断该分词是否需要被保留或删除;一般而言,文本信息中的一些实词比如名词、动词常常不能删除,而副词、助词往往可以删除。
这里,获取到每一个分词的词性后,可根据表1所示的常见词性标签表,给每一个分词打上对应的词性标签。
这里,当对所述预处理后的文本信息进行分词和词性标注后,则对所述文本信息进行命名实体识别,以识别出所述文本信息中的人名、地名和机构名等命名实体,并打上对应的命名实体识别标签;所述命名实体识别的操作过程可以通过预先建立的命名实体词典或正则表达式来进行匹配,也可以通过CRF等算法根据词语所处的语境来判断。比如,预先将常见的地名、人名、机构名建立一个词典,然后将词典里的内容与文本进行一一匹配,如果文本中的词语能匹配至词典,则给该词语打上相应的命名实体识别标签。表2为常见命名实体识别标签表,假设任意一个词语匹配到“上海市”,则给该词语打上LOCATION标签以表示位置;若该词语匹配到“国务院”,则给该词语打上ORGANIZATION标签以表示机构。
表1
命名实体 | 标签 |
时间 | NT |
位置 | LOCATION |
标点或停顿 | PU |
人名 | PERSON |
机构名 | ORGANIZATION |
数值 | DIGIT |
货币 | DURRENCY |
电话号码 | CELLPHONE |
其他 | N/A |
表2
步骤203:句法分析,进行依存句法分析,并进行标签的简化;
具体地,对步骤202中获得的所述文本信息的词法分析结果进行依存句法分析,以通过分析句子内各分词之间的依存关系而识别出句子的句法结构,即句法分析结果;根据句法分析结果对各分词打上对应的句法分析标签,然后再进行标签的简化。
这里,通过步骤202对文本信息进行词法分析所获得的特征在处理一般的自然语言分析任务中已经能得到满意的结果了,但本实施例中引入句法分析结果作为额外的辅助特征;所述句法分析结果可用句法树来表示,为了简化分析,根据句法分析结果对每一个分词分别打上ROT、PAR、PAR三种标签中对应的一种;其中,ROT表示该分词处于句法树中的根节点,PAR表示该分词处于句法树中的父节点,PAR表示该分词处于句法树中的叶子节点。
分词 | 词性标签 | 命名实体识别标签 | 句法分析标签 |
呵呵 | ON | N/A | LEA |
□ | PU | N/A | LEA |
那 | PN | N/A | LEA |
就 | AD | N/A | PAR |
听 | V | N/A | ROT |
你 | P N | N/A | PAR |
的 | U | N/A | LEA |
吧 | U | N/A | LEA |
□ | PU | N/A | LEA |
我们 | PN | N/A | LEA |
周六 | DATA | NT | LEA |
晚上 | NT | NT | PAR |
去 | V | N/A | PAR |
九眼桥 | NR | LOCATION | PAR |
好好的 | AD | N/A | LEA |
庆祝 | V | N/A | PAR |
一下 | AD | N/A | LEA |
表3
步骤204:将词法分析结果和句法分析结果作为特征,采用CRF算法对所述文本信息进行压缩。
具体地,根据步骤202中获取的所述文本信息的词法分析结果和步骤203中获取的所述文本信息的句法分析结果,采用CRF算法给组成所述文本信息的每一个分词打上标签0或者1,若CRF算法给该分词打上标签0,则将该分词删除,否则将该分词保留;这样,便实现了将语音信息识别为文本信息后,通过提取文本信息中的关键信息,以达到压缩文本信息的目的,不仅可方便用户浏览聊天记录,还能够使用户从语音聊天信息中方便的检索到想要查找的信息。
这里,对于句子压缩问题,可转化为序列标注问题:假设输入的句子为由M个词构成的词序列X且X=(x1,x2,x3,...,xi),1≤i≤M,则输出的相应的标注序列为Y=(y1,y2,y3,...,yi),yi∈{0,1};若yi=0,则表示对应的xi可以删除;若yi=1,则表示对应的xi予以保留。
这里,根据词序列X,CRF算法给所述词序列X中每一个分词打上标签的计算公式可以表示为:其中,W为通过对训练语料进行训练得到的模型参数;F(X,Y)为特征模板的函数;Z(X)为归一化常数,确保概率和为1。
这里,对使用CRF算法给词序列标注进行举例说明,如下:
假设,经过语音识别后获得的句子为“呵呵□那就听你的吧□我们周六晚上去九眼桥好好地庆祝一下”,所述句子根据表1和表2完成词法分析以及句法分析后,得到表3所示的组成所述句子的各分词以及每一个分词的词性标签、命名实体识别标签和句法分析标签。
其中,特征模板的形式为:
U-1 0 (unigram)
……
B-2,1/1,3 (bigram)
……
这里,U和B分别代表两类特征;其中,U类的特征模板是只考虑当前词的标签出现概率,而B类的特征模板是同时考虑当前词和前一词的标签共现和转移概率。
其中,一小段已训练好的模型参数如下:
……
U 0 0转正1 0答辩1:3;
U 0 0会议室1:-2;
U 0 0 A 0 3 LEA 0:-6;
U 2 0N 0:1;
U-2 0次0:-1;
U 0 0DIGIT-1 2NN 0 2D 1:-1;
U 0 0王小丫0 1NR 1:-1;
U 0 2DIGIT 0 1D 1 1P 0:1;
U 0 0扣-1 1AD 0 1V 1:-1;
U-1 0上海1:-1;
B 1 0前0:-1;
B 0 0金老板0 1NR 0 1:3;
B-1 0座0 2DIGIT 1 0:-1;
B 1 0通知0 0:-5;
B 0 0欠款1 2CURRENCY 1 1:3;
B 0 0信用卡0 2N/A0 1:-1;
B 0 0日0 1NR 0 0:1;
B-2 0还0 1:2;
B 0 0香港1 0国际0 1:2;
……
这里,前面部分表示在模板特征读到的特征值环境下,给当前词打上0或1标签,“:”后的数字表示对应的分数。对于U开头的U类特征,以第一行为例,“U 0 0转正1 0答辩”表示当前词为“转正”,后面一词为“答辩”,后面的“1”表示当前词应保留的分数为3;对于B开头的B类特征,以最后一行为例,“B 0 0香港1 0国际”表示当前词为“香港”,后面一词为“国际”,后面“0”表示前一词可删除,“1”表示当前词可保留,此时对应的分数为2。
这里,每个特征模板所对应的模型参数可通过大量人工标注好的语料在服务器上训练而来。
这里,有了特征模板和模型参数后,就可以对输入的词序列计算每一个分词赋予保留标签还是删除标签。首先,通过特征模板,读取特征模板的词语中的特征;例如,先计算“呵呵”打上标签“0”的分数,从特征模板中读取模板,得到语境特征,以第一特征模板第一列为例,得到其中,特殊字符表示句首;然后,在训练好的模型文件中查找得到对应标签的分数;接着,读下一个特征模板,得到其分数并相加,至到读完特征模板;然后,再计算“呵呵”为“1”的分数;然后,再计算下一个词赋予两种标签的分数,至到整个句子的所有词的分数全计算完成;最后,采用维特比(Viterbi)解码算法求出整条句子最大概率下的压缩结果。解码完成后,将打上标签0的词删除,然后在每条信息后显示压缩后的句子:“就听你的我们周六晚上去九眼桥庆祝”。
为实现上述方法,本发明实施例还提供了一种信息处理装置,该装置可集成于终端中;图3为本发明实施例信息处理装置的组成结构示意图,该装置包括:第一处理单元21、第二处理单元22、第三处理单元23、第四处理单元24;其中,
所述第一处理单元21,用于将接收到的非文本信息识别为文本信息;
所述第二处理单元22,用于对所述文本信息进行词法分析,获取组成所述文本信息的各分词以及对应每一个分词的属性信息;
所述第三处理单元23,用于根据所述各分词以及对应每一个分词的属性信息,将所述各分词划分为能删除分词和不能删除分词;
所述第四处理单元24,用于删除所述文本信息中所包含的所述能删除分词,并记录由所述文本信息中所包含的所述不能删除分词所组成的新文本信息与所述非文本信息之间的关系。
其中,所述第一处理单元21,具体用于:当接收到的非文本信息为语音信息时,通过现有的语音识别技术将接收到的语音信息转换为文本信息;当接收到的非文本信息为图片信息时,通过现有的图像文字识别技术将接收到的图片信息转换为文本信息。
这里,当采用语音识别技术对接收到的语音信息进行识别时,除了能识别的文字外,所述语音信息中的语音停顿可统一采用字符如“□”表示,而不能识别的词汇也可采用字符如“※”表示,同时每段话的起始字符之前和结尾字符之后还可分别加上一个特殊的字符,以实现将语音信息完全转换为文本信息。
这里,当第一处理单元21接收到的信息为文本信息时,则无需对所述接收到的信息进行识别。
所述第二处理单元22,具体用于:对所述第一处理单元21获得的所述文本信息进行分词,以获取组成所述文本信息的各分词;对所述各分词进行词性标注,以获取所述各分词中每一个分词的词性标签;对所述各分词进行命名实体识别,以获取所述各分词中每一个分词的命名实体标签。
这里,所述对所述文本信息进行分词可采用现有的中文分词技术如基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法等,也可采用预设的分词算法;所述对所述各分词进行词性标注可根据现有的词性标注方法为每一个分词分配一个词性标签,所述词性标签可依据现有的词性编码表进行设置;所述对所述各分词进行命名实体识别可通过预先建立的命名实体词典或采用正则表达式来进行匹配,也可以通过CRF算法对分词所处的语境进行判断,从而为每一个分词分配一个对应的命名实体标签。例如,预先将常见的地名、人名和机构名建立一个命名实体词典,然后根据该命名实体词典与分词进行一一匹配,若能匹配则给该分词打上相应的命名实体标签。
这里,所述对文本信息进行分词的过程以及对分词后获取的各分词进行词性标注的过程可利用现有技术如隐马尔克夫模型、CRF模型或深度学习技术等连在一起完成。
进一步地,所述第二处理单元22,还用于在对所述文本信息进行词法分析之前,采用正则表达式匹配所述文本信息,将匹配出的所述文本信息中所包含的不规范用语替换为规范用语。
这里,由于组成语音信息的口语中的语法规则很随意,将会对所述文本信息进行词法分析的准确性和便捷性,因此,所述第二处理单元22在对所述文本信息进行词法分析前可先对所述文本信息进行必要地预处理,例如采用正则表达式匹配所述文本信息,将匹配出的所述文本信息中所包含的不规范用语替换为规范用语,比如将口语词转化为书面语、替换掉俚语、将外国语言文字转化为中文文字等。
进一步地,所述第二处理单元22,还用于在对所述文本信息进行词法分析之后,对所述各分词进行句法分析,以获取所述各分词中每一个分词的句法分析标签,并简化所述句法分析标签。
这里,虽然根据所述第二处理单元22对所述文本信息进行词法分析的结果在处理一般的自然语言分析任务中已经能得到满意的处理结果,但本实施例中引入对所述各分词进行句法分析的结果作为额外的辅助特征;首先,所述第二处理单元22对所述各分词进行依存句法分析,给所述各分词中的每一个分词分配一个对应的句法分析标签,然后再对各分词的句法分析标签进行简化。
这里,所述每一个分词的属性信息可包括该分词的词性标签、命名实体标签,还可包括该分词的句法分析标签。
所述第三处理单元23,具体用于:根据所述第二处理单元22处理后获得的所述各分词以及对应每一个分词的属性信息,采用CRF算法给每一个分词打上保留标签或删除标签,若分词的标签为保留标签,则该分词为不能删除分词;若分词的标签为删除标签,则该分词为能删除分词。
这里,所述保留标签可用“1”表示,所述删除标签可用“0”表示。
所述第四处理单元24,具体用于:根据所述第三处理单元23获取的所述文本信息中各分词的划分结果,删除所述文本信息中所包含的所述能删除分词,并由所述文本信息中所包含的所述不能删除分词组成新文本信息;存储所述新文本信息,记录所述新文本信息与所述非文本信息之间的关系,并将所述新文本信息显示在所述第一处理单元21接收到的所述非文本信息的后面,以方便通过阅读所述新文本信息而了解所述非文本信息中所包含的关键信息。
这里,所述文本信息中所包含的不能删除分词通常为一些实词如名词、动词等,而名词、动词常常都是所述文本信息中的关键信息,因此不能删除;所述能删除分词通常为副词、助词等,而副词、助词往往不是所述文本信息中的关键信息,未对理解所述文本信息提供较大帮助,因此可以删除;通过删除所述文本信息中所包含的能删除分词,使得所述文本信息得到了压缩,即实现了对所述非文本信息中所包含的关键信息进行快速提取。
进一步地,该装置还包括:第五处理单元25,用于在所述非文本信息后显示所述新文本信息;和/或,当任意一个所述不能删除分词被搜索时,显示所述新文本信息和/或所述非文本信息。
具体地,当任意一个不能删除分词被搜索时,则第五处理单元25显示包含有该不能删除分词的新文本信息,以实现对非文本信息中所包含的关键信息进行快速检索,并提升对文本信息的阅读体验;此外,当任意一个不能删除分词被搜索时,第五处理单元25除了显示包含有该不能删除分词的新文本信息之外,还可根据第四处理单元24记录的所述包含有该不能删除分词的新文本信息与对应的非文本信息之间的关系,显示与所述包含有该不能删除分词的新文本信息对应的非文本信息。
这里,当通过对所述非文本信息进行处理获取到与所述非文本信息对应的新文本信息后,所述第五处理单元25还可直接将所述新文本信息显示在所述非文本信息的后面,以便直观展示。
在实际应用中,所述第一处理单元21、第二处理单元22、第三处理单元23、第四处理单元24、第五处理单元25均可由位于终端上的中央处理器(Central Processing Unit,CPU)、微处理器(Microprocessor Unit,MPU)、数字信号处理器(Digital SignalProcessor,DSP)、或现场可编程门阵列(Field-Programmable Gate Array,FPGA)等实现。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本发明的保护范围之内。
Claims (8)
1.一种信息处理方法,其特征在于,所述方法包括:
将接收到的非文本信息识别为文本信息;
对所述文本信息进行词法分析,获取组成所述文本信息的各分词以及对应每一个分词的属性信息,所述属性信息包括词性标签和命名实体标签;其中,所述对所述文本信息进行词法分析,包括:对所述文本信息进行分词,获取组成所述文本信息的各分词;对所述各分词进行词性标注,获取所述各分词中每一个分词的词性标签;对所述各分词进行命名实体识别,获取所述各分词中每一个分词的命名实体标签;
对所述各分词进行句法分析,获取所述各分词中每一个分词的句法分析标签,并简化所述句法分析标签;
根据所述词性标签、所述命名实体标签和所述句法分析标签,将所述各分词划分为能删除分词和不能删除分词;
删除所述文本信息中所包含的所述能删除分词,并记录由所述文本信息中所包含的所述不能删除分词所组成的新文本信息与所述非文本信息之间的关系,所述新文本信息用于供用户对所述非文本信息中所包含的关键信息进行检索和阅读;
其中,所述将所述各分词划分为能删除分词和不能删除分词,包括:对于每个分词,在采用条件随机场算法计算所述分词打上能删除分词的标签的分数时,从特征模板中依次读取每个模板,得到语境特征,在训练好的模型文件中查找得到对应标签的分数并相加;在计算所述分词打上不能删除分词的标签的分数时,从特征模板中依次读取每个模板,得到语境特征,在训练好的模型文件中查找得到对应标签的分数并相加;利用维特比解码算法求出所述文本信息最大概率下的压缩结果,得到所述能删除分词和所述不能删除分词。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:在所述非文本信息后显示所述新文本信息;和/或,当任意一个所述不能删除分词被搜索时,显示所述新文本信息和/或所述非文本信息。
3.根据权利要求1或2所述的方法,其特征在于,所述将接收到的非文本信息识别为文本信息,包括:
通过语音识别技术将接收到的语音信息转换为文本信息;或,
通过图像文字识别技术将接收到的图片信息转换为文本信息。
4.根据权利要求1或2所述的方法,其特征在于,所述对所述文本信息进行词法分析之前,所述方法还包括:采用正则表达式匹配所述文本信息,将匹配出的所述文本信息中所包含的不规范用语替换为规范用语。
5.一种信息处理装置,其特征在于,所述装置包括:第一处理单元、第二处理单元、第三处理单元、第四处理单元;其中,
所述第一处理单元,用于将接收到的非文本信息识别为文本信息;
所述第二处理单元,用于对所述文本信息进行词法分析,获取组成所述文本信息的各分词以及对应每一个分词的属性信息,所述属性信息包括词性标签和命名实体标签;其中,所述第二处理单元,具体用于对所述文本信息进行分词,获取组成所述文本信息的各分词;对所述各分词进行词性标注,获取所述各分词中每一个分词的词性标签;对所述各分词进行命名实体识别,获取所述各分词中每一个分词的命名实体标签;
所述第二处理单元,还用于对所述各分词进行句法分析,获取所述各分词中每一个分词的句法分析标签,并简化所述句法分析标签;
所述第三处理单元,用于根据所述词性标签、所述命名实体标签和所述句法分析标签,将所述各分词划分为能删除分词和不能删除分词;
所述第四处理单元,用于删除所述文本信息中所包含的所述能删除分词,并记录由所述文本信息中所包含的所述不能删除分词所组成的新文本信息与所述非文本信息之间的关系,所述新文本信息用于供用户对所述非文本信息中所包含的关键信息进行检索和阅读;
其中,所述第三处理单元,还用于对于每个分词,在采用条件随机场算法计算所述分词打上能删除分词的标签的分数时,从特征模板中依次读取每个模板,得到语境特征,在训练好的模型文件中查找得到对应标签的分数并相加;在计算所述分词打上不能删除分词的标签的分数时,从特征模板中依次读取每个模板,得到语境特征,在训练好的模型文件中查找得到对应标签的分数并相加;利用维特比解码算法求出所述文本信息最大概率下的压缩结果,得到所述能删除分词和所述不能删除分词。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:第五处理单元,用于在所述非文本信息后显示所述新文本信息;和/或,当任意一个所述不能删除分词被搜索时,显示所述新文本信息和/或所述非文本信息。
7.根据权利要求5或6所述的装置,其特征在于,所述第一处理单元,具体用于:通过语音识别技术将接收到的语音信息转换为文本信息;或,通过图像文字识别技术将接收到的图片信息转换为文本信息。
8.根据权利要求5或6所述的装置,其特征在于,所述第二处理单元,还用于在对所述文本信息进行词法分析之前,采用正则表达式匹配所述文本信息,将匹配出的所述文本信息中所包含的不规范用语替换为规范用语。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610912078.XA CN107967250B (zh) | 2016-10-19 | 2016-10-19 | 一种信息处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610912078.XA CN107967250B (zh) | 2016-10-19 | 2016-10-19 | 一种信息处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107967250A CN107967250A (zh) | 2018-04-27 |
CN107967250B true CN107967250B (zh) | 2020-12-29 |
Family
ID=61996368
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610912078.XA Active CN107967250B (zh) | 2016-10-19 | 2016-10-19 | 一种信息处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107967250B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110858492A (zh) * | 2018-08-23 | 2020-03-03 | 阿里巴巴集团控股有限公司 | 音频剪辑方法、装置、设备和系统及数据处理方法 |
CN111563140B (zh) * | 2019-01-25 | 2023-04-14 | 阿里巴巴集团控股有限公司 | 一种意图识别方法及装置 |
CN110189751A (zh) * | 2019-04-24 | 2019-08-30 | 中国联合网络通信集团有限公司 | 语音处理方法及设备 |
CN110413864A (zh) * | 2019-08-06 | 2019-11-05 | 南方电网科学研究院有限责任公司 | 一种网络安全情报采集方法、装置、设备及存储介质 |
CN110516241B (zh) * | 2019-08-26 | 2021-03-02 | 北京三快在线科技有限公司 | 地理地址解析方法、装置、可读存储介质及电子设备 |
CN113849249A (zh) * | 2020-06-28 | 2021-12-28 | Oppo(重庆)智能科技有限公司 | 文本信息显示方法、装置、存储介质及电子设备 |
CN115294964B (zh) * | 2022-09-26 | 2023-02-10 | 广州小鹏汽车科技有限公司 | 语音识别方法、服务器、语音识别系统和可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与系统 |
CN102591932A (zh) * | 2011-12-23 | 2012-07-18 | 优视科技有限公司 | 语音搜索方法及系统、移动终端、中转服务器 |
CN104572849A (zh) * | 2014-12-17 | 2015-04-29 | 西安美林数据技术股份有限公司 | 基于文本语义挖掘的标准化自动建档方法 |
CN104700836A (zh) * | 2013-12-10 | 2015-06-10 | 阿里巴巴集团控股有限公司 | 一种语音识别方法和系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102682763B (zh) * | 2011-03-10 | 2014-07-16 | 北京三星通信技术研究有限公司 | 修正语音输入文本中命名实体词汇的方法、装置及终端 |
CN104714981B (zh) * | 2013-12-17 | 2020-01-10 | 腾讯科技(深圳)有限公司 | 语音消息搜索方法、装置及系统 |
-
2016
- 2016-10-19 CN CN201610912078.XA patent/CN107967250B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与系统 |
CN102591932A (zh) * | 2011-12-23 | 2012-07-18 | 优视科技有限公司 | 语音搜索方法及系统、移动终端、中转服务器 |
CN104700836A (zh) * | 2013-12-10 | 2015-06-10 | 阿里巴巴集团控股有限公司 | 一种语音识别方法和系统 |
CN104572849A (zh) * | 2014-12-17 | 2015-04-29 | 西安美林数据技术股份有限公司 | 基于文本语义挖掘的标准化自动建档方法 |
Non-Patent Citations (1)
Title |
---|
深入NLP———看中文分词如何影响你的生活点滴|硬创公开课;宗仁;《雷锋网https://www.leiphone.com/news/201608/gvjbKpXPGf2CsxXo.html》;20160817;第二部分 * |
Also Published As
Publication number | Publication date |
---|---|
CN107967250A (zh) | 2018-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107967250B (zh) | 一种信息处理方法及装置 | |
CN108287858B (zh) | 自然语言的语义提取方法及装置 | |
CN108717406B (zh) | 文本情绪分析方法、装置及存储介质 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN108304375B (zh) | 一种信息识别方法及其设备、存储介质、终端 | |
US9740677B2 (en) | Methods and systems for analyzing communication situation based on dialogue act information | |
CN108536654B (zh) | 识别文本展示方法及装置 | |
US9164983B2 (en) | Broad-coverage normalization system for social media language | |
US20160210279A1 (en) | Methods and systems for analyzing communication situation based on emotion information | |
CN110297880B (zh) | 语料产品的推荐方法、装置、设备及存储介质 | |
CN114547274B (zh) | 多轮问答的方法、装置及设备 | |
CN113268576B (zh) | 一种基于深度学习的部门语义信息抽取的方法及装置 | |
CN112069312A (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
KR102220894B1 (ko) | 통계 데이터베이스의 데이터를 대화형으로 제공하는 질의 답변 시스템 | |
CN111259645A (zh) | 一种裁判文书结构化方法及装置 | |
CN111435595A (zh) | 文本规整方法及装置 | |
JP2018163660A (ja) | 英語の音節計算法に基づいた可読性評価方法及びシステム | |
CN111444704A (zh) | 基于深度神经网络的网络安全关键词抽取方法 | |
Jing et al. | HowtogetaChineseName (Entity): Segmentation and combination issues | |
JP6757840B2 (ja) | 文抽出システム、文抽出方法、及びプログラム | |
CN112581297A (zh) | 基于人工智能的信息推送方法、装置及计算机设备 | |
CN110727764A (zh) | 一种话术生成方法、装置及话术生成设备 | |
CN115831117A (zh) | 实体识别方法、装置、计算机设备和存储介质 | |
CN111736804B (zh) | 一种基于用户评论识别App关键功能的方法及装置 | |
CN114090748A (zh) | 问答结果显示方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |