CN107341251A

CN107341251A - 一种医药偏方与关键字的提取和处理方法

Info

Publication number: CN107341251A
Application number: CN201710555383.2A
Authority: CN
Inventors: 石李虹; 张鹏; 王帅; 刘沛丰
Original assignee: Jiangxi Borui Tongyun Technology Co Ltd
Current assignee: Jiangxi Borui Tongyun Technology Co Ltd
Priority date: 2017-07-10
Filing date: 2017-07-10
Publication date: 2017-11-10

Abstract

本发明涉一种医药偏方与关键字的提取和处理方法，利用终端和服务端的计算处理对医药偏方与关键字进行提取和处理；终端发送搜索输入命令将文本和/或语音命令传输至服务端；服务端提取文字命令文本，服务端进行处理；服务端通过对文本进行自然分割、词库分割、词组分词的方式提取有效的关键字；服务器通过比对关键字。本发明能够接收文字和语音文本，并进行高效的关键系拆分提取，有效的就行纠错处理，得出最终的关键字，并依据关键字的排序进行推送文本的筛选和排序，根据终端搜索词进行服务端分析处理，得出有效检索关键词，为老年人的使用带来极大的便利，提高了医药偏方筛选推送的准确性。

Description

一种医药偏方与关键字的提取和处理方法

技术领域

本发明涉及软件方法，具体涉及一种医药偏方与关键字的提取和处理方法。

背景技术

目前国内老年人群在受教育程度上差异很大，对智能设备的接受程度也有很大不同，在输入文本上有大量的表述不清、错字、语序混乱问题，在终端的医药偏方推送中，往往不能够明确的得知用户的真实意图，因此，需要设计一种能够纠错、识别语音并高效筛选关键字进行文本推送的方法，以解决老年人群体使用终端带来的极大不便。

发明内容

本发明的目的在于克服现有技术中的缺陷，设计一种医药偏方与关键字的提取和处理方法，能够接收文字和语音文本，并进行高效的关键系拆分提取，有效的就行纠错处理，得出最终的关键字，并依据关键字的排序进行推送文本的筛选和排序，根据终端搜索词进行服务端分析处理，得出有效检索关键词，为老年人的使用带来极大的便利，提高了医药偏方筛选推送的准确性。

为实现上述目的，本发明所采用的技术方案是一种医药偏方与关键字的提取和处理方法，利用终端和服务端的计算处理对医药偏方与关键字进行提取和处理；

具体的方法步骤为：

(1)终端发送搜索输入命令将文本和/或语音命令传输至服务端；

(2)服务端提取文字命令文本，将语音命令转换为文本，服务端的服务器对搜索命令进行处理；

(3)服务端通过对文字命令文本和语音命令转换的文本进行自然分割、词库分割、词组分词的方式提取有效的初级关键字；

(4)服务器同时对文字命令文本和语音命令转换的文本进行分字和纠错处理后，得到二级关键字；二级关键词优先为主要检索关键词，初级关键词为次要检索关键词组及非文本的目的判断，如分割出的标点符号及空格、标点符号不进入偏方搜索关键词范围。

(5)服务器通过比对初级关键字和二级关键字后进行关键字排序，按排序先后的关键字与数据库中的医药偏方文章对比后将搜索结果按对应的排序推送至客户端，为用户提供医药偏方信息。根据得出的关键词进行数据库中的文章搜索，命中关键词越多的文章推送权重越高，相同命中效果的文章根据文章浏览量、更新时间进行次级排序。

优选的，步骤(1)中，搜索输入命令包括输入法文本命令传输和语音输入音频命令传输；终端同时传输终端信息至服务端，包括终端位置、常使用位置信息。

优选的，步骤(2)中，将语音命令转换为文本过程中采用语音分析，其中语音分析优先采用普通话解析，同时根据步骤(1)上传的用户身份及所在地区方言进行解析，得出语音命令转换的文本。

语音分析软件采用第三方语音解析能力，可选用是科大讯飞股份有限公司的语音识别引擎等相关分析软件得到文本。也可以选择多个多个第三方的语音转文字系统服务多维转换得最终结果。

优选的，步骤(3)中自然分割的方式是以语气词、标点符号、空格符号、换行符作为首要分割条件对文本进行分割，以此为基础满足提取的关键词贴切终端的搜索意图。如文本“糖尿病应该食用哪些食物”，则系统优先划分为“糖尿病”“应该食用哪些”“食物”，确保贴切终端的索索意图。

优选的，步骤(3)中的词库分割方式是依靠中文词典数据库、终端历史行为词库、历史搜索词库、全平台热门搜索词库进行关键词组合分割。如文本“糖尿病应该食用哪些食物”，则系统划分为“糖尿病”“应该”“食用”“哪些”“食物”“应该食用”“食用哪些食物”“食用哪些”。

优选的，步骤(3)中的词组分词方式是利用终端的历史行为数据按照顺序优先原则得出关键搜索词组合即初级关键字，分析原则就是分割关键词按最少分割次数的分割。如文本“糖尿病应该食用哪些食物”，则系统划分为“糖尿病”“应该”“食用”“哪些”“食物”，分析出的结果为“糖尿病”“食用”“食物”，主要索引项以及这三个词的顺序组合，按照顺序优先原则得出关键搜索词组合，整个分析基本的原则就是分割关键词按最少的分割。最少次数分割原则为断句式分割方式,不做相同文字的多次组词处理。

优选的，终端的历史行为数据包含终端历史行为词库、历史搜索词库、全平台热门搜索词库，以及终端使用过程中通过内容标签记录用户行为的关键词数据，记录用户有效历史搜索关键词、记录全平台用户搜索关键词及热门搜索词数据。

优选的，步骤(4)中服务器的分字处理是将文本文本拆分为基本的字和/或词，将拆分的字词与服务端的数据库进行比对后得到二级关键词。如文本“糖尿病应该食用哪些食物”，分字处理后得到“糖”“尿”“病”“应该”“食”“用”“哪”“些”“食物”，然后去数据库中匹配。

优选的，步骤(4)中服务器的纠错处理是为了防止终端错误输入文字或语音转文字处理错误的因素；服务端对错别字进行处理分析时，首先通过近义词匹配来进行纠错，然后采用常见同音字判断词组是否存在，若存在则进行纠错替换。如“食物”，在文本或语音输入过程中可能会成为“事务”或“实物”“失误”等错误信息，通过纠错处理后，替换为正确的“食物”。

优选的，终端智能设备终端，包括手机、电脑及平板电脑；服务端通过有线和/或无线的方式与终端数据连接。

本发明的优点和有益效果在于：

医药偏方与关键字的提取和处理方法，能够接收文字和语音文本，并进行高效的关键系拆分提取，有效的就行纠错处理，得出最终的关键字，并依据关键字的排序进行推送文本的筛选和排序，根据终端搜索词进行服务端分析处理，得出有效检索关键词，为老年人的使用带来极大的便利，提高了医药偏方筛选推送的准确性。

附图说明

图1是本发明医药偏方与关键字的提取和处理方法的流程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例1

如图1所示：本实施例为一种医药偏方与关键字的提取和处理方法，利用终端和服务端的计算处理对医药偏方与关键字进行提取和处理；

具体的方法步骤为：

步骤(1)中，搜索输入命令包括输入法文本命令传输和语音输入音频命令传输；终端同时传输终端信息至服务端，包括终端位置、常使用位置信息。

步骤(2)中，将语音命令转换为文本过程中采用语音分析，其中语音分析优先采用普通话解析，同时根据步骤(1)上传的用户身份及所在地区方言进行解析，得出语音命令转换的文本。

语音分析软件采用第三方语音解析能力，可选用是科大讯飞股份有限公司的语音识别引擎等相关分析软件得到文本。

终端的历史行为数据包含终端历史行为词库、历史搜索词库、全平台热门搜索词库，以及终端使用过程中通过内容标签记录用户行为的关键词数据，记录用户有效历史搜索关键词、记录全平台用户搜索关键词及热门搜索词数据。

步骤(4)中服务器的分字处理是将文本文本拆分为基本的字和/或词，将拆分的字词与服务端的数据库进行比对后得到二级关键词。如文本“糖尿病应该食用哪些食物”，分字处理后得到“糖”“尿”“病”“应该”“食”“用”“哪”“些”“食物”，然后去数据库中匹配。

步骤(4)中服务器的纠错处理是为了防止终端错误输入文字或语音转文字处理错误的因素；服务端对错别字进行处理分析时，首先通过近义词匹配来进行纠错，然后采用常见同音字判断词组是否存在，若存在则进行纠错替换。如“食物”，在文本或语音输入过程中可能会成为“事务”或“实物”“失误”等错误信息，通过纠错处理后，替换为正确的“食物”。

终端智能设备终端，包括手机、电脑及平板电脑；服务端通过有线和/或无线的方式与终端数据连接。

本实施例的有益效果在于：

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种医药偏方与关键字的提取和处理方法，其特征在于，利用终端和服务端的计算处理对医药偏方与关键字进行提取和处理；

具体的方法步骤为：

(4)服务器同时对文字命令文本和语音命令转换的文本进行分字和纠错处理后，得到二级关键字；

(5)服务器通过比对初级关键字和二级关键字后进行关键字排序，按排序先后的关键字与数据库中的医药偏方文章对比后将搜索结果按对应的排序推送至客户端，为用户提供医药偏方信息。

2.如权利要求1所述的医药偏方与关键字的提取和处理方法，其特征在于，步骤(1)中，搜索输入命令包括输入法文本命令传输和语音输入音频命令传输；终端同时传输终端信息至服务端，包括终端位置、常使用位置信息。

3.如权利要求1所述的医药偏方与关键字的提取和处理方法，其特征在于，步骤(2)中，将语音命令转换为文本过程中采用语音分析，其中语音分析优先采用普通话解析，同时根据步骤(1)上传的用户身份及所在地区方言进行解析，得出语音命令转换的文本。

4.如权利要求1所述的医药偏方与关键字的提取和处理方法，其特征在于，步骤(3)中自然分割的方式是以语气词、标点符号、空格符号、换行符作为首要分割条件对文本进行分割，以此为基础满足提取的关键词贴切终端的搜索意图。

5.如权利要求1所述的医药偏方与关键字的提取和处理方法，其特征在于，步骤(3)中的词库分割方式是依靠中文词典数据库、终端历史行为词库、历史搜索词库、全平台热门搜索词库进行关键词组合分割。

6.如权利要求1所述的医药偏方与关键字的提取和处理方法，其特征在于，步骤(3)中的词组分词方式是利用终端的历史行为数据按照顺序优先原则得出关键搜索词组合即初级关键字，分析原则就是分割关键词按最少分割次数的分割。

7.如权利要求6所述的医药偏方与关键字的提取和处理方法，其特征在于，终端的历史行为数据包含终端历史行为词库、历史搜索词库、全平台热门搜索词库，以及终端使用过程中通过内容标签记录用户行为的关键词数据，记录用户有效历史搜索关键词、记录全平台用户搜索关键词及热门搜索词数据。

8.如权利要求1所述的医药偏方与关键字的提取和处理方法，其特征在于，步骤(4)中服务器的分字处理是将文本文本拆分为基本的字和/或词，将拆分的字词与服务端的数据库进行比对后得到二级关键词。

9.如权利要求1所述的医药偏方与关键字的提取和处理方法，其特征在于，步骤(4)中服务器的纠错处理是为了防止终端错误输入文字或语音转文字处理错误的因素；服务端对错别字进行处理分析时，首先通过近义词匹配来进行纠错，然后采用常见同音字判断词组是否存在，若存在则进行纠错替换。

10.如权利要求1-9任一所述的医药偏方与关键字的提取和处理方法，其特征在于，终端智能设备终端，包括手机、电脑及平板电脑；服务端通过有线和/或无线的方式与终端数据连接。