CN110245331A - 一种语句转换方法、装置、服务器及计算机存储介质 - Google Patents
一种语句转换方法、装置、服务器及计算机存储介质 Download PDFInfo
- Publication number
- CN110245331A CN110245331A CN201810194955.3A CN201810194955A CN110245331A CN 110245331 A CN110245331 A CN 110245331A CN 201810194955 A CN201810194955 A CN 201810194955A CN 110245331 A CN110245331 A CN 110245331A
- Authority
- CN
- China
- Prior art keywords
- sentence
- chinese character
- phonetic
- confidence level
- chinese
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 59
- 238000003860 storage Methods 0.000 title claims abstract description 17
- 238000005520 cutting process Methods 0.000 claims abstract description 79
- 230000011218 segmentation Effects 0.000 claims description 18
- 230000015654 memory Effects 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 239000000203 mixture Substances 0.000 claims description 14
- 238000012216 screening Methods 0.000 claims description 11
- 230000000306 recurrent effect Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000003825 pressing Methods 0.000 claims 1
- 230000014509 gene expression Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 26
- 230000008569 process Effects 0.000 description 16
- 208000002193 Pain Diseases 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 230000003993 interaction Effects 0.000 description 9
- 238000003058 natural language processing Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 7
- 238000012937 correction Methods 0.000 description 7
- 239000011521 glass Substances 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 235000012054 meals Nutrition 0.000 description 5
- 101100202924 Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) tsp-2 gene Proteins 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000013178 mathematical model Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 239000003814 drug Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 206010015958 Eye pain Diseases 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000003796 beauty Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/157—Transformation using dictionaries or tables
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种语句转换方法、装置、服务器及计算机存储介质,所述方法包括:将输入的拼音语句按单个汉字切分为多个拼音;根据预设的拼音库和汉字库,将各拼音转换成汉字,将转换后的汉字按拼音语句的顺序组成多个候选汉字语句;计算各个候选汉字语句的语句置信度,并根据计算得到的各语句置信度,从所述多个候选汉字语句筛选出至少一个汉字语句输出。本发明的语句转换方法,通过语句置信度的计算,筛选出最符合正常表达的一个或多个汉字语句,识别率高。
Description
技术领域
本发明涉及自然语言处理技术,具体涉及一种语句转换方法、装置、服务器及计算机存储介质。
背景技术
随着计算机和网络科技的发展,计算机的处理更多的涉及大数据和人工智能,计算机及其它终端经常需要处理文本文字,即自然语言处理(NLP,Natural LanguageProcessing),拼音-汉字转换处理是其中比较重要且应用广泛的一种处理类型;而且,在问答系统、检索系统、专家系统、在线客服、手机助手、私人助理等应用场合,需要处理的不仅是拼音词语和短语,还包括拼音语句或混杂拼音、中文、英文、网络流行语的长语句。
目前,业界存在多种拼音词语和短语转汉字的技术,如拼音输入法,但在拼音语句的转换方面,存在识别率低或前期设计工作量巨大的问题,无法满足当今人工智能的发展需求。例如,目前有一种智能拼音汉字转换系统,提供了一种常规知识收集后采用逻辑回归(LR,Logistic Regression)算法进行语法分析的系统,但是,该方案的识别准确率不高,转换效率低。
发明内容
为解决现有存在的技术问题,本发明实施例期望提供一种语句转换方法、装置、服务器及计算机存储介质,能提高效率以及识别的准确率。
本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种语句转换方法,所述方法包括:
将输入的拼音语句按单个汉字切分为多个拼音;
根据预设的拼音库和汉字库,将各拼音转换成汉字,将转换后的汉字按拼音语句的顺序组成多个候选汉字语句;
计算各个候选汉字语句的语句置信度,并根据计算得到的各语句置信度,从所述多个候选汉字语句筛选出至少一个汉字语句输出。
上述方案中,所述将输入的拼音语句按单个汉字切分为多个拼音,包括:
将输入的拼音语句按单个汉字的拼音字母数量特点,获得多种切分方案;
根据预设的拼音库和汉字库,筛选出符合所述拼音库和汉字库的拼音。
上述方案中,所述将各拼音转换成汉字,将转换后的汉字按拼音语句的顺序组成多个候选汉字语句,包括:
将各拼音按拼音与汉字的对应关系,获得与每个拼音对应的至少一个汉字;
将对应一个拼音的多个汉字,分别与其它转换后的汉字顺序组成候选汉字语句,获得多个候选汉字语句。
上述方案中,所述根据计算得到的各语句置信度,从所述多个候选汉字语句筛选出至少一个汉字语句输出,包括:
根据当前的应用场景,确定该应用场景下语句置信度的筛选阀值;
根据确定的筛选阀值,从所述多个候选汉字语句筛选出至少一个汉字语句输出。
上述方案中,在将输入的拼音语句按单个汉字切分为多个拼音之前,所述方法还包括:
接收拼音及对应汉字的输入,建立以拼音为索引字段,包含拼音和汉字两种字段的拼音库;
接收汉字及对应拼音的输入,建立以汉字为索引字段,包含汉字和拼音两种字段的汉字库。
上述方案中,在根据计算得到的各语句置信度,从所述多个候选汉字语句筛选出至少一个汉字语句输出之前,所述方法还包括:
获取给定语句置信度的汉字语句资料,输入基于循环神经网络建立的汉字语句模型中,基于误差反向传播算法进行语句置信度计算的学习,获得预设计算准确率的计算语句置信度的汉字语句模型。
上述方案中,在将输入的拼音语句按单个汉字切分为多个拼音之前,所述方法还包括:
按预设分割规则,将输入的语句分割为一个或多个子句;
判断所述子句是否为拼音语句;
所述子句为拼音语句时,将所述拼音语句进行进一步处理。
本发明实施例还提供了一种语句转换装置,所述装置包括切分模块、转换模块和计算模块;其中,
所述切分模块,用于将输入的拼音语句按单个汉字切分为多个拼音;
所述转换模块,用于根据预设的拼音库和汉字库,将各拼音转换成汉字,将转换后的汉字按拼音语句的顺序组成多个候选汉字语句;
所述计算模块,用于计算各个候选汉字语句的语句置信度,并根据计算得到的各语句置信度,从所述多个候选汉字语句筛选出至少一个汉字语句输出。
本发明实施例还提供了一种服务器,其特征在于,包括处理器和存储器;其中,
所述处理器,用于将输入的拼音语句按单个汉字切分为多个拼音,根据预设的拼音库和汉字库,将各拼音转换成汉字,将转换后的汉字按拼音语句的顺序组成多个候选汉字语句,计算各个候选汉字语句的语句置信度,并根据计算得到的各语句置信度,从所述多个候选汉字语句筛选出至少一个汉字语句输出;
所述存储器,用于根据所述处理器的指示,保存输入的拼音语句和输出的汉字语句。
本发明实施例还提供了一种计算机存储介质,其上存储有可执行程序,所述可执行程序被处理器执行时实现如上面所述的任意一项语句转换方法的步骤。
本发明实施例所提供的语句转换方法、装置、服务器及计算机存储介质,将输入的拼音语句按单个汉字切分为多个拼音;根据预设的拼音库和汉字库,将各拼音转换成汉字,将转换后的汉字按拼音语句的顺序组成多个候选汉字语句;计算各个候选汉字语句的语句置信度,并根据计算得到的各语句置信度从所述多个候选汉字语句筛选出至少一个汉字语句输出;可见,本发明实施例的语句转换方法,通过语句置信度的计算,直接筛选出最符合正常表达的一个或多个汉字语句,识别率高。
附图说明
图1为本发明实施例一语句转换方法的流程示意图;
图2为本发明实施例二语句转换装置的结构组成示意图;
图3为本发明实施例四混合语句中拼音部分转成汉字的方法的流程示意图;
图4为本发明实施例五混合语句中拼音部分转成汉字的装置的结构组成示意图;
图5为本发明实施例八拼音转汉字系统的系统架构示意图;
图6为本发明实施例八拼音转汉字系统的系统接口流程示意图;
图7为本发明实施例八拼音转汉字系统中候选语句生成流程示意图;
图8为本发明实施例八拼音转汉字系统中候选语句选择流程示意图;
图9为本发明实施例八拼音转汉字系统中在线使用示意图;
图10为本发明实施例八拼音转汉字系统使用应用场景示意图。
具体实施方式
目前有一种集拼音和字形编码多种方式于一体的汉字输入方案,是使用普通英文字母键盘或触摸屏虚拟软键盘,将汉字以多种编码方式输入到计算机、平板电脑和手机等电子设备,进行中英文信息处理和通讯的汉字输入方法,即通过字母输入获得中文的方法。该方法无需对汉字进行拆分,以定位取码抽取汉字字形的特征字根和字音特征,通过改变字音编码元素和字形编码元素的组合成份以及码元位置的变化,构建具有多种编码输入方式的汉字输入集成系统,该方法能准确的识别汉字常用词语,但不能识别汉字语句或识别率很低,而且该方法的特征字根等信息需要大量人工收集、整理等工作量。
本发明实施例正是为了提高汉字语句识别率和输入效率,提出一种语句转换方法,将输入的拼音语句按单个汉字切分为多个拼音;根据预设的拼音库和汉字库,将各拼音转换成汉字,将转换后的汉字按拼音语句的顺序组成多个候选汉字语句;计算各个候选汉字语句的语句置信度,并根据计算得到的各语句置信度从所述多个候选汉字语句筛选出至少一个汉字语句输出。本发明实施例提供的语句转换方法,通过语句置信度的计算,直接筛选出最符合正常表达的一个或多个汉字语句,识别率高。
为了能够更详尽的了解本发明的特点与技术内容,下面将结合附图对本发明的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本发明。
实施例一
图1为本发明实施例一语句转换方法的流程示意图,所述方法可以由服务器实现;如图1所示,所述方法包括:
步骤101:将输入的拼音语句按单个汉字切分为多个拼音;
所述将输入的拼音语句按单个汉字切分为多个拼音,包括:
将输入的拼音语句按单个汉字的拼音字母数量特点,获得多种切分方案;所述单个汉字的拼音字母数量特点为:一个汉字的拼音字母数量为1至6个;
根据预设的拼音库和汉字库,筛选出符合所述拼音库和汉字库的拼音。
所述预设切分规则,即将输入的拼音语句按单个汉字的拼音字母数量为1至6个的特点,分别切分。
具体地,采用贪婪的切分方法从左到右进行切分,即只要能够切分都切分,形成多种切分方案;
切分时需要以“拼音库”和“汉字库”为依据,即切分的拼音需要在“拼音库”和“汉字库”中存在;例如zhidao切分成zhi|dao、zhi|da|o;wangzhi切分成wang|zhi;
下面以zhidao为例说明切分过程:
第一步,将切割符顺序放入第1-6个字母中,形成6种方案,6为最长汉字拼音中的长度;切分结果为:
z|hidao;
zh|idao;
zhi|dao;
zhid|ao;
zhida|o;
zhidao|。
第二步,判断切分是否正确,即竖线左测是否是正常拼音,判断依据“拼音库”和“汉字库”,即在“拼音库”和“汉字库”均存在是正常拼音,否则就不是正常拼音;判断结果如下:
z|hidao否;
zh|idao否;
zhi|dao是;
zhid|ao否;
zhida|o否;
zhidao|否。
第三步,选择成功的切分,把竖线右侧的字母串重复“第一步”和“第二步”,直到切分全部结束。
为了展示完整例子,把“zhidao”的切分过程展示如下:
第一次切分:
z|hidao否;
zh|idao否;
zhi|dao是;
zhid|ao否;
zhida|o否;
zhidao|否。
第二次切分:
zhi|d|ao否;
zhi|da|o是;
zhi|dao|是。
符合要求的切分结果:
zhi|da|o,对应的汉字词语可以是:直达哦;
zhi|dao|,对应的汉字词语可以是:知道;
为了进一步说明切分过程,再举例“xianshi”对应的汉字词语可以是显示或西安市,来进一步说明。
第一次切分:
x|ianshi否;
xi|anshi是;
xia|nshi是;
xian|shi是;
xians|hi否;
xiansh|i否。
第二次切分:
xi|a|nshi是;
xi|an|shi是;
xi|ans|hi否;
xi|ansh|i否;
xi|anshi|否;
xia|n|shi否;
xia|ns|hi否;
xia|nsh|i否;
xia|nshi|否;
xian|s|hi否;
xian|sh|i否;
xian|shi|是。
第三次切分:
xi|a|n|shi否;
xi|a|ns|hi否;
xi|a|nsh|否;
xi|a|nshi|否;
xi|an|s|hi否;
xi|an|sh|I否;
xi|an|shi|是;
xian|shi|是。
符合要求的切分结果:
xi|an|shi|,对应的汉字词语可以是:西安市;
xian|shi|,对应的汉字词语可以是:显示。
进一步地,在所述将输入的拼音语句按单个汉字切分为多个拼音之前,所述方法还包括:
接收拼音及对应汉字的输入,建立以拼音为索引字段,包含拼音和汉字两种字段的拼音库;
接收汉字及对应拼音的输入,建立以汉字为索引字段,包含汉字和拼音两种字段的汉字库。
拼音库是拼音转汉字的基础;一个拼音,可以对应N个可能的汉字;
收集所有拼音,每个一行,格式如下:
字符串:字|字|字|…
例如:
da:大|打|答|达|妲|…;
dai:大|带|代|戴|贷|…等
存放在拼音文件pinyin.txt中。
注:多音的字,在它的每个拼音下都要配置,比如“大”在拼音da和dai的配置中同时存在。
汉字库需要收集所有汉字信息,每个汉字一行,格式如下:
汉字:拼音|拼音|…
形式如下:
大:da|dai;
谁:shui|shei;
美:mei;等。
存放在汉字文件hanzi.txt中。
注:汉字的多音情况,把它所有的音都写在该字的后边,并用竖线分割,比如“大”需要配置da和dai。
本发明实施例的拼音库和汉字库,只需收集单个汉字对应的拼音和单个拼音对应的汉字,相比现有技术中,需要收集词语甚至语句的拼音,或收集特征字根等信息,大大减少了工作量。
步骤102:根据预设的拼音库和汉字库,将各拼音转换成汉字,将转换后的汉字按拼音语句的顺序组成多个候选汉字语句;
所述将各拼音转换成汉字,将转换后的汉字按拼音语句的顺序组成多个候选汉字语句,包括:
将各拼音按拼音与汉字的对应关系,获得与每个拼音对应的至少一个汉字;所述拼音与汉字的对应关系为:一个拼音对应一个或多个汉字;
将对应一个拼音的多个汉字,分别与其它转换后的汉字顺序组成候选汉字语句,获得多个候选汉字语句。
把切分后的拼音转换成汉字;
比如对应“zhi|da|o”的汉字可以包括:
只大哦;
直达噢;等。
比如对应“zhi|dao”的汉字可以包括:
知道;
指导;
只导;等。
比如对应“wang|zhi”的汉字可以包括:
网址;
王直;等。
根据拼音转换结果,全排列拼接成候选语句,例举如下,例举为不完全例举:
只大哦网址;
直达哦网址;
知道网址;
指导网址;
只导网址;
只大哦王直;
直达哦王直;
知道王直;
指导王直;
只导王直。
步骤103:计算各个候选汉字语句的语句置信度,并根据计算得到的各语句置信度,从所述多个候选汉字语句筛选出至少一个汉字语句输出。
所述预设的计算规则,在本发明实施例中,为一种汉字语句模型,将候选汉字语句输入所述汉字语句模型,所述汉字语句模型输出语句置信度;
所述根据所述语句置信度,从所述多个候选汉字语句筛选出至少一个汉字语句输出,包括:
根据当前的应用场景,确定该应用场景下语句置信度的筛选阀值;
根据确定的筛选阀值,从所述多个候选汉字语句筛选出至少一个汉字语句输出。
不同的应用场景,需要选择的候选语句的条件不同。
比如,有些应用场景特别关注准确率,不太关注召回率,则可以设置一个比较高的筛选阈值,如只选择“置信度>0.95”的语句;特别关注准确率的应用场景可以包括:智能问答和儿童成语,智能问答在交互中,只需返回置信度最高的一个结果即可,避免多次交互,尽量不用追问,提高智能问答的用户感受;儿童成语,由于儿童判断能力差,选择困难,为了避免误导儿童,故只给一个准确率最高的结果;有些应用场景特别关注召回率,不太关注准确率,则可以设置一个一般的置信度阀值,比如选择“置信度>0.85”的语句,并选择置信度较高的N条语句;特别关注召回率的应用场景可以包括:智能检索,当用户需要检索包含拼音的语句时,系统能扩展N种检索语句,进而最大可能的检索到用户需要的答案。
进一步地,在根据计算得到的各语句置信度,从所述多个候选汉字语句筛选出至少一个汉字语句输出之前,所述方法还包括:
获取给定语句置信度的汉字语句资料,输入基于循环神经网络建立的汉字语句模型中,基于误差反向传播算法进行语句置信度计算的学习,获得预设计算准确率的计算语句置信度的汉字语句模型。
即基于循环神经网络建立数学模型,然后输入汉字语句资料进行深度学习;该模型主要是计算语句的置信度,即语句是正常句子的程度;置信度的值为0~1之间,数字越大,是正常句子的概率越高;
比如:
很高兴见到你 置信度 0.91
很高行建到你 置信度 0.15
如何办理 A8 领航套餐 0.87
如和办理 A8 领行套餐 0.37
接口如下:
请求消息
<xml>
<sentence>hello很高兴见到你</sentence>
</xml>
说明:xml表示程序的开始和结束;sentence是语句
返回消息
<xml>
<per>0.95</per>
</xml>
说明:per是返回结果,即语句置信度;
实现该模型方法:基于循环神经网络(RNN,Recurrent neural Network)和长短期记忆网络(LSTM,Long Short-Term Memory),在自然语言处理中,RNN/LSTM能充分利用上下文信息,对下一个字进行预测;该循环模型突破了语句长度的限制,既能充分利用上下文信息,又能使距离较近的信息得到更高的权重,优点是能充分利用上下文信息,泛化能力强,置信度更合理。
获得预设计算准确率的计算语句置信度的汉字语句模型,是指汉字语句模型在学习后,需要测试其计算准确率,是评价学习效果;具体地,评价是根据应用场景,设计相应的测试集,即未学习过的拼音语句集,将所述汉字语句模型对所述测试集计算语句置信度,将计算出的语句置信度与人工给出的语句置信度进行统计计算,如计算方差等;当然也可以采用多种测试方法进行测试,测试出的计算准确率符合预设准确率后,才可以上线应用;
为了提高转换准确度或缩短学习时间,模型学习分为多种领域;通过电信领域语料学习的模型即电信模型;通过银行领域语料学习的模型即银行领域;如果把所有语料(电信、银行、体育、娱乐等)作为一个整体学习,则为通用模型;通用模型的优点是实用性更强,缺点是学习时间比较长;在用户使用时,要传一个领域参数,来区分其领域;如果不传领域参数,则默认通用领域。
由于汉字语句模型计算语句置信度的计算依据是通过自主学习获得的,因此大大简化了前期的收集、整理等人工工作量,节省了上线前的设计时间,也大大加快了后面根据使用情况调整汉字语句模型架构后重新上线的时间。
实施例二
图2为本发明实施例二语句转换装置的结构组成示意图,如图2所示,所述装置包括切分模块21、转换模块22和计算模块23;其中,
所述切分模块21,用于将输入的拼音语句按单个汉字切分为多个拼音;
所述转换模块22,用于根据预设的拼音库和汉字库,将各拼音转换成汉字,将转换后的汉字按拼音语句的顺序组成多个候选汉字语句;
所述计算模块23,用于计算各个候选汉字语句的语句置信度,并根据计算得到的各语句置信度,从所述多个候选汉字语句筛选出至少一个汉字语句输出。
为了说明的更清楚,下面将分别对各个模块作详细说明:
所述切分模块21,用于将输入的拼音语句按单个汉字切分为多个拼音;
进一步地,所述切分模块具体用于:
将输入的拼音语句按单个汉字的拼音字母数量特点,获得多种切分方案;所述单个汉字的拼音字母数量特点为:一个汉字的拼音字母数量为1至6个;
根据预设的拼音库和汉字库,筛选出符合所述拼音库和汉字库的拼音。
所述预设切分规则,即将输入的拼音语句按单个汉字的拼音字母数量为1至6个的特点,分别切分。
具体地,采用贪婪的切分方法从左到右进行切分,即只要能够切分都切分,形成多种切分方案;
切分时需要以“拼音库”和“汉字库”为依据,即切分的拼音需要在“拼音库”和“汉字库”中存在;例如zhidao切分成zhi|dao、zhi|da|o;wangzhi切分成wang|zhi;
下面以zhidao为例说明切分过程:
第一步,将切割符顺序放入第1-6个字母中,形成6种方案,6为最长汉字拼音中的长度;切分结果为:
z|hidao;
zh|idao;
zhi|dao;
zhid|ao;
zhida|o;
zhidao|。
第二步,判断切分是否正确,即竖线左测是否是正常拼音,判断依据“拼音库”和“汉字库”,即在“拼音库”和“汉字库”均存在是正常拼音,否则就不是正常拼音;判断结果如下:
z|hidao否;
zh|idao否;
zhi|dao是;
zhid|ao否;
zhida|o否;
zhidao|否。
第三步,选择成功的切分,把竖线右侧的字母串重复“第一步”和“第二步”,直到切分全部结束。
为了展示完整例子,把“zhidao”的切分过程展示如下:
第一次切分:
z|hidao否;
zh|idao否;
zhi|dao是;
zhid|ao否;
zhida|o否;
zhidao|否。
第二次切分:
zhi|d|ao否;
zhi|da|o是;
zhi|dao|是。
符合要求的切分结果:
zhi|da|o,对应的汉字词语可以是:直达哦;
zhi|dao|,对应的汉字词语可以是:知道;
为了进一步说明切分过程,再举例“xianshi”对应的汉字词语可以是显示或西安市,来进一步说明。
第一次切分:
x|ianshi否;
xi|anshi是;
xia|nshi是;
xian|shi是;
xians|hi否;
xiansh|i否。
第二次切分:
xi|a|nshi是;
xi|an|shi是;
xi|ans|hi否;
xi|ansh|i否;
xi|anshi|否;
xia|n|shi否;
xia|ns|hi否;
xia|nsh|i否;
xia|nshi|否;
xian|s|hi否;
xian|sh|i否;
xian|shi|是。
第三次切分:
xi|a|n|shi否;
xi|a|ns|hi否;
xi|a|nsh|否;
xi|a|nshi|否;
xi|an|s|hi否;
xi|an|sh|I否;
xi|an|shi|是;
xian|shi|是。
符合要求的切分结果:
xi|an|shi|,对应的汉字词语可以是:西安市;
xian|shi|,对应的汉字词语可以是:显示。
进一步地,所述装置还包括建库模块24,用于:
接收拼音及对应汉字的输入,建立以拼音为索引字段,包含拼音和汉字两种字段的拼音库;
接收汉字及对应拼音的输入,建立以汉字为索引字段,包含汉字和拼音两种字段的汉字库。
拼音库是拼音转汉字的基础;一个拼音,可以对应N个可能的汉字;
收集所有拼音,每个字符串一行,格式如下:
字符串:字|字|字|…;
例如:
da:大|打|答|达|妲|…
dai:大|带|代|戴|贷|…等
存放在拼音文件pinyin.txt中。
注:多音的字,在它的每个拼音下都要配置,比如“大”在拼音da和dai的配置中同时存在。
汉字库需要收集所有汉字信息,每个汉字一行,格式如下:
汉字:拼音|拼音|…
形式如下:
大:da|dai;
谁:shui|shei;
美:mei;等。
存放在汉字文件hanzi.txt中。
注:汉字的多音情况,把它所有的音都写在该字的后边,并用竖线分割,比如“大”需要配置da和dai。
本发明实施例的拼音库和汉字库,只需收集单个汉字对应的拼音和单个拼音对应的汉字,相比现有技术中,需要收集词语甚至语句的拼音,或收集特征字根等信息,大大减少了工作量。
所述转换模块22,用于根据预设的拼音库和汉字库,将各拼音转换成汉字,将转换后的汉字按拼音语句的顺序组成多个候选汉字语句;
所述转换模块具体用于:
将各拼音按拼音与汉字的对应关系,获得与每个拼音对应的至少一个汉字;所述拼音与汉字的对应关系为:一个拼音对应一个或多个汉字;
将对应一个拼音的多个汉字,分别与其它转换后的汉字顺序组成候选汉字语句,获得多个候选汉字语句。
把切分后的拼音转换成汉字;
比如对应“zhi|da|o”的汉字可以包括:
只大哦;
直达噢;等。
比如对应“zhi|dao”的汉字可以包括:
知道;
指导;
只导;等。
比如对应“wang|zhi”的汉字可以包括:
网址;
王直;等。
根据拼音转换结果,全排列拼接成候选语句,例举如下,例举为不完全例举:
只大哦网址;
直达哦网址;
知道网址;
指导网址;
只导网址;
只大哦王直;
直达哦王直;
知道王直;
指导王直;
只导王直。
所述计算模块23,用于计算各个候选汉字语句的语句置信度,并根据计算得到的各语句置信度从所述多个候选汉字语句筛选出至少一个汉字语句输出。
所述计算模块具体用于:
根据当前的应用场景,确定该应用场景下语句置信度的筛选阀值;
根据确定的筛选阀值,从所述多个候选汉字语句筛选出至少一个汉字语句输出。
不同的应用场景,需要选择的候选语句的条件不同。
比如,有些应用场景特别关注准确率,不太关注召回率,则可以设置一个比较高的筛选阈值,如只选择“置信度>0.95”的语句;特别关注准确率的应用场景可以包括:智能问答和儿童成语,智能问答在交互中,只需返回置信度最高的一个结果即可,避免多次交互,尽量不用追问,提高智能问答的用户感受;儿童成语,由于儿童判断能力差,选择困难,为了避免误导儿童,故只给一个准确率最高的结果;有些应用场景特别关注召回率,不太关注准确率,则可以设置一个一般的置信度阀值,比如“置信度>0.85”,并选择置信度较高的N条语句;特别关注召回率的应用场景可以包括:智能检索,当用户需要检索包含拼音的语句时,系统能扩展N种检索语句,进而最大可能的检索到用户需要的答案。
进一步地,所述装置还包括学习模块,用于:
获取给定语句置信度的汉字语句资料,输入基于循环神经网络建立的汉字语句模型中,基于误差反向传播算法进行语句置信度计算的学习,获得预设计算准确率的计算语句置信度的汉字语句模型。
即基于循环神经网络建立数学模型,然后输入汉字语句资料进行深度学习;该模型主要是计算语句的置信度,即语句是正常句子的程度;置信度的值为0~1之间,数字越大,是正常句子的概率越高;
比如:
很高兴见到你 置信度 0.91
很高行建到你 置信度 0.15
如何办理 A8 领航套餐 0.87
如和办理 A8 领行套餐 0.37
接口如下:
请求消息
<xml>
<sentence>hello很高兴见到你</sentence>
</xml>
说明:sentence是语句
返回消息
<xml>
<per>0.95</per>
</xml>
说明:per是返回结果,即语句置信度;
实现该模型方法:基于循环神经网络(RNN,Recurrent neural Network)和长短期记忆网络(LSTM,Long Short-Term Memory),在自然语言处理中,RNN/LSTM能充分利用上下文信息,对下一个字进行预测;该循环模型突破了语句长度的限制,既能充分利用上下文信息,又能使距离较近的信息得到更高的权重,优点是能充分利用上下文信息,泛化能力强,置信度更合理。
获得预设计算准确率的计算语句置信度的汉字语句模型,是指汉字语句模型在学习后,需要测试其计算准确率,是评价学习效果;具体地,评价是根据应用场景,设计相应的测试集,即未学习过的拼音语句集,将所述汉字语句模型对所述测试集计算语句置信度,将计算出的语句置信度与人工给出的语句置信度进行统计计算,如计算方差等;当然也可以采用多种测试方法进行测试,测试出的计算准确率符合预设准确率后,才可以上线应用;
为了提高转换准确度或缩短学习时间,模型学习分为多种领域;通过电信领域语料学习的模型即电信模型;通过银行领域语料学习的模型即银行领域;如果把所有语料(电信、银行、体育、娱乐等)作为一个整体学习,则为通用模型;通用模型的优点是实用性更强,缺点是学习时间比较长;在用户使用时,要传一个领域参数,来区分其领域;如果不传领域参数,则默认通用领域。
由于汉字语句模型计算语句置信度的计算依据是通过自主学习获得的,因此大大简化了前期的收集、整理等人工工作量,节省了上线前的设计时间,也大大加快了后面根据使用情况调整汉字语句模型架构后重新上线的时间。
本发明实施例中,所述切分模块21、转换模块22、计算模块23、建库模块24和学习模块25均可由位于服务器的中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)等实现。
实施例三
本发明实施例还提供了一种计算机存储介质,其上存储有可执行程序,所述可执行程序被处理器执行时实现如实施例一所述语句转换方法的步骤。
所述计算机存储介质可以是磁性存储器,也可以是光学存储器,还可以是闪存(Flash Memory)等,不作具体限定。
实施例四
图3为本发明实施例四混合语句中拼音部分转成汉字的方法的流程示意图,所述方法可以由服务器实现;如图3所示,所述方法包括:
步骤401:按预设分割规则,将输入的语句分割为一个或多个子句;
所述预设分割规则为根据空格或不同字符串边界分割语句,不同字符串边界指不同类型的字符串相邻处是有明显区别的,例如字母和汉字,或字母和数字;
如果是英语和拼音相邻,且没有空格,则没法区别,不作处理。如果只有一种类型的字符串,则不用分割,即产生一个子句。
步骤402:判断所述子句是否为拼音语句;
判断所述子句是否为拼音语句是通过拼音模型来判断的;所述拼音模型是基于人工神经网络(ANN,Artificial Neural Network)建立数学模型,然后输入给定答案的字母字符串子句,通过误差反向传播算法进行深度学习;该模型主要是判断字符串是否是拼音;是拼音则返回1,需要转汉字;不是拼音则返回0,不需要转汉字;
比如:
nihao 是拼音 返回1(注:你好)
meili 是拼音 返回1(注:美丽)
hello 不是拼音 返回0
google 不是拼音 返回0
接口如下:
请求消息
<xml>
<words>nihao</words>
</xml>
说明:words是字符串
返回消息
<xml>
<type>1</type>
</xml>
说明:type是返回结果;1表示是拼音,需要转汉字;0表示非拼音,不需要转汉字;
步骤403:所述子句为拼音语句时,将所述拼音语句执行如实施例一所述语句转换方法的步骤。
然后,把转成汉字的拼音子句和原始语句的其它子句,如“中文、英文、数字、符号”进行组合,生成新的候选语句集;举例如下。
例句:
hello你zhidao google的wangzhi吗?
结果:
hello你知道google的网址吗?
hello你直到google的网址吗?
hello你指导google的网址吗?
……
接口如下:
请求消息
<xml>
<pinyin>hello你zhidao google的wangzhi吗?</pinyin>
</xml>
说明:pinyin是用户录入的拼音语句
返回消息
<xml>
<sen>hello你知道google的网址吗?</sen>
<sen>hello你直到google的网址吗?</sen>
<sen>hello你指导google的网址吗?</sen>
<sen>……</sen>
</xml>
说明:sen是返回结果,候选的语句;
在获得候选语句集后,将候选汉字语句输入汉字语句模型,所述汉字语句模型输出语句置信度;
根据当前的应用场景,确定该应用场景下语句置信度的筛选阀值;
根据确定的筛选阀值,从所述多个候选汉字语句筛选出至少一个汉字语句输出。
不同的应用场景,需要选择的候选语句的条件不同。
比如,有些应用场景特别关注准确率,不太关注召回率,则可以设置一个比较高的筛选阈值,如只选择“置信度>0.95”的语句;特别关注准确率的应用场景可以包括:智能问答和儿童成语,智能问答在交互中,只需返回置信度最高的一个结果即可,避免多次交互,尽量不用追问,提高智能问答的用户感受;儿童成语,由于儿童判断能力差,选择困难,为了避免误导儿童,故只给一个准确率最高的结果;有些应用场景特别关注召回率,不太关注准确率,则可以设置一个一般的置信度阀值,比如选择“置信度>0.85”的语句,并选择置信度较高的N条语句;特别关注召回率的应用场景可以包括:智能检索,当用户需要检索包含拼音的语句时,系统能扩展N种检索语句,进而最大可能的检索到用户需要的答案。
本发明实施例混合语句中拼音部分转成汉字的方法的应用场景:
1、智能问答场景,当用户录入一个包含拼音的语句时,系统能智能的把拼音转正汉字,进而进行正常的后续问答流程,而无需再追问,减少交互轮数,提高用户感受;
2、智能检索场景,当用户需要检索包含拼音的语句时,系统能扩展N种检索语句,进而最大可能的检索到用户需要的答案;
3、儿童成语场景,当儿童想到一个成语,但是不会写时,可以录入拼音代替,比如“悬hu济世”,系统能正确的给出答案“悬壶济世”。
4、辅助纠错场景,在自然语言处理的智能纠错中,有些错误是同音字错误,特别是语音录入的信息,本系统可以把可能错误的字先转成拼音,然后再进行音转汉,当新字的置信度远远大于原始字的置信度,则进行纠错。
实施例五
图4为本发明实施例五混合语句中拼音部分转成汉字的装置的结构组成示意图,如图2所示,所述装置包括分割模块51、判断模块52和转换模块53;其中,
所述分割模块51,用于按预设分割规则,将输入的语句分割为一个或多个子句;
所述预设分割规则为根据空格或不同字符串边界分割语句,不同字符串边界指不同类型的字符串相邻处是有明显区别的,例如字母和汉字,或字母和数字;
如果是英语和拼音相邻,且没有空格,则没法区别,不作处理。如果只有一种类型的字符串,则不用分割,即产生一个子句。
所述判断模块52,用于判断所述子句是否为拼音语句;
判断所述子句是否为拼音语句是通过拼音模型来判断的;所述拼音模型是基于人工神经网络(ANN,Artificial Neural Network)建立数学模型,然后输入给定答案的字母字符串子句,通过误差反向传播算法进行深度学习;该模型主要是判断字符串是否是拼音;是拼音则返回1,需要转汉字;不是拼音则返回0,不需要转汉字;
比如:
nihao 是拼音 返回1(注:你好)
meili 是拼音 返回1(注:美丽)
hello 不是拼音 返回0
google 不是拼音 返回0
接口如下:
请求消息
<xml>
<words>nihao</words>
</xml>
说明:words是字符串
返回消息
<xml>
<type>1</type>
</xml>
说明:type是返回结果;1表示是拼音,需要转汉字;0表示非拼音,不需要转汉字;
所述转换模块53,用于所述子句为拼音语句时,将所述拼音语句转换位汉字语句。转换的方法如实施例一所述语句转换方法,不再赘述。
本发明实施例中,所述分割模块51、判断模块52和转换模块53均可由位于服务器的中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)等实现。
实施例六
本发明实施例还提供了一种计算机存储介质,其上存储有可执行程序,所述可执行程序被处理器执行时实现如实施例四所述混合语句中拼音部分转成汉字的步骤。
所述计算机存储介质可以是磁性存储器,也可以是光学存储器,还可以是闪存等,不作具体限定。
实施例七
本发明实施例还提供了一种服务器,包括处理器和存储器;其中,
所述处理器,用于将输入的拼音语句按单个汉字切分为多个拼音,根据预设的拼音库和汉字库,将各拼音转换成汉字,将转换后的汉字按拼音语句的顺序组成多个候选汉字语句,计算各个候选汉字语句的语句置信度,并根据计算得到的各语句置信度,从所述多个候选汉字语句筛选出至少一个汉字语句输出;
所述存储器,用于根据所述处理器的指示,保存输入的拼音语句和输出的汉字语句。
具体地,所述处理器可以是基于精简指令集计算机(RISC,Reduced InstructionSet Computer)架构的多核处理器;所述存储器可以是高容量的磁性存储器。
实施例八
图5为本发明实施例八拼音转汉字系统的系统架构示意图,如图5所示,拼音转汉字系统,包括拼音库、汉字库、拼音模型和语句模型;其中,
所述拼音库,用于查找拼音对应的汉字,所述拼音库收集有所有拼音;
所述汉字库,用于查找汉字对应的拼音,用于确定拼音转汉字是否正确,所述汉字库收集有所有汉字;
所述拼音模型,用于判断语句是否为拼音语句,当判断为拼音语句后,再根据拼音库和汉字库查找和确定拼音对应的汉字;
所述语句模型,用于计算汉字语句的置信度,从候选语句中筛选出最有可能的汉字语句;
所述拼音库、汉字库、拼音模型、语句模型组合为转换系统,将输入的拼音语句转换为汉字语句。
图6为本发明实施例八拼音转汉字系统的系统接口流程示意图,如图6所示,所述拼音转汉字系统的系统接口流程包括:
步骤601:候选语句生成;
具体包括:1)根据拼音模型判断输入语句是否为拼音语句,当判断为拼音语句后,再根据拼音库和汉字库确定拼音对应的汉字;2)将拼音对应的汉字全排列拼接成候选语句;
步骤602:候选语句选择。
通过语句模型,计算出候选语句的置信度,筛选出一个或多个置信度高的汉字语句。
图7为本发明实施例八拼音转汉字系统中候选语句生成流程示意图,如图7所示,拼音转汉字系统中候选语句生成流程包括:
步骤701:语句分割;根据空格或不同字符串边界分割语句,不同字符串边界指不同类型的字符串相邻处是有明显区别的,例如字母和汉字,或字母和数字,如果是英语和拼音相邻,且没有空格,则没法区别,不作处理。
例如,混合语句:hello你zhidao google的wangzhi吗?
可以按表1进行分割:
序号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
子句 | hello | 你 | zhidao | 的 | wangzhi | 吗? |
表1
步骤702:拼音判断;如果是,则进入步骤703,否则进入步骤705;
判断后的结果见表2
序号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
子句 | hello | 你 | zhidao | 的 | wangzhi | 吗? | |
拼音判断 | 0 | 0 | 1 | 0 | 0 | 1 | 0 |
表2
步骤703:拼音切分;将输入的拼音语句按单个汉字切分为多个拼音子句;
切分后的结果见表3:
表3
步骤704:生成候选子语句;将切分后的拼音子句转换为汉字;
转换后的结果见表4:
表4
步骤705:预处理;将子句按原有顺序放入语句中;
步骤706:是否结束;判断整个句子是否都处理完;如果是,则进入步骤707,否则返回步骤702;
步骤707:生成候选语句集。将所有经过转换的和没有经过转换的,按原有顺序排序,生成多个候选语句;
生成的候选语句见表5:
表5
图8为本发明实施例八拼音转汉字系统中候选语句选择流程示意图,如图8所示,所述拼音转汉字系统的候选语句选择流程包括:
计算候选语句集的语句置信度,根据计算出的语句置信度,筛选出TopN语句,即语句置信度高于筛选阈值的一句或多句语句。
图9为本发明实施例八拼音转汉字系统中在线使用示意图,如图9所示,所述拼音转汉字系统中在线使用包括:在线接口、拼音语句转换系统;
在线接口一般是软件接口,各种应用均可以通过在线接口连接到拼音语句转换系统;
为使转换准确度更高,使用拼音语句转换系统还可以指定领域,根据不同的领域可以分为电信模型、体育模型和通用模型,电信模型、体育模型在各自的领域内转换准确度更高,而且需要的学习时间比较短。
图10为本发明实施例八拼音转汉字系统应用场景示意图,如图10所示,所述应用场景可以包括:智能问答场景、智能检索场景、儿童成语场景等,具体介绍如下:
应用场景1:智能问答
当用户录入一个包含拼音的语句时,系统能智能的把拼音转正汉字,进而进行正常的后续问答流程;
该应用场景是本系统最常用的应用场景。由于智能的要求,故在交互中,只需返回置信度最高的一个结果即可,即特别关注准确率;避免多次交互,尽量不用追问,提高智能问答的用户感受。
接口如下:
请求消息
<xml>
<sen>天翼taocan的最低zifei是多少</sen>
<senType>1</senType>
</xml>
说明:
sen是问答语句;
senType是语句类型,1电信语句、2体育语句等等,不填写则默认通用语句;
返回消息
<xml>
<sen>天翼套餐的最低资费是多少</sen1>
<per>0.93</per>
</xml>
说明:
sen是返回的正确语句;
per是返回语句的置信度;
应用场景2:智能检索
当用户需要检索包含拼音的信息时,系统能扩展N种检索语句,进而最大可能的检索到用户需要的答案,即特别关注召回率;
比如,当用于检索如下语句时,
duang是什么
用户可能是想检索网络名词“duang”;用户也可能想检索“度昂公司”的信息,只是“duang”错写成拼音了。故检索时,需要得到多种可能的语句用于检索。
接口如下:
请求消息
<xml>
<sen>duang是什么</sen>
<senType>1</senType>
<minPer>0.92</minPer>
</xml>
说明:
sen是检索语句;
senType是语句类型,1电信语句、2体育语句等等,不填写则默认通用语句;
minPer是检索语句的最低置信度,高于该置信度的结果才返回。
返回消息
<xml>
<sen1>duang是什么</sen1>
<sen2>度昂是什么</sen2>
</xml>
说明:
senX是返回的候选语句;
X的数目由入参minPer决定;当需要准确率高,召回率低时,minPer可以适当设置大点。
应用场景3:儿童成语
当儿童想到一个成语,但是不会写时,可以录入拼音代替,比如“悬hu济世”,系统能正确的给出答案“悬壶济世”。
由于儿童判断能力差,选择困难,故只给一个准确率最高的结果;为了避免误导儿童,可以要求准确率大于0.95;
接口如下:
请求消息
<xml>
<sen>悬hu济世</sen>
</xml>
说明:
sen是带拼音的成语;
返回消息
<xml>
<sen>悬壶济世</sen>
</xml>
说明:
sen是返回的候选语句;
应用场景4:辅助纠错
在自然语言处理的智能纠错中,有些错误是同音字错误,特别是语音录入的语句,本系统可以把可能错误的字先转成拼音,然后再进行音转汉,当新字的置信度远远大于原始字的置信度,则进行纠错。
比如语句:
看手机太多,眼镜疼怎么办?
把语句的字逐个转成拼音,如下转第i=7个字
看手机太多,眼jing疼怎么办?
然后使用本系统进行拼音转汉字,并得到各个语句的置信度,如下
看手机太多,眼镜疼怎么办?(原始语句的置信度0.65)
看手机太多,眼睛疼怎么办?(新语句1的置信度0.82)
看手机太多,眼镜疼怎么办?(新语句2的置信度0.65)
看手机太多,眼净疼怎么办?(新语句3的置信度0.25)
......
则新语句“看手机太多,眼眼睛疼怎么办?”的置信度0.82远远大于原始语句“看手机太多,眼镜疼怎么办?”的置信度0.65,故进行纠正。
接口如下:
请求消息
<xml>
<sen>看手机太多,眼镜疼怎么办?</sen>
<senType>1</senType>
<num>3</mum>
</xml>
说明:
sen是需要辅助纠错的语句;
senType是语句类型,1电信语句、2体育语句等等,不填写则默认通用语句;
num是需要返回的语句数量。
返回消息
<xml>
<sen1>看手机太多,眼眼睛疼怎么办?</sen1>
<per1>0.82</per1>
<sen2>看手机太多,眼镜疼怎么办?</sen2>
<per2>0.65</per2>
<sen3>看手机太多,眼净疼怎么办?</sen3>
<per3>0.25</per3>
</xml>
说明:
senX是返回的候选语句;
perX是返回语句的置信度;
X的数目由入参num决定。
能够理解的是,本发明实施例的应用场景不局限于上述四种。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种语句转换方法,其特征在于,所述方法包括:
将输入的拼音语句按单个汉字切分为多个拼音;
根据预设的拼音库和汉字库,将各拼音转换成汉字,将转换后的汉字按拼音语句的顺序组成多个候选汉字语句;
计算各个候选汉字语句的语句置信度,并根据计算得到的各语句置信度,从所述多个候选汉字语句筛选出至少一个汉字语句输出。
2.根据权利要求1所述的方法,其特征在于,所述将输入的拼音语句按单个汉字切分为多个拼音,包括:
将输入的拼音语句按单个汉字的拼音字母数量特点,获得多种切分方案;
根据预设的拼音库和汉字库,筛选出符合所述拼音库和汉字库的拼音。
3.根据权利要求1所述的方法,其特征在于,所述将各拼音转换成汉字,将转换后的汉字按拼音语句的顺序组成多个候选汉字语句,包括:
将各拼音按拼音与汉字的对应关系,获得与每个拼音对应的至少一个汉字;
将对应一个拼音的多个汉字,分别与其它转换后的汉字顺序组成候选汉字语句,获得多个候选汉字语句。
4.根据权利要求1所述的方法,其特征在于,所述根据计算得到的各语句置信度,从所述多个候选汉字语句筛选出至少一个汉字语句输出,包括:
根据当前的应用场景,确定该应用场景下语句置信度的筛选阀值;
根据确定的筛选阀值,从所述多个候选汉字语句筛选出至少一个汉字语句输出。
5.根据权利要求1所述的方法,其特征在于,在将输入的拼音语句按单个汉字切分为多个拼音之前,所述方法还包括:
接收拼音及对应汉字的输入,建立以拼音为索引字段,包含拼音和汉字两种字段的拼音库;
接收汉字及对应拼音的输入,建立以汉字为索引字段,包含汉字和拼音两种字段的汉字库。
6.根据权利要求1所述的方法,其特征在于,在根据计算得到的各语句置信度,从所述多个候选汉字语句筛选出至少一个汉字语句输出之前,所述方法还包括:
获取给定语句置信度的汉字语句资料,输入基于循环神经网络建立的汉字语句模型中,基于误差反向传播算法进行语句置信度计算的学习,获得预设计算准确率的计算语句置信度的汉字语句模型。
7.根据权利要求1至6任一项所述的方法,其特征在于,在将输入的拼音语句按单个汉字切分为多个拼音之前,所述方法还包括:
按预设分割规则,将输入的语句分割为一个或多个子句;
判断所述子句是否为拼音语句;
所述子句为拼音语句时,将所述拼音语句进行进一步处理。
8.一种语句转换装置,其特征在于,所述装置包括切分模块、转换模块和计算模块;其中,
所述切分模块,用于将输入的拼音语句按单个汉字切分为多个拼音;
所述转换模块,用于根据预设的拼音库和汉字库,将各拼音转换成汉字,将转换后的汉字按拼音语句的顺序组成多个候选汉字语句;
所述计算模块,用于计算各个候选汉字语句的语句置信度,并根据计算得到的各语句置信度,从所述多个候选汉字语句筛选出至少一个汉字语句输出。
9.一种服务器,其特征在于,包括处理器和存储器;其中,
所述处理器,用于将输入的拼音语句按单个汉字切分为多个拼音,根据预设的拼音库和汉字库,将各拼音转换成汉字,将转换后的汉字按拼音语句的顺序组成多个候选汉字语句,计算各个候选汉字语句的语句置信度,并根据计算得到的各语句置信度,从所述多个候选汉字语句筛选出至少一个汉字语句输出;
所述存储器,用于根据所述处理器的指示,保存输入的拼音语句和输出的汉字语句。
10.一种计算机存储介质,其上存储有可执行程序,其特征在于,所述可执行程序被处理器执行时实现如权利要求1至7任一项所述语句转换方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810194955.3A CN110245331A (zh) | 2018-03-09 | 2018-03-09 | 一种语句转换方法、装置、服务器及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810194955.3A CN110245331A (zh) | 2018-03-09 | 2018-03-09 | 一种语句转换方法、装置、服务器及计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110245331A true CN110245331A (zh) | 2019-09-17 |
Family
ID=67882233
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810194955.3A Pending CN110245331A (zh) | 2018-03-09 | 2018-03-09 | 一种语句转换方法、装置、服务器及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110245331A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110942767A (zh) * | 2019-11-05 | 2020-03-31 | 深圳市一号互联科技有限公司 | 一种asr语言模型识别标注与优化方法及其装置 |
CN111861731A (zh) * | 2020-07-31 | 2020-10-30 | 重庆富民银行股份有限公司 | 基于ocr的贷后检查系统及方法 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH096762A (ja) * | 1995-06-23 | 1997-01-10 | Casio Comput Co Ltd | 中国語用漢字変換装置及び中国語用漢字変換方法 |
JPH11238051A (ja) * | 1998-02-23 | 1999-08-31 | Toshiba Corp | 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体 |
JP2003022264A (ja) * | 2001-07-06 | 2003-01-24 | Communication Research Laboratory | 言語変換処理統一システム |
CN1556452A (zh) * | 2003-12-31 | 2004-12-22 | 哈尔滨工业大学 | 数字键盘智能拼音汉字输入方法 |
US20050209844A1 (en) * | 2004-03-16 | 2005-09-22 | Google Inc., A Delaware Corporation | Systems and methods for translating chinese pinyin to chinese characters |
CN101493812A (zh) * | 2009-03-06 | 2009-07-29 | 中国科学院软件研究所 | 一种音字转换方法 |
CN102063282A (zh) * | 2009-11-18 | 2011-05-18 | 盛大计算机(上海)有限公司 | 汉语语音输入系统及方法 |
CN102103416A (zh) * | 2009-12-17 | 2011-06-22 | 新浪网技术(中国)有限公司 | 一种汉字输入方法和装置 |
CN102193639A (zh) * | 2010-03-04 | 2011-09-21 | 阿里巴巴集团控股有限公司 | 一种语句生成方法及装置 |
CN102455786A (zh) * | 2010-10-25 | 2012-05-16 | 三星电子(中国)研发中心 | 一种对中文句子输入法的优化系统及方法 |
CN102866782A (zh) * | 2011-07-06 | 2013-01-09 | 哈尔滨工业大学 | 一种提高整句生成效率的输入法和输入法系统 |
CN102866781A (zh) * | 2011-07-06 | 2013-01-09 | 哈尔滨工业大学 | 一种音字转换方法和系统 |
US20140136970A1 (en) * | 2011-07-14 | 2014-05-15 | Tencent Technology (Shenzhen) Company Limited | Text inputting method, apparatus and system |
US9471566B1 (en) * | 2005-04-14 | 2016-10-18 | Oracle America, Inc. | Method and apparatus for converting phonetic language input to written language output |
US20170160879A1 (en) * | 2015-12-08 | 2017-06-08 | Alibaba Group Holding Limited | Method and system for inputting information |
CN107305575A (zh) * | 2016-04-25 | 2017-10-31 | 北京京东尚科信息技术有限公司 | 人机智能问答系统的断句识别方法和装置 |
-
2018
- 2018-03-09 CN CN201810194955.3A patent/CN110245331A/zh active Pending
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH096762A (ja) * | 1995-06-23 | 1997-01-10 | Casio Comput Co Ltd | 中国語用漢字変換装置及び中国語用漢字変換方法 |
JPH11238051A (ja) * | 1998-02-23 | 1999-08-31 | Toshiba Corp | 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体 |
JP2003022264A (ja) * | 2001-07-06 | 2003-01-24 | Communication Research Laboratory | 言語変換処理統一システム |
CN1556452A (zh) * | 2003-12-31 | 2004-12-22 | 哈尔滨工业大学 | 数字键盘智能拼音汉字输入方法 |
US20050209844A1 (en) * | 2004-03-16 | 2005-09-22 | Google Inc., A Delaware Corporation | Systems and methods for translating chinese pinyin to chinese characters |
CN1954315A (zh) * | 2004-03-16 | 2007-04-25 | Google公司 | 用于将汉语拼音翻译成汉字的系统和方法 |
US9471566B1 (en) * | 2005-04-14 | 2016-10-18 | Oracle America, Inc. | Method and apparatus for converting phonetic language input to written language output |
CN101493812A (zh) * | 2009-03-06 | 2009-07-29 | 中国科学院软件研究所 | 一种音字转换方法 |
CN102063282A (zh) * | 2009-11-18 | 2011-05-18 | 盛大计算机(上海)有限公司 | 汉语语音输入系统及方法 |
CN102103416A (zh) * | 2009-12-17 | 2011-06-22 | 新浪网技术(中国)有限公司 | 一种汉字输入方法和装置 |
CN102193639A (zh) * | 2010-03-04 | 2011-09-21 | 阿里巴巴集团控股有限公司 | 一种语句生成方法及装置 |
CN102455786A (zh) * | 2010-10-25 | 2012-05-16 | 三星电子(中国)研发中心 | 一种对中文句子输入法的优化系统及方法 |
CN102866782A (zh) * | 2011-07-06 | 2013-01-09 | 哈尔滨工业大学 | 一种提高整句生成效率的输入法和输入法系统 |
CN102866781A (zh) * | 2011-07-06 | 2013-01-09 | 哈尔滨工业大学 | 一种音字转换方法和系统 |
US20140136970A1 (en) * | 2011-07-14 | 2014-05-15 | Tencent Technology (Shenzhen) Company Limited | Text inputting method, apparatus and system |
US20170160879A1 (en) * | 2015-12-08 | 2017-06-08 | Alibaba Group Holding Limited | Method and system for inputting information |
CN107305575A (zh) * | 2016-04-25 | 2017-10-31 | 北京京东尚科信息技术有限公司 | 人机智能问答系统的断句识别方法和装置 |
Non-Patent Citations (2)
Title |
---|
李炜;贾庆成;刘政怡;: "汉语拼音输入法中拼音流的切分", 现代计算机(专业版), no. 08, 15 August 2007 (2007-08-15) * |
汤步洲;王晓龙;王轩;张强;: "语句级汉字拼音输入技术评估方法的研究", 中文信息学报, no. 05, 15 September 2008 (2008-09-15) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110942767A (zh) * | 2019-11-05 | 2020-03-31 | 深圳市一号互联科技有限公司 | 一种asr语言模型识别标注与优化方法及其装置 |
CN110942767B (zh) * | 2019-11-05 | 2023-03-17 | 深圳市一号互联科技有限公司 | 一种asr语言模型识别标注与优化方法及其装置 |
CN111861731A (zh) * | 2020-07-31 | 2020-10-30 | 重庆富民银行股份有限公司 | 基于ocr的贷后检查系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110489760B (zh) | 基于深度神经网络文本自动校对方法及装置 | |
CN108170749B (zh) | 基于人工智能的对话方法、装置及计算机可读介质 | |
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN107229610B (zh) | 一种情感数据的分析方法及装置 | |
CN103400577B (zh) | 多语种语音识别的声学模型建立方法和装置 | |
CN110110041A (zh) | 错词纠正方法、装置、计算机装置及存储介质 | |
CN107729313B (zh) | 基于深度神经网络的多音字读音的判别方法和装置 | |
CN109840287A (zh) | 一种基于神经网络的跨模态信息检索方法和装置 | |
CN108959246A (zh) | 基于改进的注意力机制的答案选择方法、装置和电子设备 | |
CN111931517B (zh) | 文本翻译方法、装置、电子设备以及存储介质 | |
CN109271493A (zh) | 一种语言文本处理方法、装置和存储介质 | |
CN110895559B (zh) | 模型训练、文本处理方法、装置以及设备 | |
CN108228576B (zh) | 文本翻译方法及装置 | |
CN112101010B (zh) | 一种基于bert的电信行业oa办公自动化文稿审核的方法 | |
CN110377916A (zh) | 词预测方法、装置、计算机设备及存储介质 | |
CN111694940A (zh) | 一种用户报告的生成方法及终端设备 | |
CN107943940A (zh) | 数据处理方法、介质、系统和电子设备 | |
CN110377882A (zh) | 用于确定文本的拼音的方法、装置、系统和存储介质 | |
CN110245331A (zh) | 一种语句转换方法、装置、服务器及计算机存储介质 | |
CN114444476A (zh) | 信息处理方法、装置和计算机可读存储介质 | |
CN112349294B (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN111968646B (zh) | 一种语音识别方法及装置 | |
CN116402166B (zh) | 一种预测模型的训练方法、装置、电子设备及存储介质 | |
Lin et al. | Ensemble Pre-trained Transformer Models for Writing Style Change Detection. | |
CN109376355A (zh) | 英文单词和语句筛选方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |