CN111090338B - 医疗文书的hmm输入法模型的训练方法、输入法模型和输入方法 - Google Patents
医疗文书的hmm输入法模型的训练方法、输入法模型和输入方法 Download PDFInfo
- Publication number
- CN111090338B CN111090338B CN201911265899.9A CN201911265899A CN111090338B CN 111090338 B CN111090338 B CN 111090338B CN 201911265899 A CN201911265899 A CN 201911265899A CN 111090338 B CN111090338 B CN 111090338B
- Authority
- CN
- China
- Prior art keywords
- pinyin
- probability
- string
- completion
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/02—Input arrangements using manually operated switches, e.g. using keyboards or dials
- G06F3/023—Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
- G06F3/0233—Character input methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Epidemiology (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
医疗文书的HMM输入法模型的训练方法、输入法模型和输入方法,属于医疗信息领域,用于解决在医疗术语输入时遇到长串输入时导致的输出预期结果的概率很低的问题,要点是对训练用医疗文书内容按照单字分词,并统计每个词出现的概率,作为HMM模型的初始状态概率;将训练用医疗文书中的所有汉字都转换为对应的拼音,统计每个拼音对应的汉字以及各自出现的概率,作为HMM模型的观察状态发射概率;统计训练用医疗文书中每个汉字后面出现的其他汉字的概率,作为HMM模型的隐藏状态转移概率,效果是提升了长串输入的结果准确度。
Description
技术领域
本发明属于医疗信息领域,涉及一种医疗文书的HMM输入法模型的训练方法、输入法模型和输入方法。
背景技术
随着医疗信息化、智能化的发展,医生在办公过程中需要进行越来越多的文本输入操作,如病历、医嘱等医学文书,这一过程中,医生需要使用一定的输入法进行文本内容的输入。
目前大多数医生使用的输入法主要有两种:一种是通用的输入法,如搜狗输入法、百度输入法等,另一种则是基于词库的医疗输入法。
医生工作过程中由于需要输入大量的专有术语、名词,以及专科知识等内容,使用现有的通用输入法会耗费大量的时间在人工选择候选词条的过程中,导致输入时间长,效率低,且容易出错。而基于词库的医疗输入法,虽然可以在一定程度上解决专有名词的输入效率问题,但由于词库多为限制长度的固定短语,导致医生在一次性输入较长内容时,仍然面临候选词条与上下文相差较远,需人工进行大量选择操作从而导致效率低下的问题。
目前常见的医疗输入法,多是采用在通用输入法的基础上通过特定的方法增加医疗专用词典的方式实现,词典一般存储在本地硬盘或云端服务器。其主要过程为:首先获取用户输入的拼音串;之后,根据输入的拼音串,在专用词库中进行匹配;如果在医疗专用词库中匹配到符合输入拼音串的短语内容,则将其作为优先级较高的候选结果返回;继续使用通用算法进行输入拼音串和候选汉字之间的转换,结果优先级低于医疗专用词库中的检索结果;将上述两部分候选结果进行组合排序,并返回到输入法界面供用户选择。
以上为常见的医疗输入法中,拼音到汉字转换过程中的基本流程,部分医疗输入法可能会加入诸如规则验证等其他操作,但并不会改变基本流程。在上述常见拼音输入法的拼音补全过程中,遇到长串输入时输出预期结果的概率很低的问题,影响医生的工作效率。
发明内容
为了解决上述现有技术存在的问题,本发明提出了一种医疗文书的HMM输入法模型的训练方法,包括:
获取所有合法拼音串作为HMM模型的观察状态集合,并获取拼音串对应的所有汉字结果作为HMM模型的隐藏状态集合;
对训练用医疗文书内容按照单字分词,并统计每个词出现的概率,作为HMM模型的初始状态概率;
将训练用医疗文书中的所有汉字都转换为对应的拼音,统计每个拼音对应的汉字以及各自出现的概率,作为HMM模型的观察状态发射概率;
统计训练用医疗文书中每个汉字后面出现的其他汉字的概率,作为HMM模型的隐藏状态转移概率。
本发明还涉及一种由所述的训练方法得到的HMM输入法模型。
本发明还涉及一种HMM输入法模型,包括:
观察状态集合模块,是获取的所有合法拼音串,
HMM模型的隐藏状态集合模块,是获取拼音串对应的所有汉字结果,
初始状态概率分布模块,是对训练用医疗文书内容按照单字分词,并统计每个词出现的概率分布,
观察状态发射概率分布模块,是将训练用医疗文书中的所有汉字都转换为对应的拼音,统计每个拼音对应的汉字以及各自出现的概率分布;
隐藏状态转移概率分布模块,是统计训练用医疗文书中每个汉字后面出现的其他汉字的概率分布。
一种基于医疗文书内容的输入方法,包括如下步骤:
获取拼音串,对拼音串进行切分及补全;
切分补全后的拼音串作为HMM模型的观察状态序列,输入HMM输入法模型;
输出汉字串,其是由HMM输入法模型将观察状态序列转移为隐藏状态序列,搜索最有可能的对应隐藏状态序列,由拼音串转换为汉字,并返回概率最大的前几个汉字串。
进一步的,搜索最有可能的对应隐藏状态序列,由拼音转换为汉字的方法包括:从开始状态之后每进行一次状态转换,记录到达该时刻每个状态时,对应该状态所有路径中的概率最大值,以所述最大值为基准继续前进直至结束,最后回溯整个路径,为要求的序列最短路径。
进一步的,所述对拼音串进行切分及补全,其方法包括:
按照拼音的构成原则进行切分;
根据拼音补全模型将切分后的拼音串进行拼音补全:
计算对应所有可能的补全结果出现的概率,以及一个拼音串的各补全结果,其出现在另一拼音串的各补全结果之后的概率信息,计算各个完整补全结果的得分,取分值最高的一项作为最终的补全结果。
进一步的,所述拼音补全模型由训练方法得到,该训练包括如下步骤:
S1.获取合法的完整单字拼音串;
S2.获取合法的完整单字拼音串对应的可能的待补全拼音串;
S3.获取待补全拼音串和完整拼音串的对应关系;
S4.获取训练数据对应的完整拼音内容,拼音内容按单字进行分隔;
S5.对训练数据进行统计学习,获取初始概率、发射概率和转移概率。
进一步的,S1的步骤是:按照拼音的构成规则,获取合法的完整单字拼音串;
S2的步骤是:将单字拼音串的所有前缀中,去掉合法拼音后剩余的部分,加上该单字拼音本身,作为该单字拼音对应的可能的待补全拼音串;
S3的步骤是:对于所述待补全拼音串,获取待补全拼音串及其对应的可补全成为的完整拼音串的对应关系。
有益效果:本发明基于HMM(隐马尔可夫模型,Hidden Markov Models)的医疗专用输入法,通过对大量医学文本进行统计学习,获取在医疗文书中特定的拼音与汉字的对应关系,以及医疗文书中特定的上下文连接信息等,基于特定的医疗文书统计信息进行拼音到汉字的转换过程,不仅提高了医疗专用术语的输入准确度,同时在一定程度上改善了长串输入的准确度。
附图说明
图1是观察序列转移网格图;
图2是路径图。
具体实施方式
定义:HMM:Hidden Markov Models,隐马尔可夫模型;Viterbi:Viterbialgorithm,维特比算法,一种动态规划算法。
实施例中各个技术方案是由软件实现的方法和装置。
本实施例提出一种基于HMM的医疗专用输入法,与其他常见的医疗输入法的主要不同点在于,对训练数据采用了HMM算法进行统计学习,基于统计信息进行拼音到汉字的转换。
该方案的提出基于如下背景:
随着医疗信息化、智能化的发展,医生在办公过程中需要进行越来越多的文本输入操作,如病历、医嘱等医学文书,这一过程中,医生需要使用一定的输入法进行文本内容的输入。
目前大多数医生使用的输入法主要有两种:一种是通用的输入法,如搜狗输入法、百度输入法等,另一种则是基于词库的医疗输入法。
医生工作过程中由于需要输入大量的专有术语、名词,以及专科知识等内容,使用现有的通用输入法会耗费大量的时间在人工选择候选词条的过程中,导致输入时间长,效率低,且容易出错。而基于词库的医疗输入法,虽然可以在一定程度上解决专有名词的输入效率问题,但由于词库多为限制长度的固定短语,导致医生在一次性输入较长内容时,仍然面临候选词条与上下文相差较远,需人工进行大量选择操作从而导致效率低下的问题。
目前常见的医疗输入法,多是采用在通用输入法的基础上通过特定的方法增加医疗专用词典的方式实现,词典一般存储在本地硬盘或云端服务器。其主要过程为:首先获取用户输入的拼音串;之后,根据输入的拼音串,在专用词库中进行匹配;如果在医疗专用词库中匹配到符合输入拼音串的短语内容,则将其作为优先级较高的候选结果返回;继续使用通用算法进行输入拼音串和候选汉字之间的转换,结果优先级低于医疗专用词库中的检索结果;将上述两部分候选结果进行组合排序,并返回到输入法界面供用户选择。
以上为常见的医疗输入法中,拼音到汉字转换过程中的基本流程,部分医疗输入法可能会加入诸如规则验证等其他操作,但并不会改变基本流程。在上述常见拼音输入法的拼音补全过程中,遇到长串输入时输出预期结果的概率很低的问题,影响医生的工作效率。
HMM是一种基本的统计模型,HMM在一个标准的马尔科夫过程中引入一组隐藏状态,以及观察状态和隐藏状态之间的一些概率关系,描述了一个含有隐藏状态的马尔科夫过程。
使用HMM模型时,通常问题需要有两个主要特征:
1.问题是基于序列的,如时间序列、状态序列;
2.问题中有两类数据,一类数据是可以观测到的,即观察序列,另一个类数据是不能观测到的,即隐藏状态序列,简称状态序列;
在本发明设计的基于HMM的医疗专用输入法中,将拼音看做HMM中的隐藏状态,拼音转换得到的文字结果作为观察状态。
在本发明使用的HMM模型中,主要有以下几个参数:
隐藏状态集合,用Q={q1,q2,...,qN}表示,其中N为可能的隐藏状态数量,对应本发明中所有可能的汉字的状态数;
观察状态集合,用V={v1,v2,…,vM}表示,其中M为可能的观察状态数量,对应本发明中所有可能的拼音的状态数;
长度为T的隐藏状态序列,用I={i1,i2,...,iT}表示,对应本发明中用户输入的拼音序列所对应的汉字序列;
长度为T的观察状态序列,用O={o1,o2,...,oT}表示,对应本发明中用户输入的拼音序列;
隐藏状态转移概率分布,用A表示,描述在时刻t处于状态qi的条件下,在时刻t+1转移到状态qj的概率,对应本发明医疗文书中相邻汉字之间的转移概率;
观察状态发射概率分布,用B表示,描述在时刻t时的隐藏状态qi到观察状态vk的发射概率,对应本发明医疗文书中汉字到拼音之间的发射概率;
初始状态概率,用π表示,描述在时刻t=1时处于某一隐藏状态的概率,对应本发明中输入拼音序列对应汉字中首位汉字的出现概率。
基于上述参数,本发明涉及的拼音串转汉字的过程,即为给定观察序列,搜索最有可能的对应的隐藏状态序列的过程。
基于上述背景,本发明的拼音汉字转换过程主要分为训练阶段和使用阶段两部分。
训练阶段如下:
医疗文书的HMM输入法模型的训练方法,包括:
获取所有合法拼音串作为HMM模型的观察状态集合,并获取拼音串对应的所有汉字结果作为HMM模型的隐藏状态集合;
对训练用医疗文书内容按照单字分词,并统计每个词出现的概率,作为HMM模型的初始状态概率;
将训练用医疗文书中的所有汉字都转换为对应的拼音,统计每个拼音对应的汉字以及各自出现的概率,作为HMM模型的观察状态发射概率;
统计训练用医疗文书中每个汉字后面出现的其他汉字的概率,作为HMM模型的隐藏状态转移概率。
在一种实施例中,所述训练方法在具体实例中的应用如下:
1.获取所有合法拼音串(观察状态集合)及其对应的所有汉字结果(隐藏状态集合);
如"ceng":"层層橧蹭噌竲驓嶒曽曾",表示和拼音串“ceng”所对应的所有汉字。
2.对训练用医疗文书内容按照单字分词,并统计每个词出现的概率,依次作为初始概率π;
如"一":0.0040433090858546655,"七":6.855110316782822e-06,表示“一”和“七”的初始概率大小。
3.将训练用医疗文书中的所有汉字都转换为对应的拼音,统计每个拼音对应的汉字以及各自出现的概率,以此作为发射概率B;
如"且":{"ju":0.0006393861892583121,"qie":0.9993606138107417},表示“且”字对应的几个拼音串及其概率。
4.统计训练用医疗文书中每个汉字后面出现的其他汉字的概率,以此作为隐藏状态转移概率;
如”鼻”:{"窦":0.09741548503759896,"粘":0.006450261318279049,"纵":2.2052175447107856e-05,},表示“鼻”字后面出现“窦”、“粘”、“纵”几个字的概率。
经过上述过程,可以得到一个HMM模型的基本内容,将模型保留。HMM输入法模型包括:
观察状态集合模块,是获取的所有合法拼音串,
HMM模型的隐藏状态集合模块,是获取拼音串对应的所有汉字结果,
初始状态概率分布模块,是对训练用医疗文书内容按照单字分词,并统计每个词出现的概率分布,
观察状态发射概率分布模块,是将训练用医疗文书中的所有汉字都转换为对应的拼音,统计每个拼音对应的汉字以及各自出现的概率分布;
隐藏状态转移概率分布模块,是统计训练用医疗文书中每个汉字后面出现的其他汉字的概率分布。
使用阶段如下:
基于医疗文书内容的输入方法,包括如下步骤:
获取拼音串,对拼音串进行切分及补全;
切分补全后的拼音串作为HMM模型的观察状态序列,输入HMM输入法模型;
输出汉字串,其是由HMM输入法模型将观察状态序列转移为隐藏状态序列,搜索最有可能的对应隐藏状态序列,由拼音串转换为汉字,并返回概率最大的前几个汉字串。
在一种实施例中,所述使用方法在具体实例中的应用如下:
1.获取用户输入的拼音串,并对拼音串按照特定的方法进行切分及补全;
如用户输入法“shuniaoguan”,其切分补全后的结果为“shu niao guan”。
2.使用切分补全后的拼音串(观察状态序列),结合训练好的模型结果,进行拼音到汉字的转换(隐藏状态序列);
在本发明中,基于训练好的HMM模型进行拼音汉字转换的过程主要采用了Viterbi算法进行求解。Viterbi算法是一种通用的求序列最短路径的动态规划算法,简单来说,就是从开始状态之后每进行一次状态转换,就记录下到达该时刻每个状态时,对应该状态所有路径中的概率最大值,并且以这个最大值为基准继续前进直至结束,最后回溯整个路径,即为要求的序列最短路径。
如图1所示,图1中的网格表示汉字对于观察序列(拼音序列)的转移情况。对于网格中的每一个中间及终止状态,都有一个可以到达该状态的最可能路径,如对于t=3时刻的三个状态中,每一个都有一条到达该路径的最可能路径,可能如图2所示,基于此可知,在拼音汉字转换过程中,终止时刻的每个状态都有一个局部概率及相应的最佳路径,因此,可以通过选择该时刻局部概率值最大的状态(及其对应的最佳路径)来确定全局最佳路径,即为最终的汉字串。将得到的汉字串进行返回,通常会返回概率最大的前几个值供医生选择。
以上即为本发明所提出的基于HMM的医疗输入法的完整训练及使用过程。
本发明通过对大规模医疗文书进行统计学习,获取其中的概率信息,在拼音转换汉字的过程中,采用HMM算法综合考虑所有可能的汉字结果,并结合字与字之间的转移概率等信息完善较长拼音串的转换结果,最后结合已有的统计信息,对所有可能的汉字结果进行评分,根据得分进行候选结果的筛选及返回。
基于统计学习的方法得到HMM模型的过程,避免了基于医疗专用词典的方法中词典获取过程所带来的问题,基本不需要消耗额外的人工成本,且基于字进行训练,也避免了对分词准确度的依赖。
在转换过程中,本发明的方法通过模型中的概率信息,综合计算各种可能的汉字结果的概率及得分来获取候选结果,避免了基于词库的方法中对词库大小及覆盖度的依赖。
同时,本发明采用的基于HMM模型的方法,在计算汉字组合概率及得分时,会考虑到上下文的共现概率等信息,因此,在遇到长串输入时,能够结合上下文给出相对更合理的候选结果,提升长串输入的结果准确度。
本发明所采用的基于HMM的医疗专用输入法,充分利用了大规模训练数据中存在的概率信息,避免引入额外的人工成本。在进行拼音汉字转换过程中,避免了基于医疗词库的方法所带来的诸如强依赖词库,长串输入结果准确度低等问题。
由于在训练过程中,模型已充分考虑到各种统计信息,如拼音与汉字的对应关系,汉字与汉字之间的共现关系等,因此得到的候选结果相较于通用输入法加专用词库的手段会更加符合医生期望,更贴近训练数据的用语特点,在实验过程中,效果明显优于采用专用词库的传统医疗输入法。
基于上述特点,本发明提出的方法在节省人工成本的同时,不仅提升了汉字结果的准确度,也改善了医生输入医疗文书的工作效率。
本发明的技术关键点是在医疗专用输入法的实现过程中采用了基于HMM的拼音汉字转换算法。训练过程中,通过对大规模医疗文书的统计学习,获取各种概率信息,实际使用过程中,综合考虑已知的各项概率信息,对可能的汉字组合进行概率计算及比较。将成熟的HMM算法应用在医疗文书的统计学习中,替代了传统的通用输入法加专用词库的方法,节省人工成本的同时,极大的改善了医疗术语输入的准确度,提升了长串医疗文书的输入效率,节省了医生医疗文书录入的时间从而提高医生的工作效率。
上述多个方案详细描述了医疗文书的HMM输入法模型的训练方法、输入法模型和输入方法。
在一种方案中,对于实施例中各案的使用阶段所述的对拼音串进行切分及补全的步骤(当然适用发明内容中的对拼音串进行切分及补全的步骤),提供一种基于HMM的拼音补全方法,与其他常见的拼音输入法补全过程中的主要不同点在于,对训练数据的信息获取过程中,采用了HMM的方法进行统计学习。
该技术问题的提出,基于如下背景:
随着医院信息化建设的进行,医生在办公过程中不可避免的需要输入各类文本内容,如电子病历、检查报告等。输入法作为医生与计算机交互的一个主要入口,其准确度与适用程度对于医生的工作效率有着极大的影响。
目前,大多数医生使用的均为针对通用领域实现的拼音输入法。同时,由于大多数医生打字速度相对较慢,在使用通用输入法时,倾向于用较少的输入得到预期的汉字结果。
一个相对完善的拼音输入法程序,在使用者输入部分拼音内容,如拼音首字母,部分拼音前缀等内容时,应该根据既定的规则算法,推测出完整的拼音内容,并给出相应的汉字候选结果。
常用的拼音输入法在进行拼音补全时,多基于短语频次进行补全,当输入内容较长时,很难给出相对准确的候选结果,如输入“yxxt”时,基于短语频次得到的补全结果可能为“yi xia xi tong”,从而给出的最优候选结果可能为“一下系统”,这显然不是预期的结果。这样的结果,既影响了医生文本录入的效率,同时也提高了录入错误信息的概率。
常见的拼音输入法,对于拼音补全的过程多基于频次信息进行补全。其主要过程为:统计训练数据中的拼音及其频次并采用相应的数据结构,如Trie树,进行保存,当输入内容为不完整拼音时,在已保存的信息中进行前缀匹配,并将匹配到的结果中频次最高的完整拼音作为补全结果,并给出相应的汉字候选。
具体实现过程中,数据的存储结构和匹配过程会根据不同的策略进行优化,以其中一种方法为例大致说明上述过程。首先,对训练数据进行清洗、分词,如原内容为“胰腺形态正常”,则可能的分词结果为“胰腺形态正常”;之后,获取训练数据中的短语对应的拼音内容,如原短语为“胰腺”,则将其对应的拼音结果“yi xian”;统计所有短语的频次,并将“短语+拼音+频次”信息按照指定的数据结构进行存储。经过上述步骤则得到基于训练数据的短语库,包含相应的拼音及频次等信息。当输入“yxxt”时,输入法会将其按照指定的拼音组成规范进行切分,得到“y*x*x*t*”这样的结果,其中“*”表示可匹配一个或多个任意字母;将“y*x*x*t*”在已有的短语库中进行匹配,可能会匹配到诸如“yi xia xi tong”、“yixian xing tai”等若干组合;对匹配到的若干短语拼音组合的频次进行排序,选择频次最高的一个结果作为补全结果,并以此为基础进行拼音转汉字的操作。以上,即为常规拼音输入法中拼音补全的大致流程。
在上述常见拼音输入法的拼音补全过程中,主要存在以下几个问题:
首先,在匹配过程中,由于采用类似模糊匹配的方法,每次匹配过程需要遍历所有可能的补全结果及组合,在输入内容较短且短语库规模较大时,匹配效率会受到影响;
其次,由于这种方法是基于短语频次进行候选结果筛选,会导致候选结果完全依赖于训练数据,若训练数据中存在分词错误或者出现训练数据中不存在的短语时,这种方法就不能很好的进行补全;
同时,当输入的不完整拼音串较长时,若不对输入串进行额外处理的话,会很难直接在短语库中匹配到合适的候选结果,若对输入串进行处理之后再去匹配的话,会增加额外的处理过程,影响补全效率,并且,由于对候选结果的选择是依赖于每个短语各自的频次,不考虑短语间的共现概率,因此长拼音串补全结果的准确度会受到影响。
HMM是一种基本的统计模型,HMM在一个标准的马尔科夫过程中引入一组隐藏状态,以及观察状态和隐藏状态之间的一些概率关系,描述了一个含有隐藏状态的马尔科夫过程。
基于上述背景,本发明在拼音补全的过程中,将待补全的不完整拼音串作为观察状态,补全的完整拼音结果作为隐藏状态,拼音补全的过程即转为HMM的解码问题(给定观察序列,搜索最有可能的对应的隐藏状态序列)。
本发明拼音补全过程主要分为训练阶段和使用阶段两部分。
训练阶段的主要步骤如下:
在一种实施例中,所述训练方法在具体实例中的应用如下:
拼音补全模型由训练方法包括如下步骤:
S1.获取合法的完整单字拼音串;
S2.获取合法的完整单字拼音串对应的可能的待补全拼音串;
S3.获取待补全拼音串和完整拼音串的对应关系;
S4.获取训练数据对应的完整拼音内容,拼音内容按单字进行分隔;
S5.对训练数据进行统计学习,获取初始概率、发射概率和转移概率。
在一种实施例中,所述训练方法在具体实例中的应用如下:
1.获取所有合法的完整单字拼音串;
按照拼音的构成规则,可以获取到所有合法的完整单字拼音串。如“yi”、“xian”均为合法的完整单字拼音串,而“y”、“bia”即为不完整拼音串。
2.获取所有合法的完整单字拼音串对应的所有可能的待补全拼音串;
本发明中,将单字拼音的所有前缀中,去掉合法拼音后剩余的部分后,加上该单字拼音本身,作为该单字拼音对应的可能的待补全拼音串。如对于单字拼音“xian”,其所有前缀包括“x xi xia”,其中“xi xia”为合法拼音串,所以在本发明中“xian”的待补全拼音串即为“x xian”,也就是说当输入法获取到“x”或“xian”这两个输入的时候,可能会得到“xian”的结果。
3.获取待补全拼音串和完整拼音串的对应关系;
基于上一步获得的待补全拼音串,整理并获取所有待补全拼音串及其对应的可补全成为的完整拼音串的对应关系。如,"bia":"bian biao",表示待补全串“bia”对应的可能的完整拼音串为“bian”和“biao”。
4.获取训练数据(即已有的医学文本)对应的完整拼音内容;
通过汉字转拼音工具,获取训练数据对应的完整拼音内容。其中,拼音内容按单字进行分隔。如对于文本“胰腺形态正常”,其对应的拼音内容为“yi xian xing tai zhengchang”。
5.对训练数据进行统计学习,获取下列内容:
初始概率:完整拼音A在数据中出现的概率。如,"bing":0.0032817207121452023,表示拼音“bing”出现的概率为0.0032817207121452023。
发射概率:完整拼音对应的所有待补全拼音串中,该完整拼音串由某个待补全拼音串补全而来的概率。如,"bao":{"b":0.004975124378109453,”bao":0.9950248756218906},表示“bao”由“b”补全而来的概率为0.004975124378109453,由“bao”补全而来的概率为0.9950248756218906。
转移概率:完整拼音A后面为完整拼音B的概率。如,"yi":{"an":3.47512365946466e-07,"chang":0.009643713457860983},表示“yi”后为拼音串“an”的概率为3.47512365946466e-07,“yi”后为拼音串“chang”的概率为0.009643713457860983。
至此,训练过程结束,得到待补全串与完整串对应表(步骤3)、初始概率(步骤5)、发射概率(步骤5)、转移概率(步骤5)几部分内容。
经过上述过程,可以得到一个拼音补全模型的基本内容,将模型保留。拼音补全模型,包括:
拼音串获取模块,具有合法的完整单字拼音串;
待补全拼音串模块,具有合法的完整单字拼音串对应的可能的待补全拼音串;
对应关系模块,建立待补全拼音串和完整拼音串对应关系;
分隔模块,训练数据对应的完整拼音内容,拼音内容按单字进行分隔;
统计学习模块,对训练数据进行统计学习,获取初始概率、发射概率和转移概率。
使用阶段的主要步骤如下:
基于HMM的拼音补全方法,包括如下步骤
根据拼音补全模型将切分后的拼音串进行拼音补全:
计算对应所有可能的补全结果出现的概率,以及一个拼音串的各补全结果,其出现在另一拼音串的各补全结果之后的概率信息,计算各个完整补全结果的得分,取分值最高的一项作为最终的补全结果。
1.获取用户的输入串,并按照拼音的构成原则进行切分;
如用户输入“yxxt”,则切分后可得到“y x x t”这样的结果。
2.使用切分后的输入串,结合训练好的模型结果,进行拼音补全;
根据训练好的模型结果,使用切分后的输入串,如“y*x*x*t*”,计算“y*”、“x*”、“t*”对应的所有可能的补全结果出现的概率,以及“x*”各补全结果出现在“y*”各补全结果之后的概率等信息,综合计算各个完整补全结果的得分,最后取分值最高的一项作为最终的补全结果。
3.根据补全结果进行拼音转汉字的后续过程;
本发明通过对大规模训练数据进行学习,获取其中的统计概率信息,在拼音补全过程中,采用HMM算法综合考虑所有可能的补全结果对应的概率信息,并结合上下文情况计算各结果的综合得分,最后根据得分进行候选结果的筛选。
由于在检索候选结果的过程中,可基于预训练的模型信息采用相应的算法进行得分计算,避免了遍历所有补全结果的过程,从而提高了匹配效率。同时,在匹配过程中,会结合单字出现概率以及上下文的共现概率等信息综合计算得分,因此在遇到训练数据分词错误的情况也可以给出补全结果。而当输入的不完整拼音串较长时,本发明提出的基于HMM的补全方法,可以综合考虑上下文的共现概率,使得补全结果更加符合预期。
本发明所采用的基于HMM的拼音补全方法,充分利用了大规模训练数据中存在的概率信息,如出现概率、共现概率等,在进行拼音补全过程中,避免了传统方法仅考虑短语频次信息所带来的如补全不准确、效率低等问题。由于在计算各候选补全结果得分的过程中,已经充分考虑到各种统计信息,因此得到的结果相较于传统方法而言会更加符合用户期望,更贴近训练数据的用语特点,因此在使用医疗文本做训练数据的情况下,效果会明显优于传统方法的补全准确率。
同时,本文提出的方法,由于仅保留单字拼音之间的各项统计信息,因此生成的模型文件大小相较于短语频次信息而言要小很多,可以达到节省内存空间的效果。
在补全过程中,本文提出的基于HMM的补全方法在计算各候选项的得分时,会自动舍弃得分较低的部分候选结果,从而效率上优于传统方法。
本发明的技术关键点是在拼音输入法的拼音补全过程中采用了基于HMM的补全算法。训练过程中,通过对大规模医疗训练数据的统计学习,获取到各种概率信息,在实际补全过程中,综合考虑已知的各项概率信息,对各可能的候选补全结果进行得分计算及比较,最终将得分最高的结果作为补全结果。将HMM方法应用在拼音补全过程中,提升补全效率的同时,极大的改善了拼音补全结果的准确度,使补全结果更加符合训练数据的用语习惯,提升用户体验。
在一种实施例中,本发明公开了一种基于HMM的拼音补全的输入法,与现有输入法的不同在于,根据权所述的补全方法补全输入串,将补全结果进行拼音转汉字并输出汉字串。
以上所述,仅为本发明创造较佳的具体实施方式,但本发明创造的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内,根据本发明创造的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明创造的保护范围之内。
Claims (4)
1.一种医疗文书的HMM输入法模型的训练方法,其特征在于,包括:
获取所有合法拼音串作为HMM模型的观察状态集合,并获取拼音串对应的所有汉字结果作为HMM模型的隐藏状态集合;
按照拼音的构成原则进行切分;
根据拼音补全模型将切分后的拼音串进行拼音补全:所述拼音补全模型由训练方法得到,该训练包括如下步骤:
S1.获取合法的完整单字拼音串;
S2.获取合法的完整单字拼音串对应的可能的待补全拼音串;
S3.获取待补全拼音串和完整拼音串的对应关系;
S4.获取训练数据对应的完整拼音内容,拼音内容按单字进行分隔;
S5.对训练数据进行统计学习,获取初始概率、发射概率和转移概率;
计算对应所有可能的补全结果出现的概率,以及一个拼音串的各补全结果,其出现在另一拼音串的各补全结果之后的概率信息,计算各个完整补全结果的得分,取分值最高的一项作为最终的补全结果;
对训练用医疗文书内容按照单字分词,并统计每个词出现的概率,作为HMM模型的初始状态概率;
将训练用医疗文书中的所有汉字都转换为对应的拼音,统计每个拼音对应的汉字以及各自出现的概率,作为HMM模型的观察状态发射概率;
统计训练用医疗文书中每个汉字后面出现的其他汉字的概率,作为HMM模型的隐藏状态转移概率。
2.一种HMM输入法模型,其特征在于,包括:
观察状态集合模块,是获取的所有合法拼音串,
HMM模型的隐藏状态集合模块,是获取拼音串对应的所有汉字结果,
按照拼音的构成原则进行切分;
根据拼音补全模型将切分后的拼音串进行拼音补全:所述拼音补全模型由训练方法得到,该训练包括如下步骤:
S1.获取合法的完整单字拼音串;
S2.获取合法的完整单字拼音串对应的可能的待补全拼音串;
S3.获取待补全拼音串和完整拼音串的对应关系;
S4.获取训练数据对应的完整拼音内容,拼音内容按单字进行分隔;
S5.对训练数据进行统计学习,获取初始概率、发射概率和转移概率;
计算对应所有可能的补全结果出现的概率,以及一个拼音串的各补全结果,其出现在另一拼音串的各补全结果之后的概率信息,计算各个完整补全结果的得分,取分值最高的一项作为最终的补全结果
初始状态概率分布模块,是对训练用医疗文书内容按照单字分词,并统计每个词出现的概率分布,
观察状态发射概率分布模块,是将训练用医疗文书中的所有汉字都转换为对应的拼音,统计每个拼音对应的汉字以及各自出现的概率分布;
隐藏状态转移概率分布模块,是统计训练用医疗文书中每个汉字后面出现的其他汉字的概率分布。
3.一种基于医疗文书内容的输入方法,其特征在于,包括如下步骤:
获取拼音串,对拼音串进行切分及补全;
切分补全后的拼音串作为HMM模型的观察状态序列,输入HMM输入法模型;
输出汉字串,其是由HMM输入法模型将观察状态序列转移为隐藏状态序列,搜索最有可能的对应隐藏状态序列,由拼音串转换为汉字,并返回概率最大的前几个汉字串;搜索最有可能的对应隐藏状态序列,由拼音转换为汉字的方法包括:从开始状态之后每进行一次状态转换,记录到达该状态转换时,对应该状态所有路径中的概率最大值,以所述最大值为基准继续前进直至结束,最后回溯整个路径,为要求的序列最短路径;所述对拼音串进行切分及补全,其方法包括:
按照拼音的构成原则进行切分;
根据拼音补全模型将切分后的拼音串进行拼音补全:所述拼音补全模型由训练方法得到,该训练包括如下步骤:
S1.获取合法的完整单字拼音串;
S2.获取合法的完整单字拼音串对应的可能的待补全拼音串;
S3.获取待补全拼音串和完整拼音串的对应关系;
S4.获取训练数据对应的完整拼音内容,拼音内容按单字进行分隔;
S5.对训练数据进行统计学习,获取初始概率、发射概率和转移概率;
计算对应所有可能的补全结果出现的概率,以及一个拼音串的各补全结果,其出现在另一拼音串的各补全结果之后的概率信息,计算各个完整补全结果的得分,取分值最高的一项作为最终的补全结果。
4.如权利要求3所述的基于医疗文书内容的输入方法,其特征在于:
S1的步骤是:按照拼音的构成规则,获取合法的完整单字拼音串;
S2的步骤是:将单字拼音串的所有前缀中,去掉合法拼音后剩余的部分,加上该单字拼音串本身,作为该单字拼音对应的可能的待补全拼音串;
S3的步骤是:对于所述待补全拼音串,获取待补全拼音串及其对应的可补全成为的完整拼音串的对应关系;
S4.获取训练数据对应的完整拼音内容,拼音内容按单字进行分隔;
S5.对训练数据进行统计学习,获取初始概率、发射概率和转移概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911265899.9A CN111090338B (zh) | 2019-12-11 | 2019-12-11 | 医疗文书的hmm输入法模型的训练方法、输入法模型和输入方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911265899.9A CN111090338B (zh) | 2019-12-11 | 2019-12-11 | 医疗文书的hmm输入法模型的训练方法、输入法模型和输入方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111090338A CN111090338A (zh) | 2020-05-01 |
CN111090338B true CN111090338B (zh) | 2021-08-27 |
Family
ID=70394836
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911265899.9A Active CN111090338B (zh) | 2019-12-11 | 2019-12-11 | 医疗文书的hmm输入法模型的训练方法、输入法模型和输入方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111090338B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111814901A (zh) * | 2020-07-21 | 2020-10-23 | 西北工业大学 | 基于数据挖掘与状态学习的医师操作手法模拟方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101067780A (zh) * | 2007-06-21 | 2007-11-07 | 腾讯科技(深圳)有限公司 | 智能设备的文字输入系统及方法 |
CN101154226A (zh) * | 2006-09-27 | 2008-04-02 | 腾讯科技(深圳)有限公司 | 在输入法词库中添加未登录词的方法及文字输入装置 |
CN102915122A (zh) * | 2012-07-19 | 2013-02-06 | 上海交通大学 | 基于语言模型的智能移动平台拼音输入法 |
CN103246714A (zh) * | 2013-04-26 | 2013-08-14 | 中国科学院计算技术研究所 | 基于错误模式挖掘的中文搜索引擎查询纠错方法及系统 |
CN103257719A (zh) * | 2012-02-21 | 2013-08-21 | 腾讯科技(深圳)有限公司 | 输入法中候选词的生成方法及系统 |
CN103970910A (zh) * | 2014-05-27 | 2014-08-06 | 南京大学 | 一种基于篇章文档的自适应输入法 |
CN106407183A (zh) * | 2016-09-28 | 2017-02-15 | 医渡云(北京)技术有限公司 | 医疗命名实体识别系统生成方法及装置 |
CN110413972A (zh) * | 2019-07-23 | 2019-11-05 | 杭州城市大数据运营有限公司 | 一种基于nlp技术的表名字段名智能补全方法 |
US10671281B2 (en) * | 2015-04-10 | 2020-06-02 | Google Llc | Neural network for keyboard input decoding |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101639830B (zh) * | 2009-09-08 | 2011-11-16 | 西安交通大学 | 一种输入过程中的中文术语自动纠错方法 |
CN109710087B (zh) * | 2018-12-28 | 2023-01-13 | 北京金山安全软件有限公司 | 输入法模型生成方法及装置 |
-
2019
- 2019-12-11 CN CN201911265899.9A patent/CN111090338B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101154226A (zh) * | 2006-09-27 | 2008-04-02 | 腾讯科技(深圳)有限公司 | 在输入法词库中添加未登录词的方法及文字输入装置 |
CN101067780A (zh) * | 2007-06-21 | 2007-11-07 | 腾讯科技(深圳)有限公司 | 智能设备的文字输入系统及方法 |
CN103257719A (zh) * | 2012-02-21 | 2013-08-21 | 腾讯科技(深圳)有限公司 | 输入法中候选词的生成方法及系统 |
CN102915122A (zh) * | 2012-07-19 | 2013-02-06 | 上海交通大学 | 基于语言模型的智能移动平台拼音输入法 |
CN103246714A (zh) * | 2013-04-26 | 2013-08-14 | 中国科学院计算技术研究所 | 基于错误模式挖掘的中文搜索引擎查询纠错方法及系统 |
CN103970910A (zh) * | 2014-05-27 | 2014-08-06 | 南京大学 | 一种基于篇章文档的自适应输入法 |
US10671281B2 (en) * | 2015-04-10 | 2020-06-02 | Google Llc | Neural network for keyboard input decoding |
CN106407183A (zh) * | 2016-09-28 | 2017-02-15 | 医渡云(北京)技术有限公司 | 医疗命名实体识别系统生成方法及装置 |
CN110413972A (zh) * | 2019-07-23 | 2019-11-05 | 杭州城市大数据运营有限公司 | 一种基于nlp技术的表名字段名智能补全方法 |
Non-Patent Citations (2)
Title |
---|
基于双语平行语料的中文缩略语识别研究;刘友强;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150315(第3期);第I138-3000页 * |
拼音到汉字自动转换技术的改进与实现;刘佳 等;《科学技术与工程》;20071231;第7卷(第24期);第6348-6352页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111090338A (zh) | 2020-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649783B (zh) | 一种同义词挖掘方法和装置 | |
CN107704102B (zh) | 一种文本输入方法及装置 | |
JP5587493B2 (ja) | アクショナブルな属性を、個人識別を表すデータに帰する方法及びシステム | |
US20050278292A1 (en) | Spelling variation dictionary generation system | |
CN113282689B (zh) | 基于领域知识图谱的检索方法、装置 | |
EP2705443A1 (en) | Statistical spell checker | |
EP3726401A1 (en) | Encoding textual information for text analysis | |
CN111625621A (zh) | 一种文档检索方法、装置、电子设备及存储介质 | |
CN109614493B (zh) | 一种基于监督词向量的文本缩写识别方法及系统 | |
CN113033204A (zh) | 信息实体抽取方法、装置、电子设备和存储介质 | |
CN105956158A (zh) | 基于海量微博文本和用户信息的网络新词自动提取的方法 | |
CN111090338B (zh) | 医疗文书的hmm输入法模型的训练方法、输入法模型和输入方法 | |
CN112883718B (zh) | 基于汉字音形相似性的拼写纠错方法、装置以及电子设备 | |
CN111144096B (zh) | 基于hmm的拼音补全的训练方法、补全模型、补全方法及补全输入法 | |
JP4900947B2 (ja) | 略語抽出方法、略語抽出装置およびプログラム | |
CN117422074A (zh) | 一种临床信息文本标准化的方法、装置、设备及介质 | |
CN111368547A (zh) | 基于语义解析的实体识别方法、装置、设备和存储介质 | |
CN114818663B (zh) | 一种分级的智能拼音与文字匹配方法 | |
CN116881536A (zh) | 搜索引擎下拉提示词提取方法及系统 | |
CN116522922A (zh) | 一种基于信息熵的领域单文本分词方法与系统 | |
CN111881678B (zh) | 一种基于无监督学习的领域词发现方法 | |
KR101359039B1 (ko) | 복합명사 분석장치 및 복합명사 분석 방법 | |
JP4783563B2 (ja) | インデックス生成プログラム、検索プログラム、インデックス生成方法、検索方法、インデックス生成装置および検索装置 | |
CN112199461A (zh) | 基于块索引结构的文档检索方法、装置、介质和设备 | |
JP4985096B2 (ja) | 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: Training Method, Input Method Model, and Input Method of HMM Input Method Model for Medical Documents Effective date of registration: 20230518 Granted publication date: 20210827 Pledgee: Dalian Lvshunkou Mengyin Village Bank Co.,Ltd. Tieshan Branch Pledgor: SENYINT INTERNATIONAL DIGITAL MEDICAL SYSTEM (DALIAN) Co.,Ltd. Registration number: Y2023980041127 |
|
PE01 | Entry into force of the registration of the contract for pledge of patent right |