CN104699263A - 获取符号串的方法和装置 - Google Patents

获取符号串的方法和装置 Download PDF

Info

Publication number
CN104699263A
CN104699263A CN201510120023.0A CN201510120023A CN104699263A CN 104699263 A CN104699263 A CN 104699263A CN 201510120023 A CN201510120023 A CN 201510120023A CN 104699263 A CN104699263 A CN 104699263A
Authority
CN
China
Prior art keywords
symbol string
symbol
string
input
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510120023.0A
Other languages
English (en)
Other versions
CN104699263B (zh
Inventor
徐金安
呼啸
黄天立
张子兴
闫麟阁
马文嘉
徐乾舜
陈钰枫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN201510120023.0A priority Critical patent/CN104699263B/zh
Publication of CN104699263A publication Critical patent/CN104699263A/zh
Application granted granted Critical
Publication of CN104699263B publication Critical patent/CN104699263B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0237Character input methods using prediction or retrieval techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种获取符号串的方法和装置,属于自然语言处理研究领域。所述方法包括:获取输入的信息中包含的第一符号串;根据第二符号串生成与所述第二符号串具有对称性结构的第三符号串,所述第二符号串为所述第一符号串或为所述第一符号串的子符号串;将所述第二符号串和所述第三符号串组成第四符号串。所述装置包括:第一获取模块,生成模块,和组成模块。本发明中能够根据用户当前输入的第一符号串第三符号串,将第二符号串和第三符号串组成第四符号串,从而自动生成和实现符号库中所没有的表情符号,满足用户的个性化需求。

Description

获取符号串的方法和装置
技术领域
本发明涉及自然语言处理研究领域,特别涉及一种获取符号串的方法和装置。
背景技术
当前,随着计算机网络和通信技术的发展,社交网络应用越来越多,且这些社交网络应用也逐渐渗透到人们的日常工作和生活中。在人们的日常交流活动中,短文本大量出现,且文字中夹杂各种各样有多重符号组成的表情符号,如“(*^·^*)”,(^_^)等。表情符号的大量出现丰富人们日常情感交流活动,为此终端为用户获取表情符号,供用户选择输入。
目前,终端可以按如下方式来获取表情符号,具体为:终端获取用户输入的词语,根据获取的词语,从系统的表情符号库中获取与该词语相对应的至少一个表情符号,显示获取的表情符号给用户;然后用户可以从显示的至少一个表情符号中选择表情符号,并输入选择的表情符号。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
目前获取表情符号依赖于表情符号库中的表情符号,然而表情符号库中的表情符号的数量、种类、多样性和用户个性化方面存在其局限性,难以满足用户日益增加的对表情符号的输入需求。
发明内容
为了解决现有技术中的问题,本发明提供了一种获取符号串的方法和装置。所述技术方案如下:
一方面,本发明提供了一种获取符号串的方法,所述方法包括:
获取输入的信息中包含的第一符号串;
根据第二符号串生成与所述第二符号串具有对称性结构的第三符号串,所述第二符号串为所述第一符号串或为所述第一符号串的子符号串;
将所述第二符号串和所述第三符号串组成第四符号串。
进一步地,所述根据第二符号串生成与所述第二符号串具有对称性结构的第三符号串,包括:
在所述第二符号串中确定一对称中心;
从所述第二符号串中获取位于所述对称中心左边的第五符号串;
参照所述第五符号串,生成与所述第五符号串相同或形状相反的第三符号串。
进一步地,所述对称中心为所述第二符号串的最右边字符或所述最右边字符的结尾处。
进一步地,所述将所述第二符号串和所述第三符号串组成第四符号串之后,还包括:
获取所述第四符号串的对称度,如果所述第四符号串的对称度满足预设条件,则显示所述第四符号串。
进一步地,所述将所述第二符号串和所述第三符号串组成第四符号串之后,还包括:
从预设的符号库中获取所述第四符号串对应的相关信息,所述相关信息至少包括所述第四符号串对应的词语和表情图像。
进一步地,所述从预设的符号库获取所述第四符号串对应的相关信息之后,还包括:
获取词语集合,所述词语集合中包括所述第四符号串对应的词语的同义词和近义词,根据所述词语集合中的每个词语,从所述符号库中获取对应的表情图像。
进一步地,所述获取输入的信息中包含的第一符号串之后,还包括:
从预设符号库中获取包含所述第二符号串的第六符号串,并显示所述第六符号串。
进一步地,所述第二符号串、所述第三符号串和所述第四符号串都是由字符或表情图像组成的符号串。
另一方面,本发明提供了一种获取符号串的装置,所述装置包括:
第一获取模块,用于获取输入的信息中包含的第一符号串;
生成模块,用于根据第二符号串生成与所述第二符号串具有对称性结构的第三符号串,所述第二符号串为所述第一符号串或为所述第一符号串的子符号串;
组成模块,用于将所述第二符号串和所述第三符号串组成第四符号串。
进一步地,所述生成模块包括:
确定单元,用于在所述第二符号串中确定一对称中心;
获取单元,用于从所述第二符号串中获取位于所述对称中心左边的第五符号串;
生成单元,用于参照所述第五符号串,生成与所述第五符号串相同或形状相反的第三符号串。
本发明实施例提供的技术方案带来的有益效果是:
获取输入的信息中包含的第一符号串;根据第二符号串生成与第二符号串具有对称性结构的第三符号串,第二符号串为第一符号串或为第一符号串的子符号串;将第二符号串和第三符号串组成第四符号串。本发明能够根据用户输入的第一符号串,生成第四符号串,从而能够自动生成和实现符号库中所没有的表情符号,满足用户的个性化需求。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1提供的获取符号串的方法流程图;
图2-1是本发明实施例2提供的获取符号串的方法流程图;
图2-2是本发明实施例2提供的生成第四符号串的界面示意图;
图3是本发明实施例3提供的获取符号串的装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例1
本发明实施例提供了一种获取符号串的方法,参见图1,其中,该方法包括:
步骤101:获取输入的信息中包含的第一符号串;
步骤102:根据第二符号串生成与第二符号串具有对称性结构的第三符号串,第二符号串为第一符号串或为第一符号串的子符号串;
步骤103:将第二符号串和第三符号串组成第四符号串。
进一步地,根据第二符号串生成与第二符号串具有对称性结构的第三符号串,包括:
在第二符号串中确定一对称中心;
从第二符号串中获取位于对称中心左边的第五符号串;
参照第五符号串,生成与第五符号串相同或形状相反的第三符号串。
进一步地,对称中心为第二符号串的最右边字符或最右边字符的结尾处。
进一步地,将第二符号串和第三符号串组成第四符号串之后,还包括:
获取第四符号串的对称度,如果第四符号串的对称度满足预设条件,则显示第四符号串。
进一步地,将第二符号串和第三符号串组成第四符号串之后,还包括:
从预设的符号库中获取第四符号串对应的相关信息,相关信息至少包括第四符号串对应的词语和表情图像。
进一步地,从预设的符号库获取第四符号串对应的相关信息之后,还包括:
获取词语集合,词语集合中包括第四符号串对应的词语的同义词和近义词,根据词语集合中的每个词语,从符号库中获取对应的表情图像。
进一步地,获取输入的信息中包含的第一符号串之后,还包括:
从预设符号库中获取包含第二符号串的第六符号串,并显示第六符号串。
进一步地,第二符号串、第三符号串和第四符号串都是由字符或表情图像组成的符号串。
在本发明实施例中,获取输入的信息中包含的第一符号串;根据第二符号串生成与第二符号串具有对称性结构的第三符号串,第二符号串为第一符号串或为第一符号串的子符号串;将第二符号串和第三符号串组成第四符号串。本发明能够根据用户输入的第一符号串,生成第四符号串,从而能够自动生成和实现符号库中所没有的表情符号,满足用户的个性化需求。
实施例2
本发明实施例提供了一种获取符号串的方法,该方法的执行主体为终端,终端可以为移动终端、固定终端或者服务器等;该获取符号串的方法可以通过软件、硬件或者两者的结合实现成为终端的部分或者全部。
参见图2-1,其中,该方法包括:
步骤201:获取输入的信息中包含的第一符号串;
用户输入信息给终端,终端获取用户输入的信息,并检测该信息中是否包含符号串,如果包含,获取信息中包含的符号串,为了便于说明,将获取的符号串作为第一符号串。
用户可以通过键盘、鼠标、触屏、手写、或光学字符识别输入、或者以文件的形式或其他形式输入信息给终端;用户还可以通过语音输入方式输入信息给终端;通过语音输入方式输入信息给终端时,终端接收用户输入的语音信息,通过语音识别软件将该语音信息转换为文字信息。
其中,符号串可以为由字母、数字、标点、拼音、假名、字形、种类、个数或长度、以及2个或2个以上的符号组成的具有特定意义的子串及其文字、语义、图像、语音、情感类别等属性特征中的一种或一种以上。用户输入的信息可以为任何一种自然语言,如英语、汉语、日语、法语等,也可以使多国语言混合输入方式,此时终端可以采用UTF(Unicode Transformation Format,Unicode转换格式)编码,该UTF编码是一种能够存储多国语言的编码方式。
其中,获取输入的信息中包含的第一符号串的步骤可以通过以下步骤(1)和(2)实现,包括:
(1):对输入的信息进行分词,得到输入的信息包括的分词,输入的信息包括的各分词的位置顺序与各分词在输入的信息中的位置顺序一致;
其中,对输入的信息进行分词时,根据输入的信息的语种,获取该语种对应的分词方法;根据获取的分词方法对输入的信息进行分词,得到输入的信息包括的分词。例如,当输入的输入的信息为英语时,可简单地以空格输入的输入的信息进行分词;当输入的输入的信息为汉语时,可以使用汉语分词工具,如中科院计算所的分词工具ICTCLAS(http://ictclas.nlpir.org/)、清华大学的分词工具THULAC(http://nlp.csai.tsinghua.edu.cn/thulac/)、或者斯坦福大学的分词器等;当输入的输入的信息是日语时,可以使用日语分词工具,如Chasen、(http://chasen.naist.jp/hiki/ChaSen/)、Mecab(http://code.google.com/p/mecab/)或JUMAN(http://nlp.ist.i.kyoto-u.ac.jp/EN/index.php?JUMAN)等日语形态素解析工具进行分词处理。本实施例对输入输入的信息的语种及分词方式不作具体限定。
例如,以输入的输入的信息为汉语,且以文件形式的输入为例进行说明;如用户输入的输入的信息为“这件事情让她(⊙o⊙),非常(*^﹏^*)!”。
利用清华大学的分词工具THULAC进行分词处理,得到分词结果;当分词结果不带词性标注信息时,分词结果为如下分词结果1所示;当分词结构带词性标注信息时,分词结果为如下分词结果2所示。
分词结果1:这件事情让她(⊙o⊙),非常(*^﹏^*)!
分词结果2:这/r件/q事情/n让/p她/r(/w⊙/w o/x⊙/w)/w,/w非常/d(/w*/w^/w﹏/x^/w*/w)/w!/w。
其中,清华大学分词工具THULAC的词性标注集合信息如表1所示:
表1
符号 词性 符号 词性 符号 词性
n 名词 s 处所词 r 代词
np 人名 v 动词 c 连词
ns 地名 vm 能愿动词 p 介词
ni 机构名 vd 趋向动词 u 助词
nz 其它专名 a 形容词 y 语气助词
m 数词 d 副词 e 叹词
q 量词 h 前接成分 o 拟声词
mq 数量词 k 后接成分 g 语素
t 时间词 i 习语 w 标点
f 方位词 j 简称 x 其它
其中,也可以不使用分词工具对输入的信息进行分词,仅仅根据文字及符号的字节数插入空格对输入的信息进行分词,得到分词结果为如下分词结果3所示:
分词结果3:这件事情让她(⊙o⊙),非常(*^﹏^*)!。
(2):根据预设的正则表达式,从输入的信息包括的分词中提取与正则表达式匹配的符号串。
预设的正则表达式可以根据需要进行设置并更改,在本发明实施例中对预设的正则表达式不作具体限定。
对于分词结果1,例如预设的正则表达式为“\(\“.”\)\”,将分词结果1中的分词依次与字符“(”和字符“)”进行匹配,如将“这”“件”“事情”“让”“她”“(”“⊙”“o”“⊙”“)”“,”“非常”“(”“*”“^”“﹏”“^”“*”“)”“!”,依次与字符“(”和字符“)进行匹配,由于分词结果1中的“(”与正则表达式中的“(”匹配上了,分词结果1中的“)”与正则表达式中的“)”匹配上了,则从分词结果1中获取包含字符“(”和“)”的字符串为“(⊙o⊙)”以及“(*^﹏^*),从而提取与正则表达式匹配的符号串为“(⊙o⊙)”和“(*^﹏^*)”。
对于分词结果2,可以使用分词结果的词性标注信息,如“w”所表示的标点信息,作为单词或字的属性,制定仅包括词性的正则表达式,如“\w\“.”\w\”将分词结果2中的分词依次与字符“w”和“w”进行匹配,如将“这”“/r”“件”“/q”“事情”“/n”“让”“/p”“她”“/r”“(”“/w”“⊙”“/w”“o”“/x”“⊙”“/w”“)”“/w”“,”“/w”“非常”“/d”“(”“/w”“*”“/w”“^”“/w”“﹏”“/x”“^”“/w”“*”“/w”“)”“/w”“!”“/w”依次与字符“/w”进行匹配,由于分词结果2中的“/w”与正则表达式匹配上了,则从分词结果2中获取包含“/w”的字符串为(/w⊙/w o/x⊙/w)/w和(/w*/w^/w﹏/x^/w*/w)/w,将词性符号去除,得到与正则表达式匹配的符号串“(⊙o⊙)”和“(*^﹏^*)”;同样,本发明也可以制定包括词性和字符的正则表达式,如“\(/w\“.”\)/w\”,通过以上方法进行依次匹配,从分词结果2中提取与正则表达式匹配的字符串“(⊙o⊙)”和“(*^﹏^*)”。
对于分词结果3,例如正则表达式为“\(\“.”\)\”,通过以上方法进行依次匹配,从分词结果3中提取与正则表达式匹配的符号串为“(⊙o⊙)”和“(*^﹏^*)”;提取的符号串中包含了空格符。
其中,当输入的文本中的括号有嵌套时,可在指定嵌套深度之后,生成的正则表达式可以匹配最大深度为制定的嵌套深度的嵌套括号,如Perl语言规则:
$regex='\('.'(?:[^()]|\('x$depth.'[^()]*'.'\))*'x$depth.'\)';
其中,$depth为指定嵌套深度的变量名,$regex表示用于存储所生成的正则表达式规则的变量名。
其中,如果不使用分词工具对文本信息进行分词时,可以直接使用C语音、JAVA、Perl或Python等计算机语音,人工制定正则表达式如\(\“.”\)\”,获取该文本信息包括的符号串“(⊙o⊙)”和“(*^﹏^*)”。
其中,本发明还可以采用诸如搜狗拼音输入法或者谷歌输入法等汉语文字输入软件,逐字或逐词自左向右输入信息所包含的内容时,可以使用一个符号表,根据符号的模式匹配方法,获取第一符号串。
其中,符号表可以如下2所示:
表2
编号 符号
0 (
1 )
2
3 ^
4 *
5
6
7
8 o
9 &
n *
例如,根据表2所示的符号表,当用户输入的信息为“这件事情让她(”时,用户输入的“(”可以和表2中的第0号的“(”相匹配,此时,获取第一符号串为“(”。同样,当用户输入的信息为“这件事情让她(⊙”时,用户输入⊙和表2中的第7号的“⊙”相匹配,此时获取第一符号串为“(⊙”;同样,随着用户的输入,依次可以获得第一符号串为““(⊙o”,“(⊙o⊙”,“(⊙o⊙)”;以及:“(”,“(*”,“(*^”,“(*^﹏”,“(*^﹏^”,“(*^﹏^*”和“(*^﹏^*)”。进一步地,终端具有实时保存的功能,终端将用户输入信息存储在终端的存储介质中。
步骤202:根据第二符号串生成与第二符号串具有对称性结构的第三符号串,第二符号串为第一符号串或为第一符号串的子符号串;
其中,步骤202可以通过以下步骤(1)至(3)实现,包括:
(1):在第二符号串中确定一对称中心;
从第一符号串中找出第二符号串,第二符号串可以为第一符号串或者为第一符号串的子符号串,在第二符号串中确定一对称中心,该对称中心为第二符号串的最右边字符或最右边字符的结尾处。
例如,第一符号串为“(⊙o”,从第一符号串中找出第二符号串为“(⊙o”、“(⊙”或者“⊙o”等。当第二符号串为“(⊙o”时,在“(⊙o”中确定一对称中心为字符“o”的位置或者字符“o”的结尾处;当第二符号串为“(⊙”时,在“(⊙”中确定一对称中心为字符“⊙”的位置或者字符“⊙”的结尾处;当第二符号串为“⊙o”时,在“⊙o”中确定一对称中心为字符“o”的位置或者字符“o”的结尾处。
(2):从第二符号串中获取位于对称中心左边的第五符号串;
例如,从第二符号串“(⊙o”中获取位于字符“o”左边的第五符号串“(⊙”,或者,从第二符号串“(⊙o”中获取位于字符“o”的结尾处左边的第五符号串“(⊙o”。
(3):参照第五符号串,生成与第五符号串相同或形状相反的第三符号串。
例如,参照第五符号串“(⊙”,生成与“(⊙”相同的第三符号串“(⊙”,或者参照第五符号串“(⊙”,生成与“(⊙”形状相反的第三符号串“⊙)”。
再如,参照第五符号串“(⊙o”,生成与“(⊙o”相同的第三符号串“(⊙o”,或者参照第五符号串“(⊙o”,生成与“(⊙o”形状相反的第三符号串“o⊙)”。
进一步地,从预设符号库中获取包含第二符号串的第六符号串,并显示第六符号串。
根据第二符号串,从预设符号库中查找是否存在包含第二符号串的符号串,如果有,则从预设符号库中获取包含第二符号串的符号串,为了便于描述,将获取的符号串作为第六符号串,并显示第六符号串。此时,用户可以从第六符号串中选择符号串。
在本发明实施例中终端需要事先存储一个预设符号库,该预设符号库用于存储和调用用户所使用的终端的文字和符号输入软件所自带或者用户下载的各种符号串的数据库;该预设符号库可在用户输入第一符号串时,同时为用户提供各种既有符号串的查询、各种符号串图片的转换和调用等。
其中,预设符号库的内容可以包括:符号库名称、符号串数据总长度、符号串个数、符号串索引、符号串长度、符号串名称、符号串大小、符号串格式、符号串内容、图片、文字形式和显示位置等,供用户获取符号串时查询使用。
步骤203:将第二符号串和第三符号串组成第四符号串;
其中,第二符号串、第三符号串和第四符号串都是由字符或表情图像组成的符号串。
例如,第二符号串“(⊙o”和第三符号串“⊙)”或者“o⊙)”组成第四符号串“(⊙o⊙)”或者“(⊙o o⊙)”。
步骤204:获取第四符号串的对称度,如果第四符号串的对称度满足预设条件,则显示第四符号串;
其中,步骤204可以通过以下步骤(1)至(3)实现,包括:
(1):从第四符号串中获取具有对称性的符号对;
其中,步骤(1)可以通过以下步骤(1-1)至(1-3)实现,包括:
(1):确定第四符号串的中心位置;
获取第四符号串包含的符号的个数L,如果L为奇数,则(L+1)/2位置的符号即为第四符号串的中心位置;如果L为偶数,则L/2和L/2+1之间的位置为第四符号串的中心位置。
例如,以第四符号串为“(⊙o⊙)”为例进行说明,第四符号串“(⊙o⊙)”包含的符号的个数为5,则字符“o”的位置为第四符号串“(⊙o⊙)”的中心位置。
(1-2):根据该中心位置,从第四符号串中获取位置对称的两个字符;
例如,根据该中心位置“o”,从该符号串“(⊙o⊙)”中获取位置对称的两个字符分别为“⊙”和“⊙”,“(”和“)”。
(1-3):如果这两个字符具有对称性,则将该两个字符组成具有对称性的符号对。
其中,确定两个字符是否具有对称性的步骤为:
确定该两个字符是否相同或形状反向,如果两个字符相同或形状反向,则判断出两个字符具有对称性。否则,则确定该两个字符不具有对称性。
例如,由于“⊙”和“⊙”相同,则“⊙”和“⊙”这两个字符具有对称性;由于“(”和“)”形状相反,则“(”和“)”这两个字符具有对称性。则“⊙”和“⊙”组成具有对称性的符号对,“(”和“)”组成具有对称性的符号对。也即符号串“(⊙o⊙)”中包含两对具有对称性的符号对。
(2):根据获取的符号对计算第四符号串的对称度;
获取第四符号串包含的符号的个数L,根据获取的符号对的个数K和第四符号串包含的符号的个数L,计算第四符号串的对称度Sym。
其中,当L为奇数时,Sym=2*K/(L-1);当L为偶数时,Sym=2*K/L。
由于符号串至少包含两个符号,则L一般大于或者等于2。
例如,符号串“(⊙o⊙)”中包含的符号个数L=5,获取的符号对的个数K为2,则Sym=2*2/(5-1)=1。
其中,符号串的对称度的取值范围为[0,1]。
其中,计算符号串的对称度时,可以根据具体的需要,对符号串的对称性构成要素,以及符号串的对称性进行定义,具体举例如下:
定义1:单个符号2次以上重复出现所形成的符号串,定义为具有对称性;
定义符号表Σ,该符号表可包括所有的标点符号集合、特殊符号集合、字母的大写集合及小写集合、数字集合、拼音集合、假名集合、希腊字母集合等,本文不作特定的限制,用户可以根据自己的需要自定义符号表集合。
存在任意字符X,X∈Σ,当符号串S=Xn(n>1)时,定义符号串S具有对称性;
定义2:各种形状具有对称性的符号对,如各种括号和反括号,定义其对称性构成要素;
如可定义“【”和“】”、“{”和“}”、“(”和“)”属于对称性构成要素;
定义3:当2个以上的符号按照特定的顺序连续重复出现2次以上的情况下,定义符号串具有对称性;
定义4:由m个符号构成的符号串,m为奇数,以符号串的中间元素(m+1)/2为起始点加窗[-n,n],(1≤n≤(m-1)/2),其中,-n表示中间元素的左侧第n个字或词,n表示中间元素的右侧的第n个字或词。当-n和n所表示的符号相同
或者形状反向(如左括号和右括号)时,定义二者所代表的元素,具有对称性;
定义5:由p个符号构成的符号串,p为偶数,从符号串的中间位置为的两个元素为起始窗,分别加窗[-n,n],则窗的宽度为n时,则位置为-n和n的所代表的符号的位置分别为:且1≤n≤p/2,当-n和n所表示的符号完全相同或者形状反向(如左括号和右括号)时,定义二者所代表的元素,具有对称性;
(3):如果第四符号串的对称度满足预设条件,则显示第四符号串;
确定第四符号串的对称度是否满足预设条件,如果第四符号串的对称度满足预设条件,则确定第四符号串为整体符号串,显示第四符号串。
预设条件为对称度大于预设阈值;如果第四符号串的对称度大于预设阈值,则确定第四符号串的对称度满足预设条件;否则,则确定第四符号串不满足预设条件。
预设阈值可以根据需要进行设置并更改,在本发明实施例中,对预设阈值不作具体限定。
例如预设阈值为0.8,则由于第四符号串“(⊙o⊙)”的对称度为1,则第四符号串“(⊙o⊙)”的对称度都满足预设条件,则确定第四符号串“(⊙o⊙)”为整体符号串,显示第四符号串“(⊙o⊙)”。
步骤205:从预设的符号库中获取第四符号串对应的相关信息,相关信息至少包括第四符号串对应的词语和表情图像;
其中,预设的符号库中包括符号串和相关信息的对应关系,根据第四符号串,从预设的符号库中获取第四符号串对应的相关信息,相关信息至少包括第四符号串对应的词语和表情图像,还可以包括第四符号串的长度、名称、大小、格式、内容和/或位置等。从该相关信息中提取第四符号串对应的词语。
例如,符号库如下表3所示:
表3
例如,根据第四符号串“(⊙o⊙)”,从表3中获取第四符号串“(⊙o⊙)”的相关信息为索引号为1,长度为100bytes,名称为/jy,表情大小为16*16,格式为bmp,词语为惊讶,位置为1,图像ID为X…X001等。从获取的相关信息提取第四符号串“(⊙o⊙)”对应的词语为“惊讶”。
步骤206:获取词语集合,词语集合中包括第四符号串对应的词语的同义词和近义词,根据词语集合中的每个词语,从符号库中获取对应的表情图像;
根据第四符号串对应的词语,从词语集合中获取第四符号串对应的词语的同义词和近义词,根据获取的同义词和近义词,从符号库中获取包含该同义词和近义词的对应关系,从获取的对应关系中提取该同义词和近义词的索引号,根据该索引号从符号库中获取索引号对应的表情图像。
例如,根据“惊讶”获取“惊讶”的同义词或近义词为“惊讶”“吃惊”“讶异”“惊奇”“诧异”惊愕“惊诧”“骇怪”“惊异”等,根据“惊讶”“吃惊”“讶异”“惊奇”“诧异”惊愕“惊诧”“骇怪”“惊异”,分别获取“惊讶”“吃惊”“讶异”“惊奇”“诧异”惊愕“惊诧”“骇怪”“惊异”对应的表情图像。
例如,符号串的索引号和表情图像的对应关系,如下表4所示:
表4
索引号 图标数据 表情图像
X…X01 010011000111……0100100 惊讶
X…X02 010011000111……0100101 高兴
X…X03 010011000111……0100110 偷笑
X…X04 010011000111……0100111
例如,根据“惊讶”的索引号“X…X01”,从表4中获取“惊讶”对应的表情图像。
例如,参见图2-2所示,以第二符号串的最右边字符为对称中心称为对称模式1,以最右边字符的结尾处为对称中心称为对称模式2;当用户输入的第一符号串为“/wx”时,对应的表情符号为“高兴表情符号”,对称模式1对应的第四表情符号为“高兴表情符号+高兴表情符号”,对称模式2对应的第四表情符号为“高兴表情符号+高兴表情符号”;当用户输入的第一符号串为“/wx/tx”时,对应的表情符号为“高兴表情符号+偷笑表情符号”,对应模式1对应的第四表情符号为“高兴表情符号+偷笑表情符号+高兴表情符号”,对称模式2对应的第四表情符号为“高兴表情符号+偷笑表情符号+偷笑表情符号+高兴表情符号”;当用户输入的第一符号串为“/wx/tx/qiang”时,对应的表情符号为“高兴表情符号+偷笑表情符号+强表情符号”,对称模式1对应的第四符号串为“高兴表情符号+偷笑表情符号+强表情符号+偷笑表情符号+高兴表情符号”,对称模式2对应的第四符号串为“高兴表情符号+偷笑表情符号+强表情符号+强表情符号+偷笑表情符号+高兴表情符号”。
进一步地,获取第四符号串时,显示第四符号串给用户,用户可以从第四符号串中选择一个或多个符号串,获取用户选择的符号串。
进一步地,获取用户选择和使用过的符号串,将获取的符号串添加到用户履历符号串库中,当用户获取符号串时,显示用户履历符号串库给用户,从而为用户提供个性化符号串生成和输入功能。也可以获取用户履历符号串库中包括的符号串的使用频率或者概率信息,获取频率或者概率信息满足预设条件的符号串,当用户获取符号串时,显示获取的符号串给用户。
在本发明实施例中,获取输入的信息中包含的第一符号串;根据第二符号串生成与第二符号串具有对称性结构的第三符号串,第二符号串为第一符号串或为第一符号串的子符号串;将第二符号串和第三符号串组成第四符号串。本发明能够根据用户输入的第一符号串,生成第四符号串,从而能够自动生成和实现符号库中所没有的表情符号,满足用户的个性化需求。
实施例3
本发明实施例提供了一种获取符号串的装置,参见图3,其中,该装置包括:
第一获取模块301,用于获取输入的信息中包含的第一符号串;
生成模块302,用于根据第二符号串生成与第二符号串具有对称性结构的第三符号串,第二符号串为第一符号串或为第一符号串的子符号串;
组成模块303,用于将第二符号串和第三符号串组成第四符号串。
进一步地,生成模块302包括:
确定单元,用于在第二符号串中确定一对称中心;
获取单元,用于从第二符号串中获取位于对称中心左边的第五符号串;
生成单元,用于参照第五符号串,生成与第五符号串相同或形状相反的第三符号串。
进一步地,对称中心为第二符号串的最右边字符或最右边字符的结尾处。
进一步地,装置还包括:
第二获取模块,用于获取第四符号串的对称度,如果第四符号串的对称度满足预设条件,则显示第四符号串。
进一步地,装置还包括:
第三获取模块,用于从预设的符号库中获取第四符号串对应的相关信息,相关信息至少包括第四符号串对应的词语和表情图像。
进一步地,装置还包括:
第四获取模块,用于获取词语集合,词语集合中包括第四符号串对应的词语的同义词和近义词,根据词语集合中的每个词语,从符号库中获取对应的表情图像。
进一步地,装置还包括:
第五获取模块,用于从预设符号库中获取包含第二符号串的第六符号串,并显示第六符号串。
进一步地,第二符号串、第三符号串和第四符号串都是由字符或表情图像组成的符号串。
在本发明实施例中,获取输入的信息中包含的第一符号串;根据第二符号串生成与第二符号串具有对称性结构的第三符号串,第二符号串为第一符号串或为第一符号串的子符号串;将第二符号串和第三符号串组成第四符号串。本发明能够根据用户输入的第一符号串,生成第四符号串,从而能够自动生成和实现符号库中所没有的表情符号,满足用户的个性化需求。
需要说明的是:上述实施例中提供的获取符号串的方法在获取符号串时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将获取符号串的装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的获取符号串的装置与获取符号串的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种获取符号串的方法,其特征在于,所述方法包括:
获取输入的信息中包含的第一符号串;
根据第二符号串生成与所述第二符号串具有对称性结构的第三符号串,所述第二符号串为所述第一符号串或为所述第一符号串的子符号串;
将所述第二符号串和所述第三符号串组成第四符号串。
2.如权利要求1所述的方法,其特征在于,所述根据第二符号串生成与所述第二符号串具有对称性结构的第三符号串,包括:
在所述第二符号串中确定一对称中心;
从所述第二符号串中获取位于所述对称中心左边的第五符号串;
参照所述第五符号串,生成与所述第五符号串相同或形状相反的第三符号串。
3.如权利要求2所述的方法,其特征在于,所述对称中心为所述第二符号串的最右边字符或所述最右边字符的结尾处。
4.如权利要求1所述的方法,其特征在于,所述将所述第二符号串和所述第三符号串组成第四符号串之后,还包括:
获取所述第四符号串的对称度,如果所述第四符号串的对称度满足预设条件,则显示所述第四符号串。
5.如权利要求1所述的方法,其特征在于,所述将所述第二符号串和所述第三符号串组成第四符号串之后,还包括:
从预设的符号库中获取所述第四符号串对应的相关信息,所述相关信息至少包括所述第四符号串对应的词语和表情图像。
6.如权利要求5所述的方法,其特征在于,所述从预设的符号库获取所述第四符号串对应的相关信息之后,还包括:
获取词语集合,所述词语集合中包括所述第四符号串对应的词语的同义词和近义词,根据所述词语集合中的每个词语,从所述符号库中获取对应的表情图像。
7.如权利要求1所述的方法,其特征在于,所述获取输入的信息中包含的第一符号串之后,还包括:
从预设符号库中获取包含所述第二符号串的第六符号串,并显示所述第六符号串。
8.如权利要求1至7任一项权利要求所述的方法,其特征在于,所述第二符号串、所述第三符号串和所述第四符号串都是由字符或表情图像组成的符号串。
9.一种获取符号串的装置,其特征在于,所述装置包括:
第一获取模块,用于获取输入的信息中包含的第一符号串;
生成模块,用于根据第二符号串生成与所述第二符号串具有对称性结构的第三符号串,所述第二符号串为所述第一符号串或为所述第一符号串的子符号串;
组成模块,用于将所述第二符号串和所述第三符号串组成第四符号串。
10.如权利要求9所述的装置,其特征在于,所述生成模块包括:
确定单元,用于在所述第二符号串中确定一对称中心;
获取单元,用于从所述第二符号串中获取位于所述对称中心左边的第五符号串;
生成单元,用于参照所述第五符号串,生成与所述第五符号串相同或形状相反的第三符号串。
CN201510120023.0A 2015-03-18 2015-03-18 获取符号串的方法和装置 Active CN104699263B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510120023.0A CN104699263B (zh) 2015-03-18 2015-03-18 获取符号串的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510120023.0A CN104699263B (zh) 2015-03-18 2015-03-18 获取符号串的方法和装置

Publications (2)

Publication Number Publication Date
CN104699263A true CN104699263A (zh) 2015-06-10
CN104699263B CN104699263B (zh) 2018-04-03

Family

ID=53346473

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510120023.0A Active CN104699263B (zh) 2015-03-18 2015-03-18 获取符号串的方法和装置

Country Status (1)

Country Link
CN (1) CN104699263B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704374A (zh) * 2016-08-08 2018-02-16 北京京东尚科信息技术有限公司 测试方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030045223A (ko) * 2001-12-01 2003-06-11 최규동 캐릭터 이미지 생성방법, 출력방법 및 출력시스템
CN103064826A (zh) * 2012-12-31 2013-04-24 百度在线网络技术(北京)有限公司 一种用于表情输入的方法、装置与系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030045223A (ko) * 2001-12-01 2003-06-11 최규동 캐릭터 이미지 생성방법, 출력방법 및 출력시스템
CN103064826A (zh) * 2012-12-31 2013-04-24 百度在线网络技术(北京)有限公司 一种用于表情输入的方法、装置与系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴培昊等: ""融合格框架的基于语块的依存树到串日汉统计机器翻译模型"", 《中文信息学报》 *
陈士超等: ""面向科技领域的术语自动抽取模型"", 《系统工程理论与实践》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704374A (zh) * 2016-08-08 2018-02-16 北京京东尚科信息技术有限公司 测试方法和装置
CN107704374B (zh) * 2016-08-08 2021-05-25 北京京东尚科信息技术有限公司 测试方法和装置

Also Published As

Publication number Publication date
CN104699263B (zh) 2018-04-03

Similar Documents

Publication Publication Date Title
Liu et al. A survey of CRF algorithm based knowledge extraction of elementary mathematics in Chinese
US20210397780A1 (en) Method, device, and storage medium for correcting error in text
KR101435265B1 (ko) 언어 변환에 있어서 다중 리딩 모호성 해결을 위한 방법
CN112507101B (zh) 一种建立预训练语言模型的方法和装置
US20030233225A1 (en) Natural language sentence parser
JP2022006173A (ja) 知識事前訓練モデルの訓練方法、装置及び電子機器
CN110704608A (zh) 文本主题生成方法、装置和计算机设备
Lee et al. Effective integration of morphological analysis and named entity recognition based on a recurrent neural network
Sodhar et al. Identification of issues and challenges in romanized Sindhi text
CN113918031A (zh) 使用子字符信息进行中文标点恢复的系统和方法
Haq et al. Urdu named entity recognition system using deep learning approaches
CN104699662B (zh) 识别整体符号串的方法和装置
CN112765330A (zh) 文本数据处理方法、装置、电子设备和存储介质
CN117290515A (zh) 文本标注模型的训练方法、文生图方法及装置
CN111680146A (zh) 确定新词的方法、装置、电子设备及可读存储介质
CN104699263B (zh) 获取符号串的方法和装置
CN104699675A (zh) 翻译信息的方法和装置
JP7064871B2 (ja) テキストマイニング装置およびテキストマイニング方法
Lu et al. Language model for Mongolian polyphone proofreading
Zhang et al. Icon metaphor design based on ideographic Chinese character-creation
Linn et al. Part of speech tagging for kayah language using hidden markov model
Joshi et al. Input Scheme for Hindi Using Phonetic Mapping
JP2011248538A (ja) 記号入力支援装置、記号入力支援方法、及びプログラム
Yao et al. SeeIME: a Chinese mobile IME for Chinese learners based on hybrid Pinyin code
JP2017219992A (ja) 翻訳装置及び翻訳システム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant