CN114444480A - 词典编辑装置、词典编辑方法以及程序 - Google Patents

词典编辑装置、词典编辑方法以及程序 Download PDF

Info

Publication number
CN114444480A
CN114444480A CN202111008046.4A CN202111008046A CN114444480A CN 114444480 A CN114444480 A CN 114444480A CN 202111008046 A CN202111008046 A CN 202111008046A CN 114444480 A CN114444480 A CN 114444480A
Authority
CN
China
Prior art keywords
word
correction
pronunciation
correction candidate
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111008046.4A
Other languages
English (en)
Inventor
岩田宪治
笼岛岳彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of CN114444480A publication Critical patent/CN114444480A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/12Detection or correction of errors, e.g. by rescanning the pattern
    • G06V30/127Detection or correction of errors, e.g. by rescanning the pattern with the intervention of an operator
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明的实施方式涉及词典编辑装置、词典编辑方法以及程序。提供能够削减单词抽取结果以及读音赋予结果的确认成本的技术。一个实施方式的词典编辑装置具备单词抽取部、读音赋予部以及修正候补确定部。单词抽取部从文本数据抽取单词。读音赋予部对所述单词赋予读音。修正候补确定部在对包含抽取出的所述单词和所赋予的所述读音的单词信息进行了修正的情况下,确定修正候补,该修正候补为应与所述修正关联地修正的单词或者读音。

Description

词典编辑装置、词典编辑方法以及程序
本申请以日本专利申请2020-184918(申请日:11/5/2020)为基础,从该申请享有优先权。本申请通过参照该申请而包含该申请的全部内容。
技术领域
本发明的实施方式涉及词典编辑装置、词典编辑方法以及程序。
背景技术
为了提高声音识别的精度,重要的是将在实际利用声音识别的场景中经常发话的专业术语以及对于声音识别引擎而言的未知词预先登记于声音识别引擎所参照的词典。然而,难以通过人工进行专业术语、未知词的列出以及针对它们的读音赋予。
相对于此,只要准备读入与利用声音识别的场景关联的文本数据(例如如果想要识别大学的上课的声音,则是其讲义资料)、从文本数据自动地抽取专业术语以及未知词、并对抽取出的专业术语以及未知词自动地赋予读音的功能,则向词典登记专业术语以及未知词就将变容易。然而,自动地抽取出的专业术语以及未知词、自动地赋予的读音有可能发生错误。因此,需要通过人工进行针对自动抽取出的专业术语以及未知词及自动赋予的读音的最终确认。在自动抽取出的单词的数量多的情况下,难以对全部的自动抽取出的单词以及自动赋予的读音进行确认。
发明内容
如上所述,在通过人工确认自动抽取出的专业术语以及未知词是否正确、以及对这些词自动赋予的读音是否正确时,需要花费成本。
本发明要解决的课题在于提供能够削减单词抽取结果以及读音赋予结果的确认成本的技术。
一个实施方式的词典编辑装置具备单词抽取部、读音赋予部以及修正候补确定部。单词抽取部从文本数据抽取单词。读音赋予部对所述单词赋予读音。修正候补确定部在对包含抽取出的所述单词和所赋予的所述读音的单词信息进行了修正的情况下,确定修正候补,该的修正候补为应与所述修正关联地修正的单词或者读音。
根据上述结构的词典编辑装置,能够削减单词抽取结果以及读音赋予结果的确认成本。
附图说明
图1是示出实施方式的词典编辑装置的框图。
图2是示出图1的词典编辑装置的动作例的流程图。
图3是示出图1所示的显示部显示有单词列表的画面的一个例子的图。
图4是说明实施方式的强调显示方法的图。
图5是说明实施方式的强调显示方法的图。
图6是说明实施方式的强调显示方法的图。
图7是说明实施方式的强调显示方法的图。
图8是示出实施方式的信息处理装置的硬件结构的框图。
符号说明
100:词典编辑装置;101:单词抽取部;102:读音赋予部;103:单词列表;104:修正受理部;105:修正候补确定部;106:显示部;801:CPU;802:RAM;803:程序存储器;804:存储设备;805:显示装置;806:输入装置;807:通信装置;808:总线。
具体实施方式
以下,参照附图,说明实施方式。实施方式提供用于支援对声音识别等用途所使用的词典追加单词时的用户作业的技术。在以下的说明中,设想声音识别所使用的词典(以后,称为声音识别词典)。声音识别词典可以是将单词、单词的读音以及与读音对应的音素关联起来的信息。
图1概略地示出了一个实施方式的词典编辑装置100。如图1所示,词典编辑装置100具备单词抽取部101、读音赋予部102、单词列表103、修正受理部104、修正候补确定部105以及显示部106。
单词抽取部101接收文本数据,从文本数据抽取作为要对声音识别词典追加的候补的单词,将抽取出的单词送出到读音赋予部102。文本数据例如是与能够利用声音识别的场景关联的文本数据。单词能够由1个以上的词素构成。单词抽取部101对文本数据进行词素解析,根据词素解析的结果,抽取作为要对声音识别词典追加的候补的单词。从单词抽取部101输出的单词可以是如名词、动词、形容词、副词那样的具有实质性的含义的单词。从单词抽取部101输出的单词可以包括复合词(例如将多个名词进行连结而成的复合名词)。
专业术语以及/或者未知词可以是要对声音识别词典追加的候补。未知词是未存在于声音识别词典的单词。在本实施方式中,单词抽取部101从文本数据抽取专业术语以及未知词。作为抽取专业术语的方法,例如能够使用如下方法等:对文本数据进行词素解析而得到多个单词,抽取文本数据内的出现频度多(例如超过阈值)的单词来作为专业术语的方法;对文本数据进行词素解析而得到多个单词,抽取在与单词抽取部101接收到的文本数据的领域不同的领域的文本数据中不易出现的单词来作为专业术语的方法。作为抽取未知词的方法,例如能够使用如下方法等:对文本数据进行词素解析而得到多个单词,抽取声音识别词典所未包含的单词。这些方法可以组合使用。例如,单词抽取部101可以从文本数据抽取专业术语,并对抽取出的专业术语中的声音识别词典所未包含的单词进行抽取。此外,也可以使用上述方法以外的现有的方法。
读音赋予部102对由单词抽取部101抽取出的单词赋予读音,将包含抽取出的单词和对这些单词赋予的读音的单词信息登记于单词列表103。
作为对单词赋予读音的方法,例如能够使用如下方法:使用带读音的单词词典的方法、利用大量的数据预先学习针对各字符的读音,使用学习结果对单词赋予读音的统计性的方法。在使用带读音的单词词典的方法中,在单词已登记于单词词典的情况下,对该单词赋予与该单词关联起来的读音,在单词是已登记于单词词典的多个单词的组合的情况下,对该单词赋予通过在考虑连浊等的同时使与这些单词关联起来的读音连结而得到的读音。此外,也可以使用上述方法以外的现有的方法。
单词列表103能够保存多个单词读音配对。各单词读音配对是单词与读音的配对。
修正受理部104从用户受理针对登记于单词列表103的单词信息的修正。修正的种类例如包括单词的删除、单词的部分删除、向单词追加字符、单词的追加、读音的修订等。有时还将单词的部分删除以及向单词追加字符总称为单词的修订。在进行了针对登记于单词列表103的单词信息的修正后,修正受理部104根据修正的内容来更新单词列表103。
修正候补确定部105在进行了针对登记于单词列表103的单词信息的修正的情况下,确定修正候补,该修正候补为应与该修正关联地修正的单词或者读音,将所确定出的修正候补通知给显示部106。关于确定修正候补的方法将在后面叙述。
显示部106显示单词列表103。具体而言,显示部106显示登记于单词列表103的单词信息。进而,显示部106在画面上对由修正候补确定部105确定为修正候补的单词或者读音进行强调显示。关于对修正候补进行强调显示的方法将在后面叙述。
在单词列表103中,单词读音配对可以与编辑信息关联起来。编辑信息例如包含候补标志。候补标志是表示单词读音配对是否是要对声音识别词典追加的候补的标志。例如,候补标志“0”表示单词读音配对是要对声音识别词典追加的候补,候补标志“1”表示单词读音配对不是要对声音识别词典追加的候补。例如,在用户进行了删除单词的操作的情况下,该单词的候补标志从“0”变更为“1”。词典编辑装置100在由用户进行的修正作业完成的时间点为了对声音识别词典追加而输出候补标志为“0”的单词读音配对。在一个例子中,词典编辑装置100可以将单词读音配对登记到声音识别词典。在另一例子中,词典编辑装置100可以将单词读音配对发送到向声音识别词典登记单词读音配对的其它装置(未图示)。
接下来,说明词典编辑装置100的动作。
图2概略地示出了词典编辑装置100的动作例。单词抽取部101接收由用户输入的文本数据,从文本数据抽取专业术语以及未知词(图2的步骤S201)。读音赋予部102对作为专业术语或者未知词而抽取出的各个单词赋予读音(步骤S202)。抽取出的单词以及所赋予的读音相互关联起来被登记于单词列表103。
显示部106显示登记于单词列表103的单词以及读音(步骤S203)。词典编辑装置100等待用户确认所显示的单词以及读音、对某个单词或者读音进行修正(步骤S204)。
当由用户进行了修正时,修正候补确定部105确定修正候补(步骤S205),该修正候补为应与该修正关联地修正的单词或者读音。显示部106对被确定为修正候补的单词或者读音进行强调显示(步骤S206)。一般认为通过该强调显示用户进行进一步的修正,所以处理返回到词典编辑装置100等待由用户进行的修正的步骤S204。在进行了进一步的修正的情况下,同样地重复诸如确定其它修正候补并强调显示的流程。
此外,在图2所示的例子中,在抽取出单词之后进行读音赋予,但也可以在读音赋予之后进行单词抽取。从文本数据抽取单词并对单词赋予读音也可以是从文本数据抽取单词并对抽取出的单词赋予读音、或者对文本数据赋予读音并从文本数据抽取带读音的单词中的任意处理。
接下来,说明修正候补的特定方法以及强调显示方法。在此,多次参照单词抽取部101从“…専門用語抽出…Toshiba…Toshiba Corporation…”这样的文本抽取单词“専門用”、“語抽出”、“Toshiba”、“Toshiba Corporation”,读音赋予部102对这些单词赋予读音“せんもんよう”、“ごちゅうしゅつ”、“としば”、“としばこーぽれーしょん”的例子(以后,称为参照例)。
词典编辑装置100对用户提供用于进行修正的用户接口。显示部106在用户接口的画面上显示登记于单词列表103的单词信息。在参照例中,如图3所示,显示部106对如下4个单词读音配对进行列表显示:单词“専門用”与读音“せんもんよう”的配对、单词“語抽出”与读音“ごちゅうしゅつ”的配对、单词“Toshiba”与读音“としば”的配对以及单词“Toshiba Corporation”与读音“としばこーぽれーしょん”的配对。
在进行了删除单词或者删除单词的一部分的修正的情况下,修正候补确定部105将登记于单词列表103的单词中的、在文本数据上与该单词邻接的单词确定为修正候补。一般认为删除单词或者删除单词的一部分的修正起因于词素解析的错误,且一般认为在文本数据上与该单词邻接的单词也是由于词素解析的错误而得到的。
在参照例中,由于词素解析的错误,词组“専門用語抽出”被分割为“専門用”以及“語抽出”。在进行了删除“専門用”的修正或者删除作为“専門用”的一部分的“用”的修正的情况下,修正候补确定部105将在文本数据上与进行了修正的单词“専門用”邻接的单词“語抽出”确定为修正候补。设单词“語抽出”为应删除或者应修订为“専門用語抽出”或者“用語抽出”而确定为修正候补。在此,单词“語抽出”是成为删除候补还是成为修订候补可以取决于修订后的单词(在该例子中“専門用語抽出”或者“用語抽出”)是否值得抽取为专业术语或者未知词、修订后的单词是否包含于单词列表103等。
在进行了对单词追加字符的修正的情况下,修正候补确定部105将通过修正得到的单词的部分词(通过修正得到的单词的一部分)确定为修正候补。例如,在与部分词一致的单词存在于单词列表103的情况下,修正候补确定部105可以将该单词确定为修正候补(具体而言为删除候补),在与部分词一致的单词未存在于单词列表103的情况下,将部分词确定为修正候补(具体而言为追加候补)。
在参照例中,在进行了对单词“専門用”追加字符“語抽出”的修正的情况下,通过修正得到的单词可以是“専門用語抽出”,部分词例如可以是“語抽出”、“抽出”、“用語”、“用語抽出”、“専門用語”等。“語抽出”存在于单词列表103,修正候补确定部105可以将单词“語抽出”确定为删除候补。“抽出”未存在于单词列表103,修正候补确定部105可以将单词“抽出”确定为追加候补。在该情况下,修正候补确定部105可以使用读音赋予部102对作为追加候补的单词“抽出”赋予读音,将单词“抽出”和对其赋予的读音登记于单词列表103,显示部106对单词“抽出”进行强调显示。
作为代替,在进行了对单词追加字符的修正的情况下,修正候补确定部105也可以将登记于单词列表103的单词中的、在文本数据上与该单词邻接的单词确定为修正候补(具体而言为删除候补)。例如,在参照例中,在进行了对单词“専門用”追加字符“語”的修正的情况下,登记于单词列表103的单词中的、在文本数据上与“専門用”邻接的单词是“語抽出”,单词“語抽出”被确定为删除候补。
作为代替,在进行了对单词追加字符的修正的情况下,修正候补确定部105也可以将在文本数据上与通过修正得到的单词邻接且未存在于单词列表103的单词确定为修正候补(具体而言为追加候补)。例如,在参照例中,在进行了对单词“専門用”追加字符“語”的修正的情况下,在文本数据上与“専門用語”邻接的单词是“抽出”,单词“抽出”被确定为追加候补。
在进行了新追加单词的修正的情况下,修正候补确定部105可以按照与关于进行了对单词追加字符的修正的情况而说明的方法同样的方法确定修正候补。具体而言,修正候补确定部105将所追加的单词的部分词(所追加的单词的一部分)确定为修正候补。例如,在与部分词一致的单词存在于单词列表103的情况下,修正候补确定部105可以将该单词确定为修正候补(具体而言为删除候补),在与部分词一致的单词未存在于单词列表103的情况下,将部分词确定为修正候补(具体而言为追加候补)。例如,在进行了追加单词“専門用語抽出”的修正的情况下,修正候补确定部105可以将登记于单词列表103的单词“専門用”以及单词“語抽出”确定为删除候补。另外,例如,在进行了追加单词“専門用語”的修正的情况下,修正候补确定部105可以将未存在于单词列表103的单词“用語”确定为追加候补。
作为代替,在进行了新追加单词的修正的情况下,修正候补确定部105也可以将登记于单词列表103的单词中的、在文本数据上与所追加的单词邻接的单词确定为修正候补(具体而言为删除候补)。作为代替,在进行了新追加单词的修正的情况下,修正候补确定部105也可以将在文本数据上与所追加的单词邻接且不存在于单词列表103的单词确定为修正候补(具体而言为追加候补)。
修正候补确定部105可以根据由用户进行的修正的内容来调整单词抽取部101的单词抽取方法,根据利用调整后的单词抽取方法进行单词抽取的结果来确定修正候补。例如在进行了修订或者删除单词的修正的情况下,修正候补确定部105以避免从文本数据抽取进行了修正的单词的方式、或者以从文本数据抽取通过修订得到的单词的方式,调整单词抽取部101的单词抽取方法。例如,在进行了追加单词的修正的情况下,修正候补确定部105以从文本数据抽取所追加的单词的方式调整单词抽取部101的单词抽取方法。例如,在单词抽取部101的单词抽取方法是根据某些阈值来抽取单词的方法的情况下,能够使用将阈值变更至进行修正后的单词的得分、并将得分为阈值以下的其它单词确定为修正候补(具体而言为删除候补)的方法。也可以在所追加的单词或者通过修订得到的单词包含于文本数据、且在单词抽取时计算出该单词的得分的情况下,将阈值下调至该得分,将得分为阈值以上的其它单词确定为修正候补(具体而言为追加候补)。
在进行了修订读音的修正的情况下,修正候补确定部105可以将与修订读音后的单词书写相似的单词的读音确定为修正候补。第1单词与第2单词的书写相似是指第1单词包含第2单词中的至少一部分。在参照例中,在进行了将单词“Toshiba”的读音从“としば”修订为“とうしば”的修正的情况下,修正候补确定部105将包含单词“Toshiba”的单词“Toshiba Corporation”的读音“としばこーぽれーしょん”确定为修正候补。另外,在参照例中,在进行了将单词“Toshiba Corporation”的读音从“としばこーぽれーしょん”修订为“とうしばこーぽれーしょん”的修正的情况下,修正候补确定部105将包含单词“ToshibaCorporation”的一部分的单词“Toshiba”的读音“としば”确定为修正候补。
显示部106在显示有登记于单词列表103的单词信息的画面上对修正候补进行强调显示。作为一个例子,显示部106变更保存有由修正候补确定部105确定为修正候补的单词或者读音的字段(有时还被称为单元、框或者文本框)的背景颜色。在参照例中,在用户删除单词“専門用”、修正候补确定部105将单词“語抽出”确定为删除候补的情况下,如图4所示,显示部106将单词“語抽出”的字段的背景颜色例如变更为红色。
进而,在用户将单词“Toshiba”的读音修订为“とうしば”、修正候补确定部105将读音“としばこーぽれーしょん”确定为修订候补的情况下,如图4所示,显示部106将读音“としばこーぽれーしょん”的字段的背景颜色例如变更为黄色。
显示部106可以根据修正候补的种类进行颜色划分。例如,删除候补用红色显示,修订候补用黄色显示,追加候补用绿色显示。显示部106除了对被确定为修正候补的单词或者读音进行强调显示之外,也可以还对与其对应的读音或者单词进行强调显示。在图4所示的例子中,被确定为删除候补的单词“語抽出”的读音“ごちゅうしゅつ”的字段的背景颜色被变更为与单词“語抽出”的字段的背景颜色相同的颜色。
进而,显示部106也可以对进行了修正的单词或者读音进行强调显示。例如,显示部106可以将进行了修正的单词或者读音的字段的背景颜色变更为与修正候补的颜色不同的颜色。可以是修正候补确定部105判定由用户进行的修正的种类,显示部106根据判定结果来变更强调显示的方式(例如颜色划分)。显示部106除了对进行了修正的单词或者读音进行强调显示之外,也可以还对与其对应的读音或者单词进行强调显示。
在用户进行了删除单词“専門用”的修正的情况下,如图4所示,显示部106将所删除的单词“専門用”及其读音“せんもんよう”的字段的背景颜色例如变更为灰色。在用户进行了将单词“Toshiba”的读音修订为“とうしば”的修正的情况下,显示部106显示修订后的读音“とうしば”,并将其字段的背景颜色例如变更为浅蓝色。
在用户追加单词“専門用語抽出”、修正候补确定部105将单词“専門用”以及“語抽出”确定为删除候补的情况下,如图5所示,显示部106将单词“専門用”及其读音“せんもんよう”及单词“語抽出”及其读音“ごちゅうしゅつ”的字段的背景颜色例如变更为红色,将单词“専門用語抽出”及其读音“せんもんようごちゅうしゅつ”的字段的背景颜色例如变更为黄绿色。
强调显示方法不限于变更字段的背景颜色。例如,强调显示方法也可以是增粗字段的框、变更字段的框的颜色、增大字段的框、变更字段内的字符的颜色、变更字段内的字符的大小或者变更字段内的字符的字体。字体的变更例如包括变更字体、字体加粗、斜体、下划线等。
显示部106既可以以上述强调显示方法中的任意一个强调显示方法进行强调显示,也可以组合上述强调显示方法中的两个以上的强调显示方法而进行强调显示。换言之,显示部106可以变更保存有修正候补的字段的背景颜色、字段的框的大小、字段的框的颜色、字段内的字符的颜色、字段内的字符的大小以及字段内的字符的字体中的至少1个。显示部106也可以使用与上述强调显示方法不同的强调显示方法。
显示部106也可以在对修正候补进行强调显示时,响应于由用户进行的修正,以将被确定为修正候补的单词或者读音与进行了修正的单词或者读音关联起来的形式进行显示。在一个例子中,显示部106可以使被确定为修正候补的单词或者读音移动到进行了修正的单词或者读音的正下方。在另一例子中,显示部106也可以如图6所示用线将进行了修正的单词或者读音与修正候补连结起来等,以明示修正候补与进行了修正的单词或者读音相链接。在图6所示的例子中,由于用户删除了单词“専門用”而单词“語抽出”被确定为修正候补,单词“専門用”与单词“語抽出”用线连结起来。进而,由于用户修订读音“としば”而读音“としばこーぽれーしょん”被确定为修正候补,与读音“としば”对应的单词“Toshiba”与和读音“としばこーぽれーしょん”对应的单词“Toshiba Corporation”用线连结起来。在又一例子中,显示部106也可以将修正候补排在列表的最上位。
修正候补确定部105可以生成被确定为修订候补的单词或者读音的修正方案,显示部106除了对被确定为修订候补的单词或者读音进行强调显示之外,还可以显示由修正候补确定部105生成的修正方案。显示部106可以对修正方案进行强调显示。在该情况下,修正候补确定部105将表示修正方案的信息送出到显示部106。例如,在单词“Toshiba”的读音从“としば”被修订为“とうしば”的情况下,修正候补确定部105将读音“としばこーぽれーしょん”确定为修订候补,根据修正的内容而生成修正方案“とうしばこーぽれーしょん”。如图7所示,显示部106也可以与原来的读音并排地显示修正方案。另外,也可以在强调显示的字段被点击时,以下拉列表的形式显示修正方案。另外,也可以在光标对准强调显示的字段时,利用弹出画面显示修正方案。也可以与其相反地,在修正方案被强调显示、光标对准显示有修正方案的字段时,利用弹出画面显示原来的读音。
如以上那样,词典编辑装置100在从文本数据抽取单词、对抽取出的单词赋予读音、并进行了针对包含抽取出的单词和所赋予的读音的单词信息的修正的情况下,确定应与该修正关联地修正的单词或者读音,并提示给用户。由此,用户在修正单词或者读音之后,易于发现接下来应确认的单词或者读音。其结果,能够削减确认并修正的单词抽取结果以及读音赋予结果的成本。
关于词典编辑装置100,上述处理能够通过由CPU(Central Processing Unit,中央处理单元)等通用电路执行程序而实现。
图8概略地示出了词典编辑装置100的硬件结构例。在图8所示的例子中,词典编辑装置100是具备CPU801、RAM(Random Access Memory,随机存取存储器)802、程序存储器803、存储设备804、显示装置805、输入装置806、通信装置807以及总线808的计算机。CPU801经由总线808而与RAM802、程序存储器803、存储设备804、显示装置805、输入装置806、通信装置807交换信号。
CPU801是通用电路的一个例子。RAM802作为工作存储器而由CPU801使用。RAM802包括SDRAM(Synchronous Dynamic Random Access Memory,同步动态随机存取存储器)等易失性存储器。程序存储器803存储词典编辑程序等由CPU801执行的程序。程序包含计算机能够执行的命令。作为程序存储器803,例如使用ROM(Read-Only Memory,只读存储器)。
CPU801将存储于程序存储器803的程序在RAM802中展开,对程序进行解释以及执行。词典编辑程序在由CPU801执行时,使CPU801执行关于词典编辑装置100的上述处理。换言之,CPU801依照词典编辑程序而作为单词抽取部101、读音赋予部102、修正受理部104、修正候补确定部105以及显示部106发挥功能。单词列表103由RAM802以及/或者存储设备804实现。
词典编辑程序等程序可以以存储于计算机能够读取的存储介质的状态提供给词典编辑装置100。在该情况下,例如,词典编辑装置100具备从存储介质读出数据的驱动器,从存储介质获取程序。存储介质的例子包括磁盘、光盘(CD-ROM、CD-R、DVD-ROM、DVD-R等)、光磁盘(MO等)、半导体存储器。另外,也可以以将程序保存于网络上的服务器,由词典编辑装置100从服务器下载程序。
存储设备804存储数据。存储设备804包括硬盘驱动器(HDD)或者固态硬盘(SSD)等非易失性存储器。存储设备804的一部分区域也可以被用作程序存储器803。
显示装置805例如可以是液晶显示器、OLED(Organic Light Emitting Diode,有机发光二极管)显示器等。显示装置805显示用于进行修正的用户接口的画面等由显示部106生成的图像。
输入装置806是能够供用户输入信息的装置。输入装置806例如包括键盘以及鼠标。为了对单词信息进行修正而使用输入装置806。
通信装置807是用于与外部装置进行通信的接口。通信装置807例如包括有线通信模块以及/或者无线通信模块。
此外,关于词典编辑装置100,上述处理中的至少一部分也可以利用ASIC(Application Specific Integrated Circuit,专用集成电路)或者FPGA(FieldProgrammable Gate Array,现场可编程门阵列)等专用电路来实施。
也可以采用用户操作的终端装置与词典编辑装置100分开设置的结构。在这样的结构中,词典编辑装置100使用通信装置807与终端装置进行通信。
说明了本发明的几个实施方式,但这些实施方式是作为例子而提示的,并不意图限定发明的范围。这些新的实施方式能够以其它各种方式来实施,能够在不脱离发明的要旨的范围进行各种省略、置换、变更。这些实施方式及其变形包含于发明的范围、要旨,并且包含于专利权利要求书所记载的发明及与其均等的范围。
此外,能够将上述实施方式总结成以下的技术方案。
技术方案1
一种词典编辑装置,具备:
单词抽取部,从文本数据抽取单词;
读音赋予部,对所述单词赋予读音;以及
修正候补确定部,在对包含抽取出的所述单词和所赋予的所述读音的单词信息进行了修正的情况下,确定修正候补,该修正候补为应与所述修正关联地修正的单词或者读音。
技术方案2
在上述技术方案1中,所述修正候补确定部将抽取出的所述单词中的、在所述文本数据上与进行了所述修正的单词邻接的单词确定为所述修正候补。
技术方案3
在上述技术方案1中,所述修正候补确定部在所述修正是第1单词的追加或者抽取出的所述单词中的第2单词的删除或修订的情况下,以不从所述文本数据抽取所述第2单词的方式、或者以从所述文本数据抽取所述第1单词或者通过所述修订得到的第3单词的方式,调整所述单词抽取部的单词抽取方法,根据所述单词抽取部利用调整后的所述单词抽取方法对所述文本数据进行单词抽取的结果而确定所述修正候补。
技术方案4
在上述技术方案1中,所述修正候补确定部将与进行了所述修正的单词书写相似的单词确定为所述修正候补。
技术方案5
在上述技术方案1中,所述修正候补确定部将与和进行了所述修正的读音对应的单词书写相似的单词的读音确定为所述修正候补。
技术方案6
在上述技术方案1至5中的任意一项中,词典编辑装置还具备显示部,该显示部对所述修正候补进行强调显示。
技术方案7
在上述技术方案6中,所述修正候补确定部判定所述修正的种类,所述显示部根据所述种类的判定结果而变更强调显示的方式。
技术方案8
在上述技术方案6或者7中,所述修正候补确定部生成被确定为所述修正候补的单词或者读音的修正方案,所述显示部进而显示所述修正方案。
技术方案9
在上述技术方案8中,所述显示部以与所述修正候补关联起来的形式显示所述修正方案。
技术方案10
在上述技术方案6至9中的任意一项中,所述显示部以与进行了所述修正的单词或者读音关联起来的形式显示被确定为所述修正候补的单词或者读音。
技术方案11
在上述技术方案6至10中的任意一项中,所述显示部变更保存有所述修正候补的字段的背景颜色、所述字段的框的大小、所述字段的所述框的颜色、所述字段内的字符的颜色、所述字段内的所述字符的大小以及所述字段内的所述字符的字体中的至少1个。
技术方案12
一种词典编辑方法,具备:
从文本数据抽取单词;
对所述单词赋予读音;以及
在对包含抽取出的所述单词和所赋予的所述读音的单词信息进行了修正的情况下,确定修正候补,该修正候补为应与所述修正关联地修正的单词或者读音。
技术方案13
一种程序,用于使计算机作为如下单元发挥功能:
从文本数据抽取单词的单元;
对所述单词赋予读音的单元;以及
在对包含抽取出的所述单词和所赋予的所述读音的单词信息进行了修正的情况下确定修正候补的单元,该修正候补为应与所述修正关联地修正的单词或者读音。

Claims (10)

1.一种词典编辑装置,具备:
单词抽取部,从文本数据抽取单词;
读音赋予部,对所述单词赋予读音;以及
修正候补确定部,在对包含抽取出的所述单词和所赋予的所述读音的单词信息进行了修正的情况下,确定修正候补,该修正候补为应与所述修正关联地修正的单词或者读音。
2.根据权利要求1所述的词典编辑装置,其中,
所述修正候补确定部将抽取出的所述单词中的、在所述文本数据上与进行了所述修正的单词邻接的单词确定为所述修正候补。
3.根据权利要求1所述的词典编辑装置,其中,
在所述修正是第1单词的追加或者抽取出的所述单词中的第2单词的删除或者修订的情况下,所述修正候补确定部以不从所述文本数据抽取所述第2单词的方式、或者以从所述文本数据抽取所述第1单词或者通过所述修订得到的第3单词的方式,调整所述单词抽取部的单词抽取方法,根据所述单词抽取部利用调整后的所述单词抽取方法对所述文本数据进行单词抽取的结果而确定所述修正候补。
4.根据权利要求1所述的词典编辑装置,其中,
所述修正候补确定部将与进行了所述修正的单词的书写相似的单词确定为所述修正候补。
5.根据权利要求1所述的词典编辑装置,其中,
所述修正候补确定部将与和进行了所述修正的读音对应的单词的书写相似的单词的读音确定为所述修正候补。
6.根据权利要求1至5中的任意一项所述的词典编辑装置,其中,
所述词典编辑装置还具备显示部,该显示部对所述修正候补进行强调显示。
7.根据权利要求6所述的词典编辑装置,其中,
所述修正候补确定部判定所述修正的种类,
所述显示部根据所述种类的判定结果而变更强调显示的方式。
8.根据权利要求6或者7所述的词典编辑装置,其中,
所述修正候补确定部生成被确定为所述修正候补的单词或者读音的修正方案,
所述显示部进而显示所述修正方案。
9.一种词典编辑方法,具备:
从文本数据抽取单词;
对所述单词赋予读音;以及
在对包含抽取出的所述单词和所赋予的所述读音的单词信息进行了修正的情况下,确定修正候补,该修正候补为应与所述修正关联地修正的单词或者读音。
10.一种程序,用于使计算机作为如下单元发挥功能:
从文本数据抽取单词的单元;
对所述单词赋予读音的单元;以及
在对包含抽取出的所述单词和所赋予的所述读音的单词信息进行了修正的情况下确定修正候补的单元,该修正候补为应与所述修正关联地修正的单词或者读音。
CN202111008046.4A 2020-11-05 2021-08-31 词典编辑装置、词典编辑方法以及程序 Pending CN114444480A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020184918A JP7467314B2 (ja) 2020-11-05 2020-11-05 辞書編集装置、辞書編集方法、及びプログラム
JP2020-184918 2020-11-05

Publications (1)

Publication Number Publication Date
CN114444480A true CN114444480A (zh) 2022-05-06

Family

ID=81362760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111008046.4A Pending CN114444480A (zh) 2020-11-05 2021-08-31 词典编辑装置、词典编辑方法以及程序

Country Status (3)

Country Link
US (1) US20220138405A1 (zh)
JP (1) JP7467314B2 (zh)
CN (1) CN114444480A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06202685A (ja) * 1992-12-28 1994-07-22 Ricoh Co Ltd 音声合成装置
JP2015172625A (ja) * 2014-03-11 2015-10-01 富士通株式会社 音声合成装置、合成音声編集方法及び合成音声編集用コンピュータプログラム
CN107798052A (zh) * 2016-09-06 2018-03-13 株式会社东芝 词典更新装置及词典更新方法
CN108022582A (zh) * 2016-10-31 2018-05-11 松下知识产权经营株式会社 辞典修正方法、辞典修正程序、声音处理装置以及机器人

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001084535A2 (en) * 2000-05-02 2001-11-08 Dragon Systems, Inc. Error correction in speech recognition
US20040205671A1 (en) * 2000-09-13 2004-10-14 Tatsuya Sukehiro Natural-language processing system
CN100559463C (zh) * 2002-11-11 2009-11-11 松下电器产业株式会社 声音识别用辞典编制装置和声音识别装置
US7437296B2 (en) * 2003-03-13 2008-10-14 Matsushita Electric Industrial Co., Ltd. Speech recognition dictionary creation apparatus and information search apparatus
US20070239455A1 (en) * 2006-04-07 2007-10-11 Motorola, Inc. Method and system for managing pronunciation dictionaries in a speech application
JP2009217611A (ja) * 2008-03-11 2009-09-24 Toshiba Corp 音声対話装置
JP4701292B2 (ja) * 2009-01-05 2011-06-15 インターナショナル・ビジネス・マシーンズ・コーポレーション テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
JP5646146B2 (ja) * 2009-03-18 2014-12-24 株式会社東芝 音声入力装置、音声認識システム及び音声認識方法
JP5538099B2 (ja) 2010-07-02 2014-07-02 三菱電機株式会社 音声入力インタフェース装置及び音声入力方法
JP2015060095A (ja) * 2013-09-19 2015-03-30 株式会社東芝 音声翻訳装置、音声翻訳方法およびプログラム
US20160275942A1 (en) * 2015-01-26 2016-09-22 William Drewes Method for Substantial Ongoing Cumulative Voice Recognition Error Reduction
US9947313B2 (en) * 2015-01-26 2018-04-17 William Drewes Method for substantial ongoing cumulative voice recognition error reduction
JP6599219B2 (ja) 2015-11-19 2019-10-30 日本電信電話株式会社 読み付与装置、読み付与方法、およびプログラム
JP6766384B2 (ja) * 2016-03-11 2020-10-14 富士ゼロックス株式会社 情報処理装置及びプログラム
JP6497372B2 (ja) * 2016-09-29 2019-04-10 トヨタ自動車株式会社 音声対話装置および音声対話方法
JP7481999B2 (ja) * 2020-11-05 2024-05-13 株式会社東芝 辞書編集装置、辞書編集方法及び辞書編集プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06202685A (ja) * 1992-12-28 1994-07-22 Ricoh Co Ltd 音声合成装置
JP2015172625A (ja) * 2014-03-11 2015-10-01 富士通株式会社 音声合成装置、合成音声編集方法及び合成音声編集用コンピュータプログラム
CN107798052A (zh) * 2016-09-06 2018-03-13 株式会社东芝 词典更新装置及词典更新方法
CN108022582A (zh) * 2016-10-31 2018-05-11 松下知识产权经营株式会社 辞典修正方法、辞典修正程序、声音处理装置以及机器人

Also Published As

Publication number Publication date
JP7467314B2 (ja) 2024-04-15
US20220138405A1 (en) 2022-05-05
JP2022074673A (ja) 2022-05-18

Similar Documents

Publication Publication Date Title
TWI475406B (zh) 取決於上下文之輸入方法
US20100217581A1 (en) Multi-Mode Input Method Editor
CN107679032A (zh) 语音转换纠错方法和装置
US20140297276A1 (en) Editing apparatus, editing method, and computer program product
EP2447854A1 (en) Method and system of automatic diacritization of Arabic
US7328404B2 (en) Method for predicting the readings of japanese ideographs
TW201544976A (zh) 自然語言處理系統、自然語言處理方法、及自然語言處理程式
US11995398B2 (en) Dictionary editing apparatus, dictionary editing method, and recording medium recording thereon dictionary editing program
CN111126201B (zh) 剧本中人物识别方法及装置
CN110782899B (zh) 信息处理装置、存储介质及信息处理方法
CN114444480A (zh) 词典编辑装置、词典编辑方法以及程序
KR102468975B1 (ko) 인공지능 기반의 판례 인식의 정확도 향상 방법 및 장치
JP2008027133A (ja) 帳票処理装置及び帳票処理方法ならびに帳票処理方法を実行するプログラムと記憶媒体
JP2009157888A (ja) 音訳モデル作成装置、音訳装置、及びそれらのためのコンピュータプログラム
JP7298330B2 (ja) 情報処理装置、及び情報処理プログラム
KR101159323B1 (ko) 아시아 언어들을 위한 수기 입력
JP2017151768A (ja) 翻訳プログラム及び情報処理装置
Kaur et al. Improving the accuracy of tesseract OCR engine for machine printed Hindi documents
KR20160054751A (ko) 텍스트 편집 시스템 및 그 방법
CN113553832B (zh) 文字处理方法和装置、电子设备以及计算机可读存储介质
JP2000090193A (ja) 文字認識装置および項目分類方法
KR102257719B1 (ko) 작성프로그램 및 이를 탑재한 문자 입력 장치
JP2019159118A (ja) 出力プログラム、情報処理装置及び出力制御方法
CN108694229A (zh) 串数据分析装置以及串数据分析方法
KR102644859B1 (ko) 컨텍스트 기반의 텍스트 오류 교정 방법 및 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination