CN105912558A - 声音检索装置和声音检索方法 - Google Patents
声音检索装置和声音检索方法 Download PDFInfo
- Publication number
- CN105912558A CN105912558A CN201610091055.7A CN201610091055A CN105912558A CN 105912558 A CN105912558 A CN 105912558A CN 201610091055 A CN201610091055 A CN 201610091055A CN 105912558 A CN105912558 A CN 105912558A
- Authority
- CN
- China
- Prior art keywords
- sound
- candidate
- interval
- regeneration
- retrieval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000015654 memory Effects 0.000 claims abstract description 4
- 230000008929 regeneration Effects 0.000 claims description 69
- 238000011069 regeneration method Methods 0.000 claims description 68
- 238000009790 rate-determining step (RDS) Methods 0.000 claims 7
- 238000012790 confirmation Methods 0.000 description 14
- 230000000007 visual effect Effects 0.000 description 11
- 230000001172 regenerating effect Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 6
- 206010048865 Hypoacusis Diseases 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000002688 persistence Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/34—Indicating arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/638—Presentation of query results
- G06F16/639—Presentation of query results using playlists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/0482—Interaction with lists of selectable items, e.g. menus
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L21/12—Transforming into visible information by displaying time domain information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Abstract
本发明提供声音检索装置和声音检索方法。声音检索装置(100)的存储部(160)存储录音声音的录音数据(161)。受理部(151)受理被输入的检索词。声音检索部(152)从录音声音中检索被推断为发出受理到的检索词的音的候补区间。再生部(154)再生声音检索部(152)检索到的候补区间的声音。显示控制部(153)基于再生部(154)进行的候补区间的声音的再生结果,在表示录音声音的时间的推移的显示信息中附加对该候补区间的声音的发声位置进行确定的标记。
Description
技术领域
本发明涉及声音检索装置和声音检索方法。
背景技术
近年来,在研究从记录的声音中检索用户想要听到的声音的出声位置的声音检索的技术。
例如,在专利文献1(JP特开2001-290496号公报)中公开了一种声音检索装置,在声音检索时由用户对检索关键词进行声音输入,检索与该声音输入的检索关键词一致的声音的出声位置。
然而,有时声音检索装置检索到的声音和用户想要听到的声音不一致。为此,用户需要将声音检索装置检索到的声音再生来进行和自己想要听到的声音是否一致的正误确认。
该正误确认的作业通常通过用户分别个别地再生被检索到的多个声音并依次确认来进行。在该正误确认的作业时所显示的图形的信息优选以用户易于理解的方式来显示。
但是,存在如下情况:用户即使再生被检索到的声音也不能在时间轴上以视觉把握其再生位置,或者用户即使将检索到的声音判断为正确也不能在时间轴上以视觉把握其位置。为此,在伴随声音检索而产生的用户作业中,存在信息的显示形式(UI:用户界面)从视觉辨识性、操作性的观点来看并不充分这样的问题。
发明内容
因此,本发明为了解决上述问题而形成,其目的在于,提供适合于在伴随声音检索的用户作业中显示视觉辨识性、操作性优异的用户界面的情况的声音检索装置等。
为了达成上述目的,本发明的声音检索装置的特征在于,包括:存储单元,其对录音声音进行存储;受理单元,其受理被输入的检索词;检索单元,其从所述录音声音中检索被推断为发出所述受理到的检索词的音的候补区间;再生单元,其再生所述检索单元检索到的候补区间的声音;和显示控制单元,其基于所述再生单元的所述候补区间的声音的再生结果,在表示所述录音声音的时间的推移的显示信息中附加对该候补区间的声音的发声位置进行确定的标记并显示于显示部。
发明效果
根据本发明,能在伴随声音检索的用户作业中显示视觉辨识性、操作性优异的用户界面。
附图说明
图1是表示声音检索装置的构成的方框图。
图2是表示再生模式下的显示画面的一例的图。
图3是表示在声音波形上显示标记的显示例的图。
图4是表示声音检索处理的流程的一例的流程图。
图5是表示检索结果处理的流程的一例的流程图。
具体实施方式
以下基于附图来说明本发明的实施方式。
如图1所示那样,声音检索装置100具备:麦克风110、扬声器120、显示部130、输入部140、控制部150、存储部160。该声音检索装置100是从录音声音中对用户所输入的检索词进行声音检索的装置,例如是PC(Personal Computer)、录音机、智能手机等。在本实施方式中,作为一个例子,以声音检索装置100是智能手机为前提进行说明。
麦克风110是采集外部声音的声音输入部。
扬声器120是将声音作为可听音进行外部输出的声音输出部。
显示部130例如由LCD(Liquid Crystal Display:液晶显示器)或EL(Electroluminescence:电致发光)显示器等构成,显示声音检索结果等。
输入部140配置在显示部130的上表面,具备用于用户进行操作输入的触摸面板。在用户的手指等根据需要对显示于显示部130的各种菜单、操作按钮、键盘等进行了接触的情况下,输入部140将该接触位置的信息作为输入指示向控制部150输出。
控制部150由CPU、ROM、RAM等构成。控制部150的CPU通过读出并执行存储于ROM的后述的处理(声音检索处理)的程序,来实现该处理所涉及的各功能(受理部151、声音检索部152、显示控制部153以及再生部154)。
另外,该声音检索处理的程序通过由声音检索装置100的用户预先下载并安装声音检索用的智能手机应用程序,从而能够由控制部150执行。
存储部160是HDD等非易失性存储器。该存储部130存储录音声音的数据即录音数据161(以下也称作声音文件)。
该声音检索装置100具备录音模式和再生模式。在录音模式下,作为成为声音检索的前提的前处理,对成为声音检索的对象的声音进行录音。在再生模式下,对录音模式下被录音的录音声音进行再生。在再生模式下,在从用户想要重听的位置起进行再生的所谓跳转再生之前进行声音检索。
在此,在录音模式下,声音检索装置100的控制部150若从用户受理到录音开始的指示,则开始录音,若受理到录音结束的指示,则结束录音。然后,控制部150将录音数据(声音数据)161存储在存储部160中。用户在录音模式下预先对自己之后重听的对象的声音(例如会议声音、讲课声音等)进行录音。
接下来说明控制部150的再生模式所涉及的各功能(受理部151、声音检索部152、显示控制部153以及再生部154)。
受理部151受理被输入的检索词。该检索词是用于声音检索的检索关键词,是由汉字、平假名、片假名、字母等构成的文本。
在此,参考图2来说明检索词的输入。图2是表示智能手机应用程序的再生模式下的显示画面的一例的图。声音检索装置100的显示部130显示:用于用户以文本输入检索词的检索框131;在时间轴t上显示录音声音的声音波形的波形显示区域132;以及显示检索结果的一览的检索结果列表133。
受理部151受理用户在检索框131中输入的检索词(图2中为“ぁぃぅぇぉ”)。
返回图1,声音检索部152从录音声音中检索被推断为发出受理到的检索词的音的候补区间。具体来说,若用户按下图2所示的声音检索按钮,则声音检索部152将受理到的检索词变换成音素串,基于该变换后的音素串从录音声音中检索候补区间。
更具体地,声音检索部152在变换成音素串后从音素数据库(未图示)中取得各音素的持续长度,基于各音素的持续长度求取检索词的出声时长。然后,声音检索部152将出声时长作为候补区间的1个单位,按每个该区间单位对变换后的音素串和录音声音数据进行比较,求取似然度(表示检索词的声音和录音声音的区间单位中的声音之间的相似程度的指标)。在该似然度计算中,声音检索部152例如能借助倒谱(cepstrum)或梅尔倒谱等将声音数据变换成特征量并进行比较,从而算出似然度。
显示控制部153将与声音检索部152检索到的候补区间对应的候补图标(候补识别信息)135作为检索结果显示在显示部130的检索结果列表133中。在此,在声音检索部152检索到很多候补区间的情况下,显示控制部153将给定数的对候补区间进行识别的候补图标按照似然度顺序从高位起显示在检索结果列表133中。
在图2中,作为一例,示出以下情况:声音检索部152对被推断为发出检索词“ぁぃぅぇぉ”的音的候补区间进行检索,显示控制部153将其高位4个候补区间按照似然度顺序进行显示。检索结果列表133的各条目由以下构成:用户在选择候补区间的情况下进行勾选的勾选框134(134a~134d);由时钟图标和候补区间的发声开始时间构成的候补图标135(135a~135d);和对与候补图标135对应的候补区间进行再生的再生按钮136(136a~136d)。
在图2中,检索结果列表133的似然度第1位的条目表示发出“ぁぃぅぇぉ”的音的候补区间的发声开始时间是从录音开始时间起2.8秒后。另外,以下在不需要特别确定勾选框134a~134d之中的某一个来进行说明的情况下,汇总总称为勾选框134来进行说明。关于候补图标135a~135d以及再生按钮136a~136d也同样。
返回图1,再生部154对声音检索部152检索到的候补区间的声音进行再生。具体来说,再生部154从存储部160读出并再生与候补图标135之中被按下了再生按钮136的候补图标135对应的候补区间的声音数据。
参考图3来说明该再生处理。
在图3的检索结果列表133中,设为用户按下了再生按钮136a。于是,再生部154从存储部160读出与候补图标135a对应的候补区间的声音数据,通过扬声器120进行外部输出。这时,显示控制部153伴随候补区间的声音的再生,在显示于显示部130的波形显示区域132的声音波形上显示再生位置。如图3所示那样,该再生位置由实线P和对该实线P的位置进行确定的指尖光标示出。另外,伴随候补区间的声音的再生而显示的对象并不限于声音波形,也可以显示表示伴随声音数据的再生的时间的推移的显示信息,例如显示按给定间隔示出从开头起的经过时间的棒状的显示体等。以下继续说明显示声音波形的情况。
在此,用户一边以视觉辨识正被再生的候补区间的声音的再生位置,一边听取该被再生的声音,来进行是否正发出自己所输入的检索词(本实施方式中为“ぁぃぅぇぉ”)的音的正误确认。若用户判定为正确,则如图3所示那样,用户在勾选框134a注上勾选。如此,用户对候补区间的声音个别地进行再生并依次进行正误确认,若正确则进行勾选操作,若不正确,则不进行勾选,如此反复。在图3的示例中,示出由用户勾选了似然度第1位和第3位的候补区间。
在此,设为用户按下了追加按钮137。于是,显示控制部153将表示在与通过勾选而选择出的候补区间对应的录音声音数据的位置处附加标记这一情况的信息存储在存储部160中,并将对选择出的候补区间(图3的示例中为似然度第1位和第3位的候补区间)的发声位置进行确定的标记M(搜索标记Ma以及虚线标记Mb)显示在显示于波形显示区域132的声音波形上。在图3的示例中,虚线标记Mb显示在候补区间的声音的发声开始位置,但显示形式并不限于此,例如可以遍及候补区间整体进行阴影显示,或者在候补区间的中央显示虚线标记Mb。
换言之,该显示控制部153进行的标记M显示可以说是,基于再生部154的候补区间的声音的再生结果,将被确认为发出检索词的音的声音的位置显示在录音声音的声音波形上。
另外,显示控制部153进行的标记M显示的实现手法是任意的,但只要例如当用户在勾选框134注上勾选时将候补区间的发声开始时间与录音声音的录音数据161建立对应地存储,并基于该存储的发声开始时间在录音声音的声音波形上显示(赋予)标记M即可。
进而,显示控制部153在标记M显示的同时将该检索词的文本T(图3的示例中为“ぁぃぅぇぉ”的文本T)附加于标记M而进行显示。
如此,显示控制部153进行UI的显示控制,即,在显示部130显示:1)识别候补区间的候补图标135的一览显示;2)候补区间的声音再生时的再生位置显示;3)确定检索词的发声位置的标记M显示;4)附加于标记M的检索词的文本T的显示等。
另外,在图3中,用户在结束正误确认的作业的情况下按下结束按钮138。在该正误确认作业后,用户能从自己判断为正确的候补区间中对录音声音进行跳转再生。
接下来参考图4的流程图来说明声音检索处理的流程。
作为开始该声音检索处理的前提,用户预先选择在再生模式下自己想要再生的声音文件。
在声音检索处理中,首先,受理部151判定是否按下了声音检索按钮(步骤S11)。具体来说,受理部151在受理到在检索框131中输入的检索词后,判定是否有声音检索按钮的按下。
在此,在没有声音检索按钮的按下的情况下(步骤S11;“否”),受理部151判定是否有录音声音的再生指示(步骤S12)。若没有录音声音的再生指示(步骤S12;“否”),则返回到步骤S11。在此,待机至有声音检索按钮的按下或录音声音的再生指示的任一者为止(步骤S11和S12的循环)。
在此,若有录音声音的再生指示(步骤S12;“是”),则再生部154从录音声音的最初起进行声音再生(步骤S13)。具体来说,用户在再生模式下从最初起再生预先选择的声音文件的录音声音。另外,也可以在从最初起再生录音声音的过程中有用户按下声音检索按钮等中断操作的情况下,立即进行步骤S11以下的处理。
另一方面,在判定为按下了声音检索按钮的情况下(步骤S11;“是”),声音检索部152从录音声音中检索候补区间(步骤S14)。具体来说,声音检索部152如上述那样将受理到的检索词变换成音素串,基于该变换后的音素串从录音声音中检索候补区间。
接下来,显示控制部153将检索到的候补区间一览显示(步骤S15)。具体来说,显示控制部153将对候补区间进行识别的候补图标135按照似然度顺序显示在检索结果列表133中(参考图2)。
接下来参考图5来说明检索结果处理。
在检索结果处理中,首先,受理部151判定是否进行了再生按钮136的按下(步骤S21)。在未进行再生按钮136的按下的情况下(步骤S21;“否”),对按下任一个再生按钮136(步骤S21和S27的循环)进行待机,直到按下结束按钮138为止。
在此,在判定为按下了再生按钮136的情况下(步骤S21;“是”),再生部154对候补区间的声音进行再生(步骤S22)。具体来说,再生部154对与被按下的再生按钮136的候补图标135对应的候补区间的声音进行再生。接下来,显示控制部153在声音波形上显示再生位置(步骤S23)。具体来说,显示控制部153伴随候补区间的声音的再生在显示于波形显示区域132的声音波形上显示再生位置(参考图3的实线P)。这时,用户一边以视觉辨识实线P一边进行被再生的声音的正误确认。
接下来,控制部150判定是否进行了勾选指示(步骤S24)。在此,在用户在正误确认中判断为不正确的情况下,不进行勾选指示,对候补区间的声音进行再生并结束(步骤S24;“否”)。并且,若从用户没有结束按钮138的按下(步骤S27;“否”),则返回步骤S21,用户对其他候补区间继续进行正误确认作业。
另一方面,设用户在正误确认中判断为正确并进行了勾选指示。例如在图3中,设用户为了选择似然度第1位的候补区间而在勾选框134a进行了勾选。在该情况下,控制部150判定为进行了勾选指示(步骤S24;“是”),接下来,判定是否进行了追加按钮137的按下(步骤S25)。
在此,在判定为进行了追加按钮137的按下的情况下(步骤S25;“是”),显示控制部153在声音波形上显示标记M和文本T(步骤S26)。具体来说,显示控制部153将对通过勾选指示而选择出的候补区间的声音的发声位置进行确定的标记M(搜索标记Ma以及虚线标记Mb)显示在显示于波形显示区域132的声音波形上(参考图3)。同时,显示控制部153将检索词的文本T(图3的示例中为“ぁぃぅぇぉ”的文本T)附加于该标记M,并显示在波形显示区域132。另外,这时,将表示在与被选择出的候补区间对应的录音声音数据的位置处附加了标记这一情况的信息存储在存储部160中。
在步骤S26中显示了标记M和文本T后,或者在判定为未进行追加按钮137的按下的情况下(步骤S25;“否”),控制部150判定是否进行了结束按钮138的按下(步骤S27)。在判定为未进行结束按钮138的按下的情况下(步骤S27),返回到步骤S21。在该情况下,用户继续进行正误判定作业,并按下检索结果列表133中显示的多个再生按钮136a至136d之中的未再生的再生按钮(例如若再生按钮136a再生完毕则是再生按钮136b)。
另一方面,在用户结束正误确认作业而按下了结束按钮138的情况下(步骤S27;“是”),控制部150结束检索结果处理。通过该检索结果处理,将对用户判断为正确的候补区间的声音的发声位置进行确定的标记M显示在声音波形上,之后跳转再生就成为可能。
返回图4,在检索结果处理的结束后,受理部151判定是否有录音声音的跳转再生指示(步骤S16)。具体来说,受理部151判定是否对通过检索结果处理而显示在声音波形上的标记M有触摸操作。在此,若有录音声音的跳转再生指示(步骤S16;“是”),即若受理部151判定为对标记M有触摸操作,则再生部154从标记M所确定的候补区间的声音的发声位置起进行录音声音的跳转再生(步骤S17)。在步骤S17的跳转再生后,或者若没有录音声音的跳转再生指示(步骤S16;“否”),则结束声音检索处理。
另外,在步骤S16中除了判定是否有跳转再生指示以外,还可以判定是否有录音声音的再生指示。即,进行跳转再生不是必须的,可以根据用户的指示有选择地进行跳转再生或从录音声音的最初起进行声音再生的任一者。另外,在图4中,在步骤S13或17后结束声音检索处理,但并不限于此,也可以根据用户操作,适当地重复进行从不同的标记M位置起的跳转再生,直到从用户有结束声音文件的再生这一意思的指示为止。
在以上参考图4以及图5说明的声音检索处理以及检索结果处理中,声音检索装置100的显示控制部153基于再生部154的候补区间的声音的再生结果,在显示于显示部130的波形显示区域132的录音声音的声音波形上显示对该候补区间的声音的发声位置进行确定的标记M。在本实施方式中,特别是在候补区间的声音的再生后,从用户有表示该再生的声音是发出检索词的音的声音的指示的情况(在勾选后按下了追加按钮137的情况)下,在该声音波形上显示标记M。
由此,在用户将检索到的声音判断为正确的情况下,能在声音波形的时间轴上以视觉把握该判断为正确的候补区间的位置。因此,由于在跳转再生时用户能容易地确定判断为正确的候补区间的再生位置,所以能提供视觉辨识性/操作性优异的用户界面。
另外,在本实施方式中,显示控制部153将检索词的文本T附加于标记M并合并显示在显示部130的波形显示区域132。由此,由于用户能将自己检索的检索关键词与声音波形建立关联来进行视觉辨识,因此能提供视觉辨识性优异的用户界面。
另外,在本实施方式中,在声音检索部152检索到多个候补区间的情况下,显示控制部153将分别对该多个候补区间进行识别的候补图标135a~135d按照似然度顺序显示在显示部130的检索结果列表133中。由此,与按时间顺序显示多个候补区间的情况相比,能尽早发现自己想要重听的候补区间。因此,能高效地进行正误确认的作业。
另外,在本实施方式中,显示控制部153伴随再生部154的候补区间的声音的再生而在显示于显示部130的波形显示区域132的声音波形上显示再生位置。由此,用户能在再生候补区间的声音的过程中,一边在声音波形上以视觉辨识当前的再生位置(实线P和对该实线P的位置进行确定的指尖光标)一边进行正误确认作业。因此,由于用户能在时间轴上确定再生位置,所以能提供在正误确认作业中视觉辨识性优异的用户界面。
另外,在本实施方式中,显示控制部153在显示标记M后再生录音声音时,从该标记M所确定的发声位置起再生声音。即,进行跳转再生。由此,用户仅使用基于自己所进行的正误确认作业的正确的标记M就能高效地进行录音声音的重听。例如在对讲课进行了录音的情况下,在复习讲课的录音声音时,能高效地进行复习。
以上结束实施方式的说明,但毫无疑问声音检索装置100的具体构成或图4以及图5所示的各处理的内容并不限于上述实施方式中说明的内容。
例如,在上述实施方式中,声音检索装置100的显示控制部153基于用户的指示进行标记M的显示,但并不限于此。例如,在利用用户以外的装置进行正误确认作业的情况下,也可以基于该装置的正误确认结果,由显示控制部153在显示于波形显示区域132的录音声音的声音波形上显示标记M。
另外,在上述实施方式中,显示控制部153按照似然度顺序在检索结果列表133中显示检索结果的一览,但并不限于此。例如,除了一览显示以外,显示控制部153也可以对作为检索结果而显示的每个候补区间在声音波形上自动显示标记。在图3的示例中,显示控制部153也可以在声音检索过程中自动地显示各个候补图标135a~135d所识别的每个候补区间的4个标记。由此,用户能将作为检索结果而显示的多个候补图标135a~136d与声音波形建立关联来进行视觉辨识。
另外,在上述实施方式中,图2以及图3所示的声音检索所涉及的显示画面的用户界面是一个例子,并不限于此。例如,被显示的用户界面(标记M、文本T、候补图标135、表示再生位置的实线P等)的显示形态只要无损技术含义,就可以自由变形。例如,搜索标记Ma和虚线标记Mb只要是用户能确定候补区间的声音的发声位置,就可以自由地将显示形态变形。
另外,在上述实施方式中的图5的检索结果处理中,若有勾选指示(步骤S24;“是”)且有追加按钮的按下(步骤S25;“是”),则显示控制部153显示标记M和文本T,但并不限于此。例如,也可以是,若受理到用户在勾选框134进行了勾选这一情况,则显示控制部153在声音波形上显示标记M和文本T。由此,能减轻图5的检索结果处理的处理负担。
另外,以上述实施方式中的声音检索装置100是安装了声音检索用的智能手机应用程序的智能手机为前提进行了说明,但并不限于此。只要是能存储声音检索所涉及的程序并能予以执行的装置,则无论什么样的装置都能执行图4以及图5中说明的声音检索处理和检索结果处理。例如,声音检索装置100可以是PC、平板终端、录音机等。
另外,本发明的声音检索装置100的各处理(声音检索处理、检索结果处理)还能由通常的PC等计算机来实施。
具体地,在上述实施方式中,设将用于实现各处理所涉及的各功能的程序预先存储在控制部150的ROM中而进行了说明。但是,也可以将用于实现图1的各部的功能的程序保存在软盘、CD-ROM(Compact Disc ReadOnly Memory)、DVD(Digital Versatile Disc)以及MO(Magneto-OpticalDisc)等计算机可读取的记录介质中并分发,通过将该程序安装在计算机中,从而构成能实现上述各部的功能的计算机。另外,也可以将程序预先保存在因特网等通信网络上的服务器装置所具有的盘装置等中,例如,使计算机能下载等。
以上说明了本发明的实施方式,但本实施方式仅是例示,并不限定本发明的技术范围。本发明能采用其他各种实施方式,进一步地,能在不脱离本发明的主旨的范围内进行省略或置换等各种变更。这些实施方式或其变形包含在权利要求书所记载的发明和其等同的范围内。
Claims (16)
1.一种声音检索装置,包括:
存储单元,其对录音声音进行存储;
受理单元,其受理被输入的检索词;
检索单元,其从所述录音声音中检索被推断为发出所述受理到的检索词的音的候补区间;
再生单元,其再生所述检索单元检索到的候补区间的声音;和
显示控制单元,其基于所述再生单元的所述候补区间的声音的再生结果,在表示所述录音声音的时间的推移的显示信息中附加对该候补区间的声音的发声位置进行确定的标记并显示于显示部。
2.根据权利要求1所述的声音检索装置,其中,
所述显示控制单元将与所述检索单元检索到的多个候补区间对应的候补识别信息作为检索结果而显示于所述显示部,
所述再生单元对与显示于所述显示部的候补识别信息之中的、由用户选择出的候补识别信息对应的候补区间的声音进行再生。
3.根据权利要求2所述的声音检索装置,其中,
所述显示控制单元将分别与所述多个候补区间对应的候补识别信息按照似然度顺序显示于所述显示部。
4.根据权利要求1~3中任一项所述的声音检索装置,其中,
所述显示控制单元在所述候补区间的声音的再生后从用户有表示与检索词一致的指示的情况下,在所述声音波形上显示所述标记。
5.根据权利要求1~4中任一项所述的声音检索装置,其中,
所述显示控制单元伴随所述再生单元的候补区间的声音的再生,在显示于所述显示部的声音波形上显示再生位置。
6.根据权利要求1~5中任一项所述的声音检索装置,其中,
所述显示控制单元对所述标记附加所述检索词的文本。
7.根据权利要求1~6中任一项所述的声音检索装置,其中,
所述再生单元在所述显示控制单元显示标记后再生所述录音声音时,从该标记所确定的发声位置起再生声音。
8.根据权利要求1~7中任一项所述的声音检索装置,其中,
表示所述录音声音的时间的推移的显示信息是声音波形。
9.一种声音检索方法,包括:
存储步骤,对录音声音进行存储;
受理步骤,受理被输入的检索词;
检索步骤,从所述录音声音中检索被推断为发出所述受理到的检索词的音的候补区间;
再生步骤,再生在所述检索步骤中检索到的候补区间的声音;
显示控制步骤,基于所述再生步骤中的所述候补区间的声音的再生结果,在表示所述录音声音的时间的推移的显示信息中附加对该候补区间的声音的发声位置进行确定的标记并显示于显示部。
10.根据权利要求9所述的声音检索方法,其中,
所述显示控制步骤将与所述检索步骤检索到的多个候补区间对应的候补识别信息作为检索结果而显示于所述显示部,
所述再生步骤对与显示于所述显示部的候补识别信息之中的、由用户选择出的候补识别信息对应的候补区间的声音进行再生。
11.根据权利要求10所述的声音检索方法,其中,
所述显示控制步骤将分别与所述多个候补区间对应的候补识别信息按照似然度顺序显示于显示部。
12.根据权利要求9~11中任一项所述的声音检索方法,其中,
所述显示控制步骤在所述候补区间的声音的再生后从用户有表示与检索词一致的指示的情况下,在所述声音波形上显示所述标记。
13.根据权利要求9~12中任一项所述的声音检索方法,其中,
所述显示控制步骤伴随所述再生步骤的候补区间的声音的再生,在显示于所述显示部的声音波形上显示再生位置。
14.根据权利要求9~13中任一项所述的声音检索方法,其中,
所述显示控制步骤对所述标记附加所述检索词的文本。
15.根据权利要求9~14中任一项所述的声音检索方法,其中,
所述再生步骤在所述显示控制步骤显示标记后再生所述录音声音时,从该标记所确定的发声位置起再生声音。
16.根据权利要求9~15中任一项所述的声音检索方法,其中,
表示所述录音声音的时间的推移的显示信息是声音波形。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015033952A JP6128146B2 (ja) | 2015-02-24 | 2015-02-24 | 音声検索装置、音声検索方法及びプログラム |
JP2015-033952 | 2015-02-24 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105912558A true CN105912558A (zh) | 2016-08-31 |
Family
ID=56693326
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610091055.7A Pending CN105912558A (zh) | 2015-02-24 | 2016-02-18 | 声音检索装置和声音检索方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9734871B2 (zh) |
JP (1) | JP6128146B2 (zh) |
CN (1) | CN105912558A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109920409A (zh) * | 2019-02-19 | 2019-06-21 | 标贝(深圳)科技有限公司 | 一种声音检索方法、装置、系统及存储介质 |
CN110033790A (zh) * | 2017-12-25 | 2019-07-19 | 卡西欧计算机株式会社 | 声音认识装置、机器人、声音认识方法以及记录介质 |
CN113329314A (zh) * | 2020-02-28 | 2021-08-31 | 日本电产株式会社 | 声源可视化装置和声源可视化程序 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10366442B1 (en) * | 2015-05-06 | 2019-07-30 | Amazon Technologies, Inc. | Systems and methods to update shopping cart |
USD881938S1 (en) * | 2017-05-18 | 2020-04-21 | Welch Allyn, Inc. | Electronic display screen of a medical device with an icon |
AU2018269372B2 (en) | 2017-05-18 | 2020-08-06 | Welch Allyn, Inc. | Fundus image capturing |
US11403834B2 (en) | 2017-09-28 | 2022-08-02 | Nec Corporation | Sound recording device, recording medium, and image recording device |
US11308427B2 (en) | 2018-09-28 | 2022-04-19 | Evernote Corporation | Event transcript presentation |
US11361168B2 (en) * | 2018-10-16 | 2022-06-14 | Rovi Guides, Inc. | Systems and methods for replaying content dialogue in an alternate language |
USD913315S1 (en) * | 2019-05-31 | 2021-03-16 | Apple Inc. | Electronic device with graphical user interface |
JP6953597B1 (ja) * | 2020-09-17 | 2021-10-27 | ベルフェイス株式会社 | 情報処理装置、プログラム及び情報処理方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090006087A1 (en) * | 2007-06-28 | 2009-01-01 | Noriko Imoto | Synchronization of an input text of a speech with a recording of the speech |
CN102236686A (zh) * | 2010-05-07 | 2011-11-09 | 盛乐信息技术(上海)有限公司 | 语音分段式歌曲检索方法 |
CN103000176A (zh) * | 2012-12-28 | 2013-03-27 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法和系统 |
CN103021412A (zh) * | 2012-12-28 | 2013-04-03 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法和系统 |
CN104143353A (zh) * | 2013-05-08 | 2014-11-12 | 奥林巴斯映像株式会社 | 声音记录再现装置和声音记录再现装置的控制方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3664499B2 (ja) * | 1994-08-16 | 2005-06-29 | 富士通株式会社 | 音声情報の処理方法及びその装置 |
US6404856B1 (en) * | 1998-04-10 | 2002-06-11 | Fuji Xerox Co., Ltd. | System for recording, annotating and indexing audio data |
US6603921B1 (en) * | 1998-07-01 | 2003-08-05 | International Business Machines Corporation | Audio/video archive system and method for automatic indexing and searching |
US6876729B1 (en) | 1999-11-16 | 2005-04-05 | Avaya Technology Corp. | Bookmarking voice messages |
US6697796B2 (en) * | 2000-01-13 | 2004-02-24 | Agere Systems Inc. | Voice clip search |
US6507643B1 (en) * | 2000-03-16 | 2003-01-14 | Breveon Incorporated | Speech recognition system and method for converting voice mail messages to electronic mail messages |
JP2001290496A (ja) | 2000-04-07 | 2001-10-19 | Ricoh Co Ltd | 音声検索装置および音声検索方法および記録媒体 |
WO2004003688A2 (en) * | 2002-06-26 | 2004-01-08 | Kahn M D J D Jonathan | A method for comparing a transcribed text file with a previously created file |
JP4080965B2 (ja) * | 2003-07-15 | 2008-04-23 | 株式会社東芝 | 情報提示装置及び情報提示方法 |
JP2005107617A (ja) * | 2003-09-29 | 2005-04-21 | Sony Corp | 音声データ検索装置。 |
US8209171B2 (en) * | 2007-08-07 | 2012-06-26 | Aurix Limited | Methods and apparatus relating to searching of spoken audio data |
JP5239600B2 (ja) * | 2008-08-04 | 2013-07-17 | 富士通株式会社 | 話者判別プログラム、話者判別装置、および話者判別方法 |
US20130035936A1 (en) * | 2011-08-02 | 2013-02-07 | Nexidia Inc. | Language transcription |
-
2015
- 2015-02-24 JP JP2015033952A patent/JP6128146B2/ja active Active
-
2016
- 2016-02-02 US US15/013,681 patent/US9734871B2/en active Active
- 2016-02-18 CN CN201610091055.7A patent/CN105912558A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090006087A1 (en) * | 2007-06-28 | 2009-01-01 | Noriko Imoto | Synchronization of an input text of a speech with a recording of the speech |
CN102236686A (zh) * | 2010-05-07 | 2011-11-09 | 盛乐信息技术(上海)有限公司 | 语音分段式歌曲检索方法 |
CN103000176A (zh) * | 2012-12-28 | 2013-03-27 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法和系统 |
CN103021412A (zh) * | 2012-12-28 | 2013-04-03 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法和系统 |
CN104143353A (zh) * | 2013-05-08 | 2014-11-12 | 奥林巴斯映像株式会社 | 声音记录再现装置和声音记录再现装置的控制方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110033790A (zh) * | 2017-12-25 | 2019-07-19 | 卡西欧计算机株式会社 | 声音认识装置、机器人、声音认识方法以及记录介质 |
CN110033790B (zh) * | 2017-12-25 | 2023-05-23 | 卡西欧计算机株式会社 | 声音认识装置、机器人、声音认识方法以及记录介质 |
CN109920409A (zh) * | 2019-02-19 | 2019-06-21 | 标贝(深圳)科技有限公司 | 一种声音检索方法、装置、系统及存储介质 |
CN109920409B (zh) * | 2019-02-19 | 2021-07-09 | 标贝(深圳)科技有限公司 | 一种声音检索方法、装置、系统及存储介质 |
CN113329314A (zh) * | 2020-02-28 | 2021-08-31 | 日本电产株式会社 | 声源可视化装置和声源可视化程序 |
CN113329314B (zh) * | 2020-02-28 | 2023-04-07 | 日本电产株式会社 | 声源可视化装置和组入声源可视化程序的信息处理装置 |
Also Published As
Publication number | Publication date |
---|---|
JP6128146B2 (ja) | 2017-05-17 |
US9734871B2 (en) | 2017-08-15 |
US20160247542A1 (en) | 2016-08-25 |
JP2016157225A (ja) | 2016-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105912558A (zh) | 声音检索装置和声音检索方法 | |
US11080474B2 (en) | Calculations on sound associated with cells in spreadsheets | |
US6321196B1 (en) | Phonetic spelling for speech recognition | |
JP6464411B2 (ja) | 電子機器、方法及びプログラム | |
JP5685702B2 (ja) | 音声認識結果管理装置および音声認識結果表示方法 | |
JP2014219614A (ja) | オーディオ装置、ビデオ装置及びコンピュータプログラム | |
JP5756555B1 (ja) | 発話評価装置、発話評価方法及びプログラム | |
JP2010078979A (ja) | 音声録音装置、録音音声検索方法及びプログラム | |
KR20080000203A (ko) | 음성인식을 이용한 음악 파일 검색 방법 | |
KR101164379B1 (ko) | 사용자 맞춤형 컨텐츠 제작이 가능한 학습 장치 및 이를 이용한 학습 방법 | |
CN104756181A (zh) | 回放装置、设置装置、回放方法及程序 | |
KR101590078B1 (ko) | 음성 아카이빙 장치 및 방법 | |
US20210064327A1 (en) | Audio highlighter | |
KR100830689B1 (ko) | 청킹을 이용한 언어학습용 멀티미디어 재생방법 및 상기 재생방법이 실행되는 프로그램이 기록된 기록매체 | |
TWI414960B (zh) | 一種電子書的聲音訊號產生方法及電子書閱讀器 | |
US20100222905A1 (en) | Electronic apparatus with an interactive audio file recording function and method thereof | |
JP4622728B2 (ja) | 音声再生装置および音声再生処理プログラム | |
US10460178B1 (en) | Automated production of chapter file for video player | |
JP2018097239A (ja) | 音声再生装置及びプログラム | |
CN110890095A (zh) | 语音检测方法、推荐方法、装置、存储介质和电子设备 | |
US20060084047A1 (en) | System and method of segmented language learning | |
JP2016062062A (ja) | 音声出力装置、音声出力プログラムおよび音声出力方法 | |
JP2013092912A (ja) | 情報処理装置、情報処理方法、並びにプログラム | |
JP7142315B2 (ja) | 説明支援装置および説明支援方法 | |
KR100695268B1 (ko) | 일괄 자동복습 기능을 갖춘 데이터 재생장치 및 재생방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160831 |